手把手教你搭建数据库服务器平台 | DBA VS 自动化运维究竟谁与争锋？

现代化的程度越高，对数据库的依赖性越大。数据安全性和系统的安全性也就越大，比如公司业务系统。数据库是直接的存储地方，宕机带来的损失可能是按分钟或者秒算的。而谁对这些数据库负责--DBA。所以很多公司，企业都是找有经验的DBA ，他们也是在为他们的系统买保险。这也是为什么企业不愿意招一个没有实战经验的DBA来管理自己的数据库。

试想某个省移动的数据库出了问题，造成数据丢失，在比如银行数据库挂了。他们带来的损失不光是影响正常的业务运行，还有可能是数据错误。假如你在银行存了100万，结果银行一不小心，在数据库里少了几个0. 这个是谁也不愿意看到的。当然以上都是假设的情况。因为像这些数据重要性极高的单位，他们都有一整套数据的保护机制，是基本不会发生这种情况的。

下面就来总结一下如何的来搭建一个数据库平台。主要从参数和一些特性的配置上来说明。

一、Linux系统

说明，在安装操作系统之前，现在服务器上做个RAID，一般都用RAID5。

1．LINUX磁盘划分：

a．对于内置2块磁盘（146GB）的系统，/目录20GB，SWAP与内存大小相当（8GB以下内存机器SWAP配置8GB），/boot 100MB。如果作为应用服务器，那么其余空间建立/apps文件系统，mke2fs –j 命令；如果作为数据库平台，那么建立/dba文件系统20GB,其余建立/u01文件系统。

b．对于内置4-6块磁盘的系统，/目录60GB，SWAP与内存大小相当（8GB以下内存机器SWAP配置8GB），/boot 100MB。如果作为应用服务器，那么其余空间建立/apps文件系统，mke2fs –j命令；如果作为数据库平台，那么建立/dba文件系统40GB,其余建立/u01文件系统。

c．对于Oracle数据文件目录文件系统使用mke2fs –j –T largefiles命令建立。

2．对于非外接存储情况下：

ORACLE目录标准：ORACLE_HOME=/dba/app/oracle/product/10.2.0.4(按版本指定)

ORACLE_BASE=/dba(dump目录为/dba/admin/sid/)

Datafile目录为/u01/oradata/sid

归档空间目录/u01/oradata/archive_sid

对于有外接存储(/u02…)情况下：

ORACLE目录标准：ORACLE_HOME=/dba/app/oracle/product/10.2.0.4(按版本指定)

ORACLE_BASE=/u01(dump目录为/u01/admin/sid/)

Datafile目录为/u02/oradata/sid

归档空间目录/u01/oradata/archive_sid

ORACLE建库采用CUSTOMER方式，直接更改初始UNDO和TEMP空间8GB（或者4GB，或者通过增加文件数目到更大，根据业务系统），system空间512MB（或者1GB）。Redolog为100MB，单个数据文件大小以8GB为宜（因EXT3文件系统特性使然），建议数据文件一次性划分到8G，以保证数据文件的连续性。

3．参数及服务配置：

方法一：建立NTP时间同步服务，/etc/ntp.conf中加入server 10.0.30.172，执行# ntpdate 10.0.30.172，# service ntpd start ，# chkconfig --level 235 ntpd on

方法二：时间同步配置（编辑crontab）

输入命令：ntpdate 10.0.30.172

crontab –e（编辑crontab）

按i进入输入状态，输入以下一行：

01 01 * * * root /usr/sbin/ntpdate 10.0.30.172 >/dev/null 2>&1（每天01：01与时间服务器10.0.30.172同步时间）

：wq！（保存退出）

4. Linux内核参数修改

修改内核参数/etc/sysctl.conf，对于8GB-16GB内存机器

kernel.shmall = 2097152 à 4194304 ( 4KB单位，总内存大小)kernel.shmmax = à8589934592（实际物理内存的2/3）kernel.shmmni = 4096

对于16GB内存以上机器

kernel.shmall = 2097152 à 8388608 ( 4KB单位，总内存大小)kernel.shmmax = à10179869184（比实际物理内存的2/3）kernel.shmmni = 4096 –>8192net.ipv4.ip_local_port_range = 9000 65500net.core.rmem_default = 262144net.core.rmem_max = 4194304net.core.wmem_default = 262144net.core.wmem_max=1048586

根据应用情况修改进程数限制/etc/security/limits.conf

*softnproc2047*hard nproc 16384*soft nofile1024 ->2048*hard nofile65536

注：关于内核参数的修改，在Oracle 官方的安装文档里也有相关说明：

/docs/cd/B28359_01/install.111/b32002/pre_install.htm#BABFDGHJ

在连接中的第 2.7 Configure Oracle Installation Owner Shell Limits 节。也有详细介绍。

二、 Oracle配置

安装实例之前，记得修改db_files ， maxdatafiles 和MAXLOGHISTORY 参数。这2个参数是放在控制文件里的，如果在安装实例的时候没有设置成合适的值，以后调整起来会很麻烦。

具体参考：

Oracle db_files 和 maxdatafiles 说明/xujinyang/article/details/6829233

1.创建pfile参数

Oracle 默认只会创建spfile，但这是个二进制文件，无法进行修改。为了保险期间。我们要在开始就创建一个pfile 文件,语句很简单，但作用不可忽略。

SQL>Create pfile from spfile;

Windows下生成的pfile文件默认在$ORACLE_HOME/database下

Linux默认位置在$ORACLE_HOME/dbs下

2.SGA， PGA设置

先来看几个SQL

SQL> show parameter sgaNAME TYPE VALUE------------------------------------ ----------- -------lock_sgabooleanFALSEpre_page_sga booleanFALSEsga_max_size big integer 584Msga_targetbig integer 584MSQL> show parameter pgaNAMETYPE VALUE------------------------------------ ----------- ------pga_aggregate_target big integer 194MSQL> select name,value ,ISSYS_MODIFIABLE from v$parameter where name like 'sga%';NAME VALUE ISSYS_MOD--------------- --------------- ---------sga_max_size 612368384 FALSEsga_target612368384 IMMEDIATESQL> select name,value,issys_modifiable from v$parameter where name like 'pga%';NAME VALUE ISSYS_MOD------------------------------ ---------pga_aggregate_target 203423744 IMMEDIATE

如果ISSYS_MODIFIABLE 返回的是false，说明该参数无法用alter system语句动态修改,需要重启数据库。所以sga_max_size 是不可以动态调整的。

在安装之后我们要对PGA 和 SGA 进行设置。因为sga_max_size 是非动态的，修改后需要重启，所以我们在开始设置的时候可以把sga_max_size设大一点。sga_target 是动态的，我们可以根绝需要进行调整。这个调整主要根据命中率来。这里就不多说。当指定SGA_TARGET小于SGA_MAX_SIZE，实例重启后，SGA_MAX_SIZE就自动变为和SGA_TARGET一样的值了。

对于OLTP系统，一般的建议是将SGA_MAX_SIZE 设为物理内存的60%，PGA 设为20%。

下表是一个参考值：

这个参数修改可以在pfile里修改，也可以通过命令直接来：

SQL> alter system set pga_aggregate_target=150m scope=spfile;系统已更改。SQL> alter system set sga_target=500m scope=spfile;系统已更改。SQL> alter system set sga_max_size=510m scope=spfile; --要是参数生效，需要重启系统已更改。SQL> alter system set sga_max_size=510m scope=both;alter system set sga_max_size=510m scope=both

第1行出现错误:

ORA-02095: 无法修改指定的初始化参数SQL> alter system set sga_target=550m scope=both;

系统已更改。

SQL> show parameter sgaNAMETYPE VALUE------------------------------------ ----------- --------lock_sga booleanFALSEpre_page_sgabooleanFALSEsga_max_sizebig integer 584Msga_target big integer 550M

以上都是针对Oracle 10g 版本的。如果是9i的话，还需要对每个参数进行配置，如Share Pool，DB buffer，Java Pool，redo log buffer等。

3.UNDO, TEMP表空间设置

3.1 UNDO

undo 表空间放的是数据的前镜像，当做某个记录多修改时，原记录就会放到undo 中。所以Undo 表空间的大小影响数据的恢复能力。对它的配置要用点心思。

SQL> show parameter undoNAME TYPE VALUE------------------------------------ ----------- -----------undo_management stringAUTOundo_retention integer900undo_tablespace stringUNDOTBS1

undo_retention 只是指定undo 数据的过期时间，默认是900s，15分钟。建议改成10800s，即3个小时。

SQL> alter system set undo_retention=10800 scope=both;

系统已更改。

至于undo 表空间的大小，如果磁盘空间允许，就将表空间设为32G，分成4个数据文件，单个数据文件8G。如果空间有限，就设为8G或者16G（8*2）。

不过现在的服务器硬盘都是比较大，如果放在存储上，那空间更大，所以32G。相对而言就就是一个很小的空间了。

ALTERDATABASEDATAFILE'D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/UNDOTBS01.DBF'RESIZE50M;ALTER TABLESPACE UNDOTBS1 ADD DATAFILE 'D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/UNDOTBS02.DBF' SIZE 5M AUTOEXTEND ON NEXT 5M MAXSIZE UNLIMITED;

大量的DML 操作会产生大量的undo，尤其是update，delete。当Undo 特别大的时候，我们可以把undo 删了重建。

3.2 Temp

临时表空间主要用途是在数据库进行排序运算、管理索引、访问视图等操作时提供临时的运算空间，当运算完成之后系统会自动清理。当oracle里需要用到sort的时候，PGA中sort_area_size大小不够时，将会把数据放入临时表空间里进行排序，同时如果有异常情况的话，也会被放入临时表空间,正常来说，在完成Select语句、create index等一些使用TEMP表空间的排序操作后，Oracle是会自动释放掉临时段的。但有些有侯我们则会遇到临时段没有被释放，TEMP表空间几乎满的状况，甚至是我们重启了数据库仍没有解决问题。

ALTERDATABASETEMPFILE'D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/TEMP01.DBF'RESIZE30M;ALTER TABLESPACE TEMP ADD TEMPFILE 'D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/TEMP02.DBF' SIZE 10M AUTOEXTEND ON NEXT 1M MAXSIZE UNLIMITED;

和UNDO 一样，可以设为32G （4*8G）或者16G（2*8G），具体情况具体对待。如果遇到temp tablespace 满了的话，我们也可以重建其表空间。

4.修改sessions和processes参数

数据库默认的sessions 是170，Processes 是150. 这2个数值肯定是不能满足系统需要的。我们需要把这2个参数调大一点。方法还是一样，可以直接修改pfile，也可以用SQL. 建议把processes改成1000.sessions 改成2000. 当然具体情况具体对待。

SQL> select name,value,issys_modifiable from v$parameter where name='sessions';NAME VALUEISSYS_MOD-------------------- ---------- ---------sessions 170 FALSESQL> select name,value,issys_modifiable from v$parameter where name='processes';NAME VALUEISSYS_MOD-------------------- ---------- ---------processes 150 FALSE

从上面的结果我们可以知道，修改这2个参数必须重启数据库。

SQL> alter system set sessions=2000 scope=spfile;系统已更改。SQL> alter system set processes=1000 scope=spfile;系统已更改。

5. 启动归档模式，并部署定期删除归档文件脚本。

生产库必定运行在归档模式下，因为通过归档，我们对数据进行恢复。我们RMAN 备份，Data Guard也需要归档文件。数据库归档非归档的切换比较简单。

SQL>altersystemsetlog_archive_dest_1='location=/u01/newccs_archive';SQL>shutdownimmediateSQL>startupmount;SQL>alterdatabasearchivelog;SQL>alterdatabaseopen;SQL>archiveloglist;DatabaselogmodeArchiveModeAutomaticarchivalEnabledArchivedestination/u01/newccs_archiveOldestonlinelogsequence27622Nextlogsequencetoarchive0Current log sequence 27624

要强调的一点，在切换为归档之前一定要指定归档目录，即log_archive_dest_1。这个目录用来指定归档文件存放的位置，如果不指定，就会放到闪回区。闪回区默认只有2G，一但满了之后就会出现问题，如导致数据库hang或者不能启动。

ORA-16014:logstringsequence#stringnotarchived,noavailabledestinationsFlashRecoveryArea空间不足/xujinyang/article/details/6924330

6.开启Flashback

Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。

在Oracle 10g中， Flash back家族分为以下成员：Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashback Version Query， Flashback Transaction Query 三种) 和Flashback Table。

Flashback 是不完全恢复的一种补充，它很灵活。但是Flashback Database默认是关闭的，所以我们要启动它。

要注意的是：启动它必须在mount 状态

SQL>startupmountSQL>selectname,current_scn,flashback_onfromv$database;NAMECURRENT_SCNFLASHBACK_ON--------------------------------------ORCL0NOSQL>alterdatabaseflashbackon;数据库已更改。SQL>selectname,current_scn,flashback_onfromv$database;NAMECURRENT_SCNFLASHBACK_ON--------------------------------------ORCL0 YES

7.检查redo

Redo 里记录的是数据库的操作。在相关事务操作的时候，都会是先写redo，等redo 写完会再去修改相应的数据。这也Oracle的一种机制。如果出现问题，也可以通过这些记录进行恢复。

Redo 默认有3个组，每个组有一个文件，每个文件50M。

将redo log 的文件大小改成100M一个。每组创建2个成员。最好将每组的2个成员放在不同的磁盘上。因为写redo 的时候是并行的，放在一起，可能会出现等待事件：Log file parallel write。

与控制文件一样，如果每组具有多个成员（事实也应当如此），那么仍然不必担心保持这些成员同步的问题。LGWR能够确保对所有成员进行并行写操作，从而使这些成员完全相同。如果丢失某个组的一个成员，只要还存在其他成员，数据库仍然能够继续运行。

显示当前归档日志组和成员：

SQL>selectgroup#,memberfromv$logfile;GROUP#MEMBER-------------------------------------------------------------3D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/REDO03.LOG

2D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/REDO02.LOG

1D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/REDO01.LOG

添加redo log组：

SQL>alterdatabaseaddlogfilegroup4('D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/REDO04.LOG')size10m;SQL>selectgroup#,memberfromv$logfile;GROUP#MEMBER--------------------------------------------------------------3 D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/REDO03.LOG

2 D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/REDO02.LOG

1 D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/REDO01.LOG

4D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/REDO04.LOG

检查新加入的log状态：

SQL>selectgroup#,sequence#,bytes,members,statusfromv$log;GROUP#SEQUENCE#BYTESMEMBERSSTATUS---------- ---------- ---------- ---------- ----------------

1 17 524288001 CURRENT

40 104857601 UNUSED

3 16 524288001 INACTIVE

215524288001INACTIVE

添加新的文件到group 1：

SQL> alter database add logfile member 'D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/REDO05.LOG' to group 1;SQL> select group#,sequence#,bytes,members,status from v$log;

GROUP#SEQUENCE#BYTESMEMBERSSTATUS--------------------------------------------------------1 17 524288002 CURRENT

40 104857601 UNUSED

3 16 524288001 INACTIVE

2 15 524288001 INACTIVE这里的group组中的member就变为2；SQL> select member from v$logfile where group#=1;

MEMBER-------------------------------------------------------

D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/REDO01.LOG

D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/REDO05.LOG

删除新增的group 4

SQL> alter database drop logfile group 4;

删除新增的group 1的logfile；

SQL> alter database drop logfile member 'D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/REDO05.LOG';

清空logfile：

SQL>alterdatabaseclearlogfile'D:/ORACLE/PRODUCT/10.2.0/ORADATA/ORCL/REDO01.LOG';SQL>selectgroup#,sequence#,bytes,members,statusfromv$log;GROUP#SEQUENCE#BYTESMEMBERSSTATUS---------- ---------- ---------- ---------- ----------------

1 17 524288001 ACTIVE

2 18 524288001 CURRENT

30 524288001 UNUSED

8.设置CONTROL_FILE_RECORD_KEEP_TIME参数

该参数设置控制文件中存储备份记录的时间，在用RMAN的时候会涉及到这个参数。备份记录包括完全的数据库备份记录，以及指定的数据文件，控制文件，参数文件和归档目录的备份记录。数据库参数CONTROL_FILE_RECORD_KEEP_TIME以天为单位（默认值为7天），因此在默认情况下，Oracle 会将RMAN备份和恢复记录保存7天。可以将该参数设置为0到365之间的任意值。

CONTROL_FILE_RECORD_KEEP_TIME参数会影响一系列的数据库操作。首先，产生RMAN备份时，由于与这些备份相关的记录存储在控制文件中，所以该参数直接影响数据库控制文件的大小。备份记录将不断的保存在控制文件中，控制文件将耗尽空间。这时，Oracle 会扩展控制文件来调整备份记录所需的存储空间。此外，设置为0时，将禁止扩展控制文件，并且会使得RMAN备份的保存周期不稳定。

建议将CONTROL_FILE_RECORD_KEEP_TIME 参数设置为不小于选中数据库的备份保存周期，否则就可能在备份介质上有数据库备份，但是控制文件不存在与备份相关的备份记录，在这种情况下，将无法恢复这些较早的文件。这个参数根据自己的本份策略来决定。

SQL>selectname,valuefromv$parameterwherename='control_file_record_keep_time';NAMEVALUE-------------------------------------------------------------------------------control_file_record_keep_time7SQL>altersystemsetcontrol_file_record_keep_time=20;系统已更改。SQL>showparametercontrol_file_record_keep_timeNAMETYPEVALUE-----------------------------------------------------------------------------control_file_record_keep_timeinteger20SQL>

9.设置open_links_per_instance和open_links参数

这2个参数修改之后，需要重启才能生效，所以，在安装DB的时候，就把这个参数修改了。默认值是4，如果用到话就太小了。所以在安装的时候，就给修改了。修改建议值：100。

SQL> alter system set open_links=100 scope=spfile;

系统已更改。

10.修改用户的profile 参数

SQL>alter profile PROFILE_PERSONAL limit FAILED_LOGIN_ATTEMPTS UNLIMITED;

11.部署statistic Job

Oracle 10g statistic数据统计，Oracle会根据这些统计信息来决定是走RBO(Rule-BasedOptimization)，还是走CBO(Cost-BasedOptimization)，会去选择哪种执行计划更划算,影响是否走相关的索引等.如果是CBO的话，它依靠准确的（或者说比较准确的）统计信息来产生优化的执行路径,如果没有做过统计，CBO也就没有做cost评估的依据，所以虽然是CBO，但是实际上还是用RBO了，而且如果不常做统计的话，由于CBO是以统计为依据的，所以这时CBO的依据信息有问题，CBO也会不准。所以 DBA 需要确保定期收集统计信息，创建另一个执行核对清单。

创建存储过程：

CREATEORREPLACEPROCEDUREUSER."ANALYZEDB"ISCURSORget_ownertableISSELECTtable_nameFROMuser_tables;ownertableget_ownertable%ROWTYPE;BEGINOPENget_ownertable;LOOPFETCHget_ownertableINTOownertable;EXITWHENget_ownertable%NOTFOUND;EXECUTEIMMEDIATE'analyzetable'||ownertable.table_name||'computestatisticsfortableforallindexesforallindexedcolumns';ENDLOOP;EXCEPTIONWHENOTHERSTHENRAISE;END;

将存储过程写进JOB

DECLAREXNUMBER;BEGINSYS.DBMS_JOB.SUBMIT(job=>X,what=>'ANALYZEDB;',next_date=>to_date('14-10-06:00:00','dd/mm/yyyyhh24:mi:ss'),interval=>'trunc(sysdate+7)+6/24',no_parse=>FALSE);SYS.DBMS_OUTPUT.PUT_LINE('JobNumberis:'||to_char(x));COMMIT;END;

具体多长时间执行一次，根据自己的业务来决定，这个Job对DB的影响是比较大的，找个业务不忙的时候来执行。

三、小结

作为一个DBA，我们要考虑的是如何保证系统7*24的正常运行，如何保证系统高效的运行，还有就是保证数据的安全性。所有的监控都是辅助的，关键还得靠DBA，需要DBA的经验来处理各种异常情况。就像电视剧《士兵突击》里老A袁朗讲的一句话：战争的最后，还是人与人之间的较量，同样对数据库的维护最终还是要靠DBA，用存储也罢，高性能的服务器也罢，使用更健壮的监控的系统也罢。但这些都是机器，谁也不能保证这些硬件或者软件100% 不出问题，这些只是我们的工具，就像士兵使用的抢一样，保养的好，就好使，但也不能保证它不出问题。指不定哪天就出先故障或者出现bug。所以经验对一个DBA来说，是一笔财富。

最后强调一点，要养成做备份的习惯，（关于备份，我们发过很多文章，请看下方“相关推荐”）慎用RM命令。只要有备份, 就还有挽回的余地。不经想起去年帮一个朋友恢复过的一个数据库。当时的情况是：数据库除了半年前的一次冷备外，没有其他的备份，也没有归档。然后有一天出了问题，朋友折腾了半天，实在搞不定。拿到这样的库，我也没办法，最后用了最近一次的冷备还原了下。数据丢失了半年。教训也是深刻的。

相关推荐：

数据千万条,备份第一条:VFEmail被擦除所有数据面临关停

静默错误：为什么看了那么多灾难，还是过不好备份这一关？

备份恢复:如何让xtrabackup恢复速度提升20倍？

我也是刚踏上DBA的路，希望能在这条路上能走的更远，借用网友的吉言：成为明日之eygle(Oracle ACE Director)。

来源：/xujinyang

资源下载

关注公众号：数据和云（OraNews）回复关键字获取

DTCC ，数据库大会PPT

DTC， DTC 大会 PPT

ENMOBK，《Oracle性能优化与诊断案例》

DBALIFE，“DBA 的一天”海报