当前位置: 首页 > 技术与资源 > 专家博客 > 正文

ORALCE数据泵自动同步思路

2014-12-30 17:50:44

文章来源:黎君原-个人主页

Oracle的数据泵是oracle自带的一种数据同步工具,自从10g版本后开始支持,能同步表结构、表数据等信息。对笔者来说,这是一个让人既爱又恨的工具:数据泵能顺利实现你期待的功能,解决绝大部分问题,可谓一个不可多得的助手;数据泵却又有着这样那样的bug让你抓狂,当然,从笔者这么多年的使用经验来看,这些bug仅会影响数据泵本身,而不会对数据库的稳定性造成影响。

在实现这个数据泵自动同步思路前,笔者是这样做的:

1、利用数据泵初始化表结构(排除约束索引)

2、把待导出的数据分成多份,利用数据泵的DATA_ONLY模式进行导出,并传输到目标端

3、一次性发起各种导入脚本

4、发起创建索引约束脚本

5、各种查漏补缺

这种方法解决了笔者大部分问题,直到遇到某个项目

1、客户整个同步时间非常敏感

2、源端文件系统空间紧张

3、目标端主机配置较低

  

所谓“穷则变,变则通,通则久”,在面临上述挑战后,笔者以及另一位合作的兄弟被逼出了解决方法。

笔者此处的自动初始化适用于下述场景:

1、数据泵待导出的表较多,其中数据量较大的表可分成多个批次

2、数据泵的源端以及目标端能通过某种协议进行通讯,如ssh协议、telnet协议

3、导出时间点不能非常严格(如所有数据并需同一个时间点导出)

下面是实施的重点

一、确认数据泵源端以及目标端的通讯方式

笔者采用ssh协议,配置目标端到源端的单边信任关系,最终确保下述两点:

1) 目标端能通过ssh执行源端命令,且无需输入密码

2) 目标端能通过scp命令从源端拷贝文件,且无需输入密码

二、确保对数据泵源端合理分批

下面为笔者的拆分方法:

1) 以用户为单位,按数据量进行拆分的,小用户一批,大用户则分成多批。

2) 通过数据量由大到小粗略拆分后,提取出数据量特别大的表、变更特别频繁的表单独成批

3) 拆分批次宁多勿少,多拆分几个批次,不会影响导出进度,甚至还能增加成功概率或者加快导出进度

4) 如果数据泵TABLE参数直接指定表名,那么单个批次总的字符数,不能超过数据泵TABLE参数限制(貌似是4096,待证实)

三、单独编写导出、传输、导入shell脚本

单个shell脚本中,通过传入的参数,自动生成数据泵等文件,并自动执行。

调用数据泵的操作中,不能使用nohup。

数据泵参数应当具备灵活性,如能指定并行数、导出目录等。

建议TABLE参数中指定对应的表名,这种方式效率相对高些,这是经验值。

四、编写调度脚本

建议在目标端进行总的调度。

建议控制源端的并发数,笔者把导出以及scp传输看作连贯的操作,源端导出或者scp的批次不超过4次。

成果展示

同样环境下,600GB的数据量(仅估算TABLE,不估算INDEX),同步时间由12~13小时减少到3~4小时。

上一篇:关于分区的高可用性实验
下一篇:LVS集群系统网络核心原理分析