当前位置: 首页 > 技术与资源 > 技术分享 > 正文

服务器raid信息丢失应对方案

2015-12-30 11:59:31

作者:郭国华新炬网络高级技术专家。


在服务器硬件维修过程中,RAID信息的丢失造成用户数据的全部丢失等各种情况都是灾难性事故。我们要如何应对此类问题呢?

一、硬盘

涉及到硬盘,raid卡,硬盘背板,SAS线更换,都有可能导致raid信息丢失,致使数据丢失,造成重大损失,需严格按以下的步骤进行:

(一)硬盘更换:

更换硬盘,可以在线更换,并且有raid信息,可以保证数据的恢复,风险性是最小的。

硬盘上存储服务器的全部数据,硬盘是一种机电设备,盘体由多个叠在一起的圆形盘片构成(盘片为金属磁性材料,可在两面存储数据),并以圆心为轴旋转(很象唱机播放唱片),读写头通过机械臂与盘片相互靠近,并将数据以位为单位存储和读取。当您读取一个文件时,读写头沿着旋转的盘片表面前后移动,直到找到需要的数据。系统通过磁盘控制器将数据装载到内存中。在存储数据时,计算机再将数据以磁记录的方式写回到硬盘中,正是由于它是机电设备,故障率要高于设施中的其它设备。如更换不当就会引起系统崩溃,甚至导致信息丢失,造成不可挽回的损失

更换风险:损坏新硬盘,损坏硬盘背板,丢失数据

A. 离线更换:适用与非热插拔或可以停机的硬盘更换,优点是风险小,缺点是需要停机,影响应用。

1.   更换前备份数据,待数据全部备份完成且确认备份完整性后实施更换;

2.   关机;

3.   拔出损坏的硬盘;

4.   插入新的硬盘(损坏硬盘的槽位);

5.   开机如果成功硬盘将会与其他盘自动同步数据;

B. 在线更换:适用用热插拔硬盘,优点,不影响服务器正常运行和用户的应用,缺点,风险稍大。

1.   更换前备份数据,待数据全部备份完成且确认备份完整性后实施更换;

2.   拔出已损坏硬盘(拔到一半的位置,不要全拔出来。注意必须在9秒内拔盘。等待秒钟拔出其余盘);

3.   插入新硬盘,插入时先把硬盘插入一半待硬盘上的灯开始闪全部插入,9秒钟内全部插入;

4.   如果做了raid全部插入后硬盘会自动同步其他盘数据(raid 0除外)。

硬盘更换失败回退方案:

1.   判断失败原因

2.   如果新的硬盘有问题更换另外新的硬盘。

3.   如果数据丢失,待硬盘更换完成,利用备份数据恢复数据

(二)硬盘背板更换

更换背板:由于硬盘是一个机电设备,所以它的故障率要高于设施中的其它设备,为了保证系统能连续工作,在磁盘阵列和服务器中都设有一块硬盘热插拔背板,以便硬盘发生故障时能在不断电的情况下更换硬盘即通常说的硬盘热插拔,但在硬盘热插拔时会给电路系统带来很大的冲击电流,如不采取相应措施就会引起系统崩溃,甚至导致信息丢失,造成不可挽回的损失。

各大公司一般采用控制器或单片机加限流电路,可进行驱动器状况监控并在热插拔底板上显示磁盘驱动器的状态信息。这就允许客户快速地确认并更换一个已经无效的或者可能有故障的磁盘驱动器。在更换了损坏的硬盘后,RAID的重建可自动进行,而无须再经手动操作RAID控制器来完成。在硬盘的恢复过程中,不影响系统的服务。

更换风险:丢失数据,损坏硬盘、主板。

1.   更换前备份数据,待数据全部备份完成且确认备份完整性后实施更换。

2.   关闭服务器,拔掉电源

3.   打开机箱,待服务器冷却后佩戴防静电手套拆除硬盘背板的连线。注意连接线位置,以便于正确安装。

4.   移去硬盘背板。

5.   将硬盘背板从防静电包中取出,放置背板,让背板与机箱内的沟槽对齐,让板上的连接器与系统板上的连接器对齐。

6.   连接各种连线,注意不要插混。

7.   装配好机箱,加电,成功则正常启动。

硬盘背板更换失败回退方案:

1.   判断失败原因

2.   如果新硬盘背板损坏则更换新的背板。

3.   如果因为更换不当引起主板,硬盘故障,需要更换新部件后再加电测试。

4.   如果数据丢失需要更换完成后利用备份数据恢复。

(三)SAS线更换

更换风险:丢失数据,掉盘阵,硬盘驱动器失败

更换硬盘连接线:需停机进行更换,因为有丢失数据风险,更换前备份数据,待数据全部备份完成且确认备份完整性后实施更换。

1.  关闭服务器,拔掉电源;

2.  待服务器冷却后,打开机箱;

3.  找到需要更换的SAS线;

4.  拆除坏SAS线,连接号新的SAS线;

5.  装好机箱,加电测试。

回退方案:

1.   判断失败原因是否与SAS线有关。

2.   如果新SAS线依然有问题需要等调换SAS线后再次进行更换。

3.   如果因为安装不当引起其他部件损坏待新备件完成变更后,加电测试。

4.   如果引起数据丢失,则利用先前备份好的数据进行恢复。

(四)Raid卡更换

大多情况下raid信息都是写在服务器硬盘里面,硬盘信息丢失,raid信息也会丢失,最好的方法是找专业公司来恢复数据。其中Hp近五年以内出的服务器阵列信息(包括smart、sas阵列卡)都是写在硬盘上,无法备份raid信息。

更换风险:丢失raid信息造成数据丢失

1.   因为有丢失数据风险,更换前备份数据,待数据全部备份完成且确认备份完整性后实施更换。

2.   关闭服务器

3.   待服务器冷却后,打开机箱。

4.   拆除需要更换raid卡。

5.   将新raid卡插入插槽中。

6.   装好机箱。

7.   加电进入raid卡控制界面,将新raid卡原有的信息清除。

8.   退出界面,关闭服务器将硬盘按照原有顺序接到原来接口。

9.   然后从HDD拷贝raid信息过来即可,保存退出。

Raid卡更换失败回退方案:

1,  如果已备份数据,则利用备份数据恢复

2,  如果没有备份数据

3,不要轻易尝试Rebuild、同步等操作。不要频繁开机,插拔硬盘,不可以强制上线试图激活raid

4,千万不要初始化。 初始化是磁盘阵列全部清零,相当于硬盘的低级格式化。

5,谨慎重配磁盘阵列信息。

6,断电后依次拔出硬盘并标记好序列号,找数据公司恢复数据

(五)利用已恢复的数据恢复系统应用。

如果出现数据丢失情况:可以对单盘做镜像的方式(以SAS为例)

1.   可以断电后依次拔出硬盘并标记号序列号。

2.   将硬盘挂接到不含RAID功能的SAS适配器上。RAID损坏后,要想完整备份源数据,必须保证对所有硬盘的读写都是可回溯的。为此,只能使用不含RAID功能的SAS适配器进行连接后镜像,这样才能以单硬盘的方式进行访问。

3.   将硬盘与适配器连接好。

4.   保证挂接服务器使用操作系统为WIN2003(其他系统也可以,本例以  WINDOWS为例)。

5.   进入系统后,磁盘管理里会看到多个单独的硬盘,此时切记不可初始化磁盘、分区或分配盘符给可能的磁盘分区(如果不确定是否可避免,建议不要进入磁盘管理)。

6.   利用软件WINHEX给单盘做镜像。

7.   可以使用WINHEX用逆向还原回原硬盘。

二、RAID

如果RAID信息的丢失会造成用户数据的全部丢失等各种情况的发生。为了避免类似的情况发生我们就需要从以下方面入手。

1.   Raid是什么?

2.   造成Raid信息丢失是由哪些方面造成的?

3.   维修过程中的注意事项有哪些?

(一)   Raid是什么?

Raid是英文Redundant Array of Independent Disks的缩写,翻译成中文意思是“独立磁盘冗余阵列”,有时也简称磁盘阵列(Disk Array)。

简单的说,RAID是一种把多块独立的硬盘(物理硬盘)按不同的方式组合起来形成一个硬盘组(逻辑硬盘),从而提供比单个硬盘更高的存储性能和提供数据备份技术。组成磁盘阵列的不同方式成为RAID级别(RAID Levels)。数据备份的功能是在用户数据一旦发生损坏后,利用备份信息可以使损坏数据得以恢复,从而保障了用户数据的安全性。在用户看起来,组成的磁盘组就像是一个硬盘,用户可以对它进行分区,格式化等等。总之,对磁盘阵列的操作与单个硬盘一模一样。不同的是,磁盘阵列的存储速度要比单个硬盘高很多,而且可以提供自动数据备份。

RAID技术的两大特点:一是速度、二是安全。RAID技术经过不断的发展,现在已拥有了从 RAID 0 到 6 七种基本的RAID 级别。另外,还有一些基本RAID级别的组合形式,如RAID 10(RAID 0与RAID 1的组合),RAID 50(RAID 0与RAID 5的组合)等。不同RAID 级别代表着不同的存储性能、数据安全性和存储成本。但我们最为常用的是下面的几种RAID形式。

郭国华-服务器raid信息丢失应对方案1

RAID级别的选择有三个主要因素:可用性(数据冗余)、性能和成本。如果不要求可用性,选择RAID0以获得最佳性能。如果可用性和性能是重要的而成本不是一个主要因素,则根据硬盘数量选择RAID 1。如果可用性、成本和性能都同样重要,则根据一般的数据传输和硬盘的数量选择RAID5。

(二)常见Raid 故障及可恢复性分析

1、软件故障:

a.突然断电造成RAID磁盘阵列卡信息的丢失的数据恢复。

b.重新配置RAID阵列信息,导致的数据丢失恢复。

c.如果磁盘顺序出错,将会导致系统不能识别数据。

d.误删除、误格式化、误分区、误克隆、文件解密、病毒损坏等数据恢复工作。

2、硬件损坏:

a.raid一般都会有几块硬盘,其中某一块硬盘出现损坏,数据将无法读取。(除raid0外,单块硬盘坏都不会影响数据的安全性)

b.raid出现坏道,导致数据丢失,这种恢复成功率比较大。(raid条带出故障,包括配置不当或raid卡坏导致的raid条带错误)

c.如果硬盘同时出现两块以上的损坏,恢复工作非常复杂,成功率比较低。

   常见raid故障可恢复性分析:

1、磁盘物理故障。如:电路板坏、磁头损坏、盘面坏、坏扇区、固件坏等。有些Raid级别提供容错能力,磁盘出现物理故障之后还可以正常运行系统,但是系统的整体性能将下降很多,而且数据处于危险状态。

2、RAID阵列卡出现故障。因为硬件RAID的信息存储在RAID卡上面,所以当RAID磁盘阵列卡出现问题后,数据将会丢失。我们使用自己开发的软件可以不依靠RAID卡信息恢复数据。现在大部分服务器都会在硬盘上保留一份raid的配置信息,这样raid卡故障后,还可以从硬盘上的raid信息备份恢复raid配置,保障数据的安全。

3、拔插硬盘将顺序弄错。如果磁盘顺序出错,将会导致系统不能识别数据,这种情况下用户只要重新调整顺序,大多可以解决问题。

4、重新配置RAID阵列信息。这种情况大多是因为用户不熟悉配置磁盘阵列卡,盲目进行操作所导致。

5、突然断电,突然的断电将会造成RAID磁盘阵列卡信息的丢失,严重的情况下可以导致硬盘物理损坏。

(三)如果出现raid卡、磁盘阵列等故障,请注意以下几点:

1.  在没有保证数据100%安全下(如异地备份)不要对服务器进行任何操作,因为任何操作都有可能造成数据的丢失。如果在没有异地备份数据而且数据非常重要的情况下建议找数据公司备份数据。

2.  不要轻易尝试Rebuild、同步等操作。

3.千万不要初始化。 初始化是磁盘阵列全部清零,相当于硬盘的低级格式化。

4.谨慎重配磁盘阵列信息。

5.如果某家公司需要你提供服务器或阵列卡进行数据恢复,他们做的事和硬件提供商一样,也只是重新配置RAID阵列信息,如果配置参数、磁盘顺序和当初完全一致,数据有可能出来,相反数据就有可能彻底破坏,给客户带来巨大损失。

6.不要轻易让服务器售后服务工程师操作,因为服务器厂商只负责硬件设备故障的更换。IBM,DELL,惠普等等厂商,他们的技术工程师上岗培训里并不包括数据灾难拯救项目。针对服务器阵列崩溃或坏盘,售后服务工程师会简单地使用服务器自带的功能,强行将硬盘上线或进行初始化、同步等操作,以试图排除故障,很多数据二次破坏就是这么造成的,甚至部分服务器由于工程师的二次操作造成永久破坏而无法恢复。比喻硬盘亮黄灯后,大部分工程师会采取强行加载的方式来保持服务器继续运行,按照我们的经验,一般出现此类问题应该立即替换新盘,单纯采用强行上线的方式来保持阵列运行,是极其危险的,特别是在超过3个盘的大型阵列里。

7.仔细耐心检查,记得在硬盘拔下来之前将硬盘编好号码,以防止在插回去的时候插错盘,类似于这样的事情不在少数。

8.阵列出现了问题,可在开机的时候进入阵列卡,检查一下硬盘的状态,首先与服务器厂商联系,但记住不要轻易让工程师对服务器进行操作(除非对硬盘有备份的情况下)记下故障产生的过程,与厂商联系的时候好应对提问,及时根据问答在电话中判断故障的现像,如果您需要数据恢复服务,则最好将硬盘做成镜像,然后将镜像带至数据恢复公司,这样就相当于替您的服务器做了一个最底层的备份。对于一个有技术的公司而言,镜像与源盘没有任何区别,数据恢复只需要镜像,而不需要服务器。注意:镜像并不是ghost文件。

 

三、备份

现有的ibm、 hp、 dell,哪些服务器、盘阵raid 信息是可以正常备份的,如何备份。

大多情况下raid信息都是写在服务器硬盘里面,硬盘信息丢失,raid信息也会丢失,最好的方法是找专业公司来恢复数据。其中Hp近五年以内出的服务器阵列信息(包括smart、sas阵列卡)都是写在硬盘上,无法备份。注:阵列信息与硬盘的数据信息是两个概念,在坏两块硬盘的情况下(做raid1的两块硬盘镜像也坏了),即使恢复阵列信息,硬盘数据也会丢失。

对于ibm低端的x系列服务器阵列卡的故障,如果需要更换阵列卡而又不破坏原本数据的话,需要注意以下步骤:

1、 先拔下故障的阵列卡,将机器的各项微码升级到最新,升级机器的微码可以从IBM的官方网站下载最新的update express光盘来升级,具体步骤请参考IBM网站介绍。

2、 装上新的阵列卡,先不要接硬盘,如果阵列卡是和底板共用通道的话(比如6i 7k系列),可以将硬盘先拔出,此时注意不要搞错硬盘依次的顺序,否则对数据会有影响。在不接硬盘的情况下,将新的阵列卡的微码升级到一个比较稳定的版本,如果知道故障阵列卡的微码版本,建议升级到和原来阵列卡的微码版本。清空阵列卡内的所有信息(这一步很重要)。

3、接上硬盘,进入阵列卡的界面,将硬盘本身的信息导入阵列卡,重启服务器。

4、查看导入的硬盘的状态,是否为online或者hsp,如果是offline或者ddd的,需要用Server Raid

光盘引导进入阵列管理界面,进行激活等操作,才能顺利进入系统。

5、将系统和阵列卡的微码升级到一致,建议升级到一个比较高级的稳定版本。

IBM X服务器备份和恢复RAID的阵列信息,当RAID卡的信息意外丢失(且用硬盘上的备份配置信息恢复又不起作用),导致整个系统不可用。当然,在配置好RAID后一定要用IPSSEND.EXE备份RAID信息到软盘上。但是,通常情况下用IPSSEND.EXE命令行程序备份RAID信息较为复杂。本文将介绍一种简单可行的方法--用ServerGuide光盘备份和恢复RAID卡的阵列信息。

ServerGuide6.0.2及其以上版本均可配置RAID 4系列卡,并且还可以备份/恢复RAID信息(调用光盘上的IPSSEND.EXE)。

解决方法:

1、用ServerGuide6.0.2引导服务器并配置好RAID。

2、在主菜单下按如下操作备份RAID信息。

1)Run setup programs & configure hardware--->

2)Custom--->

3)Create setup replication diskette--->

4)选择 ServeRaid configuration--->

5)Insert floopy diskette

3、当RAID卡的信息意外丢失(且用硬盘上的备份信息恢复又不起作用)时,按如下操作从软盘上恢复RAID信息。

方法1

1)用ServerGuide光盘引导服务器并同时插入含有RAID信息的备份软盘。

2)选择恢复ServeRaid configuration。

3)系统会提示与RAID卡相连的硬盘上的数据将丢失,按OK继续。信息恢复后系统会自动重启。

4)仍然用ServerGuide光盘引导服务器并同时插入含有RAID信息的备份软盘。

5)系统提示恢复信息成功。

方法2

1)用ServerGuide光盘引导服务器。

2)在在主菜单下按如下操作恢复RAID信息。

a.Run setup programs & configure hardware--->

b.Replicated--->

c.插入含有RAID信息的备份软盘。

d.选择恢复ServeRaid configuration。

e.系统会提示与RAID卡相连的硬盘上的数据将丢失,按OK继续。信息恢复后系统会自动重启。

f.仍然用ServerGuide光盘引导服务器并同时插入含有RAID信息的备份软盘。

g.系统提示恢复信息成功。

四、总结:

数据是企业的生命线,任何涉及磁盘、raid信息的故障处理均需严格按先备份后修复的方案进行;如数据无法直接备份,请先对所有硬盘进行逐一镜像再修复;涉及数据丢失必须由专业人员进行修复,修复过程禁止初始化操作,以避免数据永久性损坏。

上一篇:系统高可用技术探讨
下一篇:开源的SQL on Hadoop工具比较