、    

 

VPN技术之IPsec VPN基础

IPsec(IPSecurity,IP安全)是IETF制定的一个开放的IP层安全框架协议,它通过在特定通信方之间建立IPsec隧道,为网络中传输的数据提供高质量、基于密码学的安全保证。IPsec是一种传统的实现三层VPN(VirtualPrivateNetwork,虚拟专用网络)的安全技术。

协议框架

IPsec协议不是一个单独的协议,它是一系列为IP网络提供安全保障的协议和服务的集合,主要包括通信保护协议(AH、ESP)和密钥交换管理协议(IKE、IKEv2)

AH协议
AH(Authentication Header,认证头)协议可提供数据来源认证、数据完整性检查和抗重放功能,但不能对数据进行加密。

ESP协议
ESP(EncapsulatingSecurityPayload,封装安全载荷)协议可提供数据来源认证、数据完整性检查和抗重放功能,且能够对数据进行加密。

IKE协议
IKE(InternetKeyExchange,互联网密钥交换)协议采用DH(DiffieHellman)交换技术实现在不安全的网络中安全地传输密钥,可为IPsec提供密钥交换服务,并能管理和维护IPsec隧道,简化管理员配置。

IKEv2协议
IKEv2(InternetKeyExchangeVersion2,互联网密钥交换协议第2版)是IKE协议的增强版本。相对于IKE,IKEv2具有更强的抗攻击能力和密钥交换能力,且交互的报文数量更少。

技术价值
1、保护数据的机密性
IPsec采用对称密钥系统对数据进行加密,保证数据的机密性。用于加密和解密的对称密钥可以手工配置,也可以通过IKE协议自动协商生成。常用的对称加密算法包括DES、3DES、AES、SM4等。

2、认证数据的真实性
IPsec通过认证算法对IP通信发送方进行数据来源认证和数据完整性检查,从而保证数据真实可靠。用于认证的对称密钥可以手工配置,也可以通过IKE协议自动协商生成。常用的认证算法包括MD5、SHA1、SM3等。

3、防御重放报文攻击
重放报文是指已经被IPsec处理过的重复报文。对重放报文的处理没有实际意义,且解封装会消耗设备大量资源。IPsec通过抗重放窗口机制检查重放报文,将重放报文在解封装之前丢弃,降低设备资源消耗。

4、动态智能切换IPsec隧道
IPsec可以在网络存在多条链路的情况下,选择高质量的链路建立IPsec隧道,实现多条优质IPsec隧道动态切换,有效提高网络稳定性和可靠性。

运行机制

IPsec基本运行机制如下:
1.通信两端通过如下方式确认数据保护及认证策略(主要包括安全协议、认证算法、加密算法、共享密钥以及密钥的生存时间等),并建立IPsec隧道:静态手工方式:通过命令行配置IPsec隧道的所有信息,配置完成后,隧道即建立。IKE自动协商方式:通过IKE动态协商IPsec策略,完成IKE配置后,由发送的数据流触发建立隧道。量子加密方式:通过从量子密钥服务器获取的量子密钥自动协商建立隧道,配置完成后,由发送的数据流触发建立隧道。
2.通过安全协议对IPsec隧道上发送和接收的报文进行加密和认证,实现对特定数据的安全传输。

应用场景

1、局域网之间的安全互联
企业分支与总部之间、企业分支与分支之间通过在各自的IPsec网关之间建立IPsec隧道,实现局域网之间的安全互联。
局域网之间的安全互联主要包括如下三种组网方式:
点到点VPN-IPsectunnel:IPsec网关之间建立IPsec隧道,保障局域网之间IP报文的安全性。
点到点VPN-L2TPoverIPsectunnel:IPsec网关之间的报文先进行L2TP封装,再用IPsec封装,借助IPsec保障局域网之间L2TP报文的安全性。
点到点VPN-GREoverIPsectunnel:先对报文进行GRE封装,再进行IPsec封装,借助IPsec保障局域网之间GRE报文的安全性。

2、移动用户远程安全接入
远程接入是指,出差员工或合作伙伴在非固定场所,通过不安全的网络接入核心网络,并访问核心网络的内部资源。移动用户可通过L2TP方式远程接入企业总部网络,但是L2TP没有加密功能,安全性较低。通过部署L2TPoverIPsecVPN,在用户终端和IPsec网关之间建立L2TPoverIPsec隧道可以保障通信数据的安全性。

Dell服务器PowerEdge RAID控制器错误(PERC故障)解决方法参考

问题1:硬盘驱动器故障排除

如果系统中存在 RAID 控制器且在 RAID 阵列中配置了硬盘驱动器,则执行下列步骤:
重新启动系统,并在系统启动期间按以运行生命周期控制器,然后运行硬件配置向导检查RAID配置。

确保已正确配置 RAID 阵列的硬盘驱动器。

将硬盘驱动器置于离线状态并重置驱动器。

退出配置公用程序并允许系统引导至操作系统。

确保已正确安装和配置控制器卡所需的设备驱动程序。

有关更多信息,请参阅操作系统说明文件。

重新启动系统并进入System Setup(系统设置)。

验证控制器是否已启用以及System Setup(系统设置)中是否显示该驱动器。

问题2:重建出现故障的物理磁盘

问题:
在其中一个物理磁盘处于故障状态后进行重建。

纠正措施:
如果您配置了热备件,PERC卡会自动尝试使用其中一个重建处于故障状态的物理磁盘。如果没有热备件有足够的容量来重建出现故障的物理磁盘,则需要手动重建。重建物理磁盘之前,必须将具有足够存储容量的物理磁盘插入到子系统中。

注:您可以使用CONTROLLER BIOS配置公用程序( )或Dell OpenManage Storage Management应用程序来执行单个物理磁盘的手动重建。

问题3:Smart错误

SMART 监测所有马达、磁头和物理磁盘电子设备的内部性能并检测可预测的物理磁盘故障。

注:有关在何处查找可指示硬件故障的SMART错误报告的信息,请参阅support.dell.com/manuals上的Dell OpenManage Storage Management说明文件。

问题1:在冗余虚拟磁盘中的物理磁盘上检测到错误

问题:在冗余虚拟磁盘中的物理磁盘上检测到SMART错误。
纠正措施:
备份数据。

强制物理磁盘脱机。
注:如果存在热备件,则强制磁盘脱机后,将使用该热备件开始重建。

使用相等或更高容量的新物理磁盘更换该物理磁盘。

执行 Replace Member(更换成员)操作。
注:Replace Member(更换成员)操作可让您从虚拟磁盘的源物理磁盘向并非该虚拟磁盘一部分的目标物理磁盘复制数据。有关Replace Member(更换成员)功能的更多信息,请参阅主题”Using Replace Member and Revertible Hot Spares”(使用更换成员和可恢复热备件)。

问题 2:在非冗余虚拟磁盘中的物理磁盘上检测到 Smart 错误

问题:在冗余虚拟磁盘中的物理磁盘上检测到SMART错误。

纠正措施:
备份数据。

使用Replace Member(更换成员)或设置全局热备件来自动更换磁盘。注:有关Replace Member(更换成员)功能的更多信息,请参阅主题”Using Replace Member and Revertible Hot Spares”(使用更换成员和可恢复热备件)。

使用相等或更高容量的新物理磁盘更换受影响的物理磁盘。

从备份进行还原。

问题4:外部配置

当存在外部配置时,可以选择 Foreign Configuration View(外部配置视图)显示配置。如果已导入外部设置,则该屏幕可将其按照原样显示。可以在决定是否导入或删除外部配置之前,预览外部配置。
在某些情况下,不能导入外部配置。如果虚拟磁盘中的物理磁盘正在重建,则物理磁盘的状态被设置为 Rebuild(重建)。无法导入的虚拟磁盘不会显示虚拟磁盘目标 ID。
“使用Foreign Configuration View(外部配置视图)屏幕导入或清除外部配置”一节提供了可用于管理外部配置的过程。

注:CONTROLLER BIOS配置公用程序( )会报告外部配置导入失败的错误代码。

发现外部配置错误消息
Foreign configuration(s) found on adapter.Press any key to continue, or ’C’ to load the configuration utility or ’F’ to import foreign configuration(s) and continue.

可能原因:
如果控制器固件检测到存在外部元数据的物理磁盘,它会将物理磁盘标记为 foreign(外部)并生成警报表示检测到外部磁盘。

纠正措施:
出现此提示时按键可导入配置(如果虚拟磁盘的所有成员磁盘都存在),而无需加载CONTROLLER BIOS配置公用程序( )。或者,按进入CONTROLLER BIOS配置公用程序( )并导入或清除外部配置。

在 中未发现外部配置错误消息

开机自检期间出现外部配置消息,但 的外部视图页面中未出现外部配置。All virtual disks are in an optimal state.

纠正措施:
确保所有 PD 均存在且所有 VD 均处于最佳状态。使用 组合键或Dell OpenManage Server Administrator Storage Management清除外部配置。

注意:清除外部配置时,物理磁盘将转为Ready(就绪)状态。
如果您插入的物理磁盘之前是系统中某虚拟磁盘的成员,并且该磁盘的先前位置已通过重建由更换磁盘所占用,则必须手动删除新插入磁盘的外部配置标记。

问题5:电池记忆周期/电池或内存错误

电池的透明记忆周期

注:仅在PERC H710、H710P和H810卡上支持电池。
透明记忆周期(TLC)是一项周期性操作,该操作可计算电池中剩余的电量以确保能量充足。此操作自动执行并且不对系统或控制器性能造成影响。

控制器每隔90天在电池上自动执行TLC,以校准和衡量其充电容量。如果需要,此操作也可手动执行。

注:在透明记忆周期过程中,虚拟磁盘处于回写模式(如果已启用)。当 TLC 完成后,控制器将下次 TLC 设置为 90 天后。

内存或电池问题错误消息
Memory/Battery problems were detected.The adapter has recovered, but cached data was lost.Press any key to continue.

可能原因:
此消息在下列情况下出现:

适配器检测到控制器高速缓存中存在尚未写入磁盘子系统的数据。
控制器在初始化期间执行其高速缓存检查例行程序的同时,还检测到错误纠正代码 (ECC) 错误。
由于无法保证数据完整性,所以控制器随即放弃高速缓存,而不是将其发送到磁盘子系统。
电池可能未充满电。
纠正措施:
让电池充满电可解决此问题。
如果问题仍然存在,请联系戴尔技术支持。
返回页首

问题6:创建虚拟磁盘

要观看6:23分钟有关创建虚拟磁盘的视频,请参阅Dell TechCenter YouTube视频:OpenManage Storage Services 7.2 – Enhancements in virtual Disk Creation Wizard(OpenManage Storage Services 7.2 – 虚拟磁盘创建向导中的增强功能)

注:不支持在一个虚拟磁盘中组合使用SAS和SATA磁盘驱动器。同样,也不支持在虚拟磁盘中组合使用磁盘驱动器和SSD。

在CONTROLLER BIOS中执行以下步骤,以创建虚拟磁盘:
在主机系统的引导过程中,显示CONTROLLER BIOS屏幕时按组合键。

< >
随即会显示Virtual Disk Management(虚拟磁盘管理)屏幕。

如果有多台控制器,则会显示Main Menu(主菜单)屏幕。

选择一个控制器,然后按键。随即显示选定控制器的 Virtual Disk Management(虚拟磁盘管理)屏幕。

使用箭头键高亮显示Controller # (控制器#)或Disk Group #(磁盘组#)。

按键。随即显示可用操作的列表。

选择Create New VD(创建新虚拟磁盘),然后按键。
随即会显示Create New VD(创建新虚拟磁盘)屏幕。

< >
光标此时位于RAID Levels(RAID级别)选项上。

将虚拟磁盘添加到磁盘组时,将显示Add VD in Disk Group(在磁盘组中添加虚拟磁盘)屏幕。

跳至步骤11可更改虚拟磁盘的基本设置。

根据可用的物理磁盘,按键显示可能的RAID级别。

按向下箭头键选择RAID级别,然后按键。

当创建跨接式虚拟磁盘时(RAID 10、50 或 60),请在 PD per Span(每个跨度的物理磁盘)字段中输入每个跨度的物理磁盘数目,然后按 键。
注:通过选择RAID 10并在PD per Span(每个跨区的物理磁盘)字段中填入22,则可以创建一个具有22个物理磁盘的RAID 10虚拟磁盘。

按键将光标移动到物理磁盘列表。

使用箭头键高亮显示物理磁盘,然后按空格键、键或键选择磁盘。

如果需要,可选择其他磁盘。

按键将光标移动到Basic Settings(基本设置)框。

在VD Size(虚拟磁盘大小)字段中设置虚拟磁盘大小。虚拟磁盘大小以 GB 格式显示。

按键访问VD Name(虚拟磁盘名称)字段,然后键入虚拟磁盘名称。

按键将光标移动到Advanced Settings(高级设置)。

按空格键激活设置以便进行更改。

< >
Advanced Settings(高级设置)旁将显示X。

设置有磁条元素大小、读取策略和写入策略。

您也可以选择Advanced Options(高级选项),例如,强制将高速缓存策略设置为回写、初始化虚拟磁盘和配置专用热备件。

显示默认参数。您可以接受或更改默认值。

问题7:虚拟磁盘降级

虚拟磁盘降级错误消息和纠正措施

虚拟磁盘降级错误消息
x Virtual Disk(s) Degraded (where x is the number of virtual disks degraded)

可能原因:
当CONTROLLER BIOS检测到虚拟磁盘处于降级状态时,将显示此消息。

纠正措施:
要使虚拟磁盘恢复最佳状态,请执行以下纠正措施之一:

确保虚拟磁盘中的所有磁盘均存在且处于联机状态。

更换阵列中可能存在的所有故障磁盘。

纠正热备件磁盘,重建阵列。

CONTROLLER BIOS不采取任何措施。

问题8:全局热备用

创建全局热备用

只要全局热备用的容量等于或大于故障物理磁盘的强制容量,就可以使用全局热备用替换任何冗余阵列中的故障物理磁盘。

执行以下步骤可创建全局热备用:
选择可用磁盘,按F2,并选择”Make Global HS”(成为全局热备盘)

删除全局热备用或专用热备用 
可以在 PD Mgmt(物理磁盘管理)屏幕上一次删除一个全局热备用或专用热备用。执行以下步骤可删除全局热备用或专用热备用:

选择”Remove”(去除)以去除热备用

问题9:卸下和安装热插拔硬盘驱动器

卸下热交换硬盘驱动器

注意:为防止数据丢失,请确保操作系统支持热交换驱动器安装。请参阅操作系统附带的说明文件。

从硬盘驱动器托盘中卸下硬盘驱动器

将硬盘驱动器装入硬盘驱动器托盘

注意:多数修理只能由合格的维修技术人员进行。您只能根据产品说明文件中的授权,或者在联机或电话服务和支持小组的指导下,进行故障排除和简单的维修。由于未经戴尔授权的服务而导致的损坏不包括在保修范围内。请阅读并遵循产品附带的安全说明。

安装热交换硬盘驱动器

注意:多数修理只能由合格的维修技术人员进行。您只能根据产品说明文件中的授权,或者在联机或电话服务和支持小组的指导下,进行故障排除和简单的维修。由于未经戴尔授权的服务而导致的损坏不包括在保修范围内。
请阅读并遵循产品附带的安全说明。

注意:只能使用经测试和核准可用于硬盘驱动器背板的硬盘驱动器。

注意:不支持在同一个RAID卷中组合使用SAS和SATA硬盘。

注意:安装硬盘驱动器时,请确保相邻驱动器均已完全安装到位。如果相邻的托盘未安装到位,则插入硬盘驱动器托盘且尝试锁定其旁边的手柄可能会损坏未安装到位托盘的保护弹簧,使其无法使用。

注意:为防止数据丢失,请确保操作系统支持热交换驱动器安装。请参阅操作系统附带的说明文件。

注意:在安装了更换的热插拔硬盘驱动器并且系统开机后,硬盘驱动器会自动开始重建。确保更换的硬盘为空白或包含要覆盖的数据。更换的硬盘驱动器在安装完毕后,上面的所有数据都将立即丢失。

Dell 服务器RAID阵列中的双重故障和穿孔情况

1、数据错误和双重故障
RAID阵列并非不受数据错误的影响。 RAID控制器和硬盘固件包含检测并纠正多种类型的数据错误的功能,避免这些错误被写入阵列/驱动器。 使用过时的固件可能导致将不正确的数据写入阵列/驱动器,因为它缺少最新固件版本中提供的错误处理/错误纠正功能。

数据错误也可能由物理坏块导致。 例如,当读/写磁头影响旋转盘片(称为“磁头崩溃”)时,可能会发生这种情况。 由于盘片在特定位置以磁性方式存储位的功能退化,块也可能随着时间的推移变坏。 由盘片退化导致的坏块通常可成功读取。 这种坏块只可能被间歇性地检测到,或使用驱动器上的扩展诊断程序检测到。

坏块也称为坏逻辑块地址(LBA),它也可能由逻辑数据错误导致。 当数据被错误写入驱动器时,即使报告为成功写入,也会发生这种情况。 此外,存储在驱动器上的正常数据可能在无意中被更改。 例如“位翻转”,当读/写磁头通过或写入附近位置,导致以0和1形式显示的数据更改为其它值时,可能会发生位翻转。 这种情况可导致数据的“一致性”受损。 特定块上的数据的值与原始数据不同,可能不再与数据的校验和匹配。 物理LBA正常,可成功写入,但当前包含错误数据,可能被解释为坏块。

坏LBA通常报告为检测代码3/11/0。检测关键字3是介质错误。 附加检测代码和附加检测限定符11/00定义为无法恢复的读取错误。 未尝试纠正块,也未确定坏块是由驱动器盘片上的物理缺陷导致的,还是由其它原因导致的数据错误导致的。 存在检测代码3/11/00并不意味着物理驱动器出现故障或应该替换。

基于戴尔硬件的RAID控制器提供巡检读取和检查一致性等功能来纠正许多数据错误情形。 巡检读取默认作为自动化后台任务操作,检查硬盘上的所有个别块以确保可正确读取数据。 巡检读取将尝试纠正坏块或将无法纠正的块重新映射到保留块。 检查一致性是一项手动激活(也可计划激活)功能,它比较阵列中的所有驱动器以确保数据和冗余正确匹配。 例如,将比较RAID 5阵列中的三个驱动器,确保数据和奇偶校验使用正确的值。 如果检测到一个错误,将使用剩余数据和/或奇偶校验重写并纠正坏值。 同样,在RAID 1阵列中,将比较一个驱动器上的数据和另一个驱动器上的数据,确保正确镜像数据。

如果未纠正RAID阵列中的任何一个错误,都可能导致阵列中出现更多严重错误,特别是在发生第二个错误时。 只要阵列保持最佳状态,一个或多个单错误不会导致数据丢失。 阵列保持最佳状态时,仍有足够的数据加冗余来正常操作。

由于控制器具有在正常操作期间纠正错误的功能,当数据中存在基本问题时,并不总是能轻松检测到。 存在一个或多个单错误情况时,控制器日志、硬件日志或操作系统事件日志中很少有任何错误或警报。 出于此原因,阵列在很长一段时间都看似在正常操作,尽管存在一致性错误和/或单错误。

如图1所示,阵列有多个错误。 但是,由于任何磁条中都只有一个错误,控制器仍可访问所有数据,这归因于RAID 5的冗余。 如果奇偶校验分段上发生错误,所有数据都完好无损,且此错误对读取操作没有影响。 如果数据分段中发生错误,则必须在正常数据和正常奇偶校验数据之间进行XOR比较,以重新计算缺失/坏的数据分段。 在任一种情况下,由于任何磁条中都只有一个错误,有足够的冗余可用于成功访问所有数据。

当RAID阵列中的一个或多个驱动器包含数据错误,而由于驱动器故障、外来配置、驱动器拆卸或任何其它原因,阵列中的另一个驱动器不再是活动成员,这种情况称为“双重故障”。 双重故障情况可能导致立即丢失受影响的磁条中的任何信息数据。

保持最佳状态的阵列可能发生双重故障的情况。 多个硬盘上的相同坏LBA将发生这种情况。 考虑到如今较大硬盘上有很多LBA,这种情况会非常少见。 多个硬盘上的同一LBA不太可能同时“坏”。

执行常规检查一致性操作将纠正单故障,不管是物理坏块还是数据的逻辑错误。检查一致性还将缓解出现其它错误时的双重故障情况的风险。 如果任何给定磁条中只有一个错误,检查一致性几乎始终可以消除此错误。

2、穿孔:什么是穿孔,以及如何引起穿孔

穿孔是戴尔PERC控制器的一项功能,旨在允许控制器还原阵列的冗余,尽管数据丢失是由双重故障情况导致的。 穿孔的另一个名称是“带错重建”。 RAID控制器将检测双重故障,由于没有足够的冗余来恢复受影响磁条中的数据,控制器在该磁条中进行穿孔,允许继续重建。

.导致无法访问多个驱动器上同一磁条中的数据的任何情况都属于双重故障
.双重故障导致受影响磁条内的所有数据丢失
.所有穿孔都属于双重故障,但所有双重故障都不是穿孔

如果没有穿孔功能,阵列重建将失败,并使阵列处于降级状态。 在某些情况下,这些故障可能导致其它驱动器出现故障,从而导致阵列处于无法正常工作的脱机状态。 在阵列上穿孔不会影响引导至或访问阵列上的任何数据的能力。 由于双重故障情况导致的任何损坏或数据丢失已经发生。

出现以下两种情况中的一种即可进行穿孔:

双重故障已存在(数据已丢失)
在线驱动器上的数据错误已蔓延(复制)到重建驱动器

双重故障已存在(发生第二个错误时数据丢失)
在降级状态时,如果在线驱动器上发生坏块,则对该LBA进行穿孔

对阵列进行穿孔的这种优势将保持系统可用于生产,并还原阵列冗余。 不管是否发生穿孔,受影响磁条中的数据都丢失。 LSI方法的主要缺点是在阵列中有穿孔时,只要访问受影响的数据(如果有),仍会遇到不可纠正的错误。

穿孔可能在三个位置发生。 首先,穿孔可能发生在不包含数据的空白区域。 该磁条将不可访问,但由于该位置没有数据,将不会有很大影响。 不管操作系统如何尝试写入穿孔的磁条都将失败,数据将写入其它位置。

其次,穿孔可能发生在所包含的数据不是重要数据(如README.TXT文件)的磁条中。 如果不访问受影响的数据,则正常I/O期间不会产生错误。 尝试执行文件系统备份将无法备份受穿孔影响的任何文件。 对适用的LBA和/或磁条执行检查一致性或巡检读取操作将生成检测代码:3/11/00。

第三,穿孔可能发生在被访问的数据空间。 在这种情况下,数据丢失可能导致各种错误。 这些错误可能是一些小错误,对生产环境不会造成负面影响。 这些错误也可能更严重,可能阻止系统引导至操作系统,或导致应用程序失败。

发生穿孔的阵列最终将必须删除并重新创建,以消除穿孔。 此过程导致所有数据都将被擦除。在消除穿孔之后,将需要重新创建数据或还原备份数据。 可在更利于业务需求的时间安排解决穿孔问题。

如果访问穿孔磁条内的数据,仍将报告受影响的坏LBA错误,并且没有可能的纠正方法可用。最终(可能是几分钟、几天、数周、数月等),坏块管理(BBM)表将填满,导致一个或多个驱动器标记为预测性故障。参见图3,驱动器0通常是由于驱动器1和驱动器2上的错误传播到它而被标记为预测性故障的驱动器。驱动器0实际上可能工作正常,更换它只会导致该更换件最终也被标记为预测性故障。

引起穿孔后执行检查一致性不会解决此问题。 这就是为什么定期执行检查一致性极其重要的原因。在更换驱动器之前(如果可能)变得特别重要。要执行检查一致性,阵列必须处于最佳状态。

将出现故障的驱动器或更换驱动器重建至阵列时,包含单个数据错误和硬盘故障等其它错误事件的RAID阵列导致穿孔。例如,最佳的RAID 5阵列包括三个成员:驱动器0、驱动器1和驱动器2。如果驱动器0出现故障(图2)并更换,将使用驱动器1和2上剩余的数据和奇偶校验将缺失的信息重建回更换驱动器0上。但是,如果驱动器1上存在数据错误,而重建操作触及到该错误时,磁条内没有足够的信息重建该磁条中缺失的数据。驱动器0中没有数据,驱动器1包含坏数据,驱动器2正在重建,因此包含正常数据。该磁条内存在多个错误。驱动器0和驱动器1不包含有效数据,因此该磁条内的任何数据都无法恢复,因此丢失。 最终如图3所示,在重建过程中创建穿孔(在磁条1和2中)。这些错误被传播至驱动器0。

对阵列进行穿孔可还原冗余,并使阵列返回最佳状态。 这能够在发生其它错误或驱动器故障时,保护阵列不会丢失更多数据。

3、故障发生前加以防止以及在发生后解决穿孔故障

在“未损坏就不修复”的前提下操作可能很简单。尽管在很多时候可能是这样,但为了最好地保护和管理存储子系统,强烈建议执行例行和常规维护。前瞻性维护可纠正现有错误,并防止一些错误发生。尽管不可能防止所有错误发生,但借助前瞻性维护可显著缓解大多数严重错误。对于存储和RAID子系统,这些步骤包括:

更新控制器、硬盘、底板和其它设备上的驱动程序和固件
执行例行检查一致性操作
查看日志了解问题指征

这不需要进行高级技术审查,只要粗略查看日志中极其明显的潜在问题指征即可
如有任何问题或疑问,请联系戴尔技术支持

应该做的最重要的事情之一是确保固件保持更新。固件是设备操作的所有逻辑所在的位置。它提供设备的功能和特性,以及各种错误处理和错误纠正功能。保持固件最新可提高性能,减少错误。也可通过固件更新添加新功能和增强功能。

固件可驻留在多个位置。RAID控制器包含固件以及系统或阵列中安装的每个个别硬盘。底板和外部盘柜也包含固件,可能影响其中所包含的驱动器和阵列的操作。

另一个前瞻性维护建议是执行“检查一致性”。 检查一致性是手动操作,因为它确实占用RAID控制器整体可用带宽的一部分。但是,可在对性能影响最小的时间安排检查一致性。

检查一致性将检查驱动器上的坏块,但更重要的是,它将比较阵列中的数据以确保所有数据都正确匹配。发现问题时,它将确定数据应该是什么样子,并通过检查阵列中其它驱动器上的数据来纠正。在数据错误相对较小时加以纠正是缓解由现有数据错误和第二个错误或故障一起导致的穿孔风险的最佳方式。存在双重故障和穿孔可能导致将阵列和数据还原为正常工作状态所需的时间的生产力损失,甚或彻底丢失所有数据。

存在双重故障或穿孔情况时,通常会丢失一些数据。如果这些错误所在的位置是空白区域或非关键数据空间,则对生产环境中的数据的直接影响相对较小。但是,存在这些错误就意味着可能存在更严重的问题。硬件错误和过时的固件可能需要立即引起注意。

如果存在已知或可疑的双重故障或穿孔情况,则遵循以下步骤最大限度地减少出现更严重问题的风险:

执行检查一致性(必须为最佳阵列)
确定是否存在硬件问题
检查控制器日志
执行硬件诊断程序
需要时联系戴尔技术支持

如果完成了这些步骤,还有其它问题。一段时间后,穿孔可能导致硬盘进入预测性故障状态。即使不存在实际硬件问题,传播至驱动器的数据错误也会报告为该驱动器上的介质错误。每次访问LBA时,都会报告错误。一旦错误日志已满,驱动器就会将自身报告为预测性故障。

驱动器上的单个穿孔LBA可报告多次。根据穿孔数量,可将阵列中的多个驱动器报告为预测性故障。更换预测性故障驱动器将导致现有穿孔重新传播至更换驱动器,这将最终导致更换驱动器也标记为预测性故障。在这种情况下,唯一的纠正措施是解决穿孔情况。

我们在图3中可以看到,磁条1和2上存在穿孔。更换硬盘解决不了此问题,因为没有足够数据冗余来重建原始数据。穿孔磁条中包含的任何数据都将丢失(除非保留在之前的备份中)。请记住,穿孔不会导致数据丢失,双重故障情况才会导致数据丢失。穿孔是还原包含双重故障的阵列冗余的方式。

  1. 丢弃保留的高速缓存(如果存在)
  2. 清除外部配置(如果有)
  3. 删除阵列
  4. 将驱动器的位置移动一个(使用图1,将磁盘0移至插槽1,磁盘1到插槽2,磁盘2到插槽0)
  5. 根据需要重新创建阵列
  6. 对阵列执行完全初始化(不是快速初始化)
  7. 在阵列上执行检查一致性

如果检查一致性完成且没有错误,则可以安全地假设阵列现在运行正常,已去除穿孔。现在可以将数据还原到运行良好的阵列。 

在更严重的情况下,尽管按照这些步骤操作仍无法解决此问题,并且错误可能持续。如果按照这些步骤操作未能解决问题,请联系戴尔技术支持,以获取进一步帮助。 

可能需要更详细地分析穿孔情况,以确定哪些驱动器有共同点。例如,在图3中,控制器日志将显示磁盘0和1之间的穿孔,磁盘0和2之间的穿孔。磁盘0是通用驱动器。遵循上面的这些步骤,但先完全卸下通用驱动器。因此按照图1中的示例,卸下磁盘0,然后遵循概述的步骤。使用剩余磁盘(1和2)创建阵列。创建阵列并在检查一致性确定阵列是否状态良好后,重新添加磁盘0,并再次对所有驱动器执行这些步骤,或使用RLM(RAID级别迁移)和/或OCE(联机容量扩展)功能将剩余驱动器添加回阵列。 

标记为预测性故障的所有驱动器都应卸下,不包括在恢复过程中。再以图3为例,如果磁盘0为预测性故障,则卸下此驱动器。然后执行上述步骤。由于只剩下2个驱动器,创建的RAID阵列为RAID 1,而不是RAID 5。获得更换磁盘0(由于预测性故障)后,再次执行这些步骤,包括所有3个驱动器,或使用RLM将磁盘0添加到现有阵列,并将其从带有2个驱动器的RAID 1更改为带有3个驱动器的RAID 5。 

此过程可能很艰巨,特别是考虑到可能丢失数据。此处正应了“防范胜于补救”这一格言。经验证明,几乎所有双重故障和穿孔情况都可以通过对RAID硬件和阵列执行前瞻性维护来避免。


DELL Latitude 系列笔记本电脑故障诊断指示灯说明

注:此内容适用于2017年至今所出厂的Latitude 系列笔记本电脑

闪烁的模式将包含两组数字(第一个组表示):琥珀色闪烁, 第二组:闪烁白色)

第一组:LED指示灯闪烁1到9次,然后是短暂停,LED指示灯熄灭1.5秒的时间间隔(此为琥珀色)

第二组:LED指示灯闪烁1到9次,然后是长暂停,经过1.5秒的时间间隔后开始下一个周期(这是白色)例如,“未检测到内存 (2,3)”,电池电量 LED 指示灯呈琥珀色闪烁两次,暂停,然后呈白色闪烁三次。电源 LED 指示灯将暂停 3 秒,然后自动重复下一个周期。

2—-1 CPU CPU 可能出现故障

2—-2 主板BIOS 主板,包括BIOS损坏或ROM错误

2—-3 内存 未检测到内存/RAM

2—-4 内存 内存/RAM故障

2—-5 内存 安装的内存无效

2—-6 主板芯片组 主板/芯片组错误

2—-7 液晶显示屏 液晶显示屏故障

2—-8 液晶显示屏 液晶屏电源滑轨故障

3—-1 RTC电源故障 CMOS电池故障

3—-2 PCI/显卡 PCI或显卡/芯片故障

3—-3 BIOS恢复1 找不到恢复映像

3—-4 BIOS恢复2 恢复映像找到但无效

3—-5 电源滑轨故障 EC 进入电源顺序故障状态

3—-6 SBIOS 闪存损坏 SBIOS 检测到闪存损坏

3—-7 ME错误 等待 ME 答复 HECI 超时

DELL XPS 系列笔记本电脑故障诊断指示灯说明

对于最新的系列,这些系统上的诊断指示灯蜂鸣音大部分已移除。而是电源按钮的状态以闪烁和颜色转换方式指示出现问题的地方。

注:闪烁模式将包含2组数字。它们由第一组(呈琥珀色闪烁)和第二组(呈白色闪烁)表示。
第一组:电池LED指示灯呈琥珀色闪烁最多9次,暂停1.5秒钟,然后再运行第二组。
第二组:电池LED指示灯呈白色闪烁最多9次,暂停3秒钟,然后再次运行第一组。

例如:未检测到内存(2、3)、电源LED指示灯闪烁2次,暂停,然后闪烁3次,再暂停等。此模式持续至系统关闭。

琥珀色 白色
2—— 1 CPU故障
运行Intel CPU诊断工具
如果问题仍然存在,请与技术支持联系,寻求进一步的帮助

2 ——2 系统主板:BIOS,ROM故障
将BIOS刷新到最新版本
如果问题仍然存在,请与技术支持联系,进行进一步的故障排除。

2 ——3 未检测到内存/RAM
确认已安装内存
对内存进行进一步的故障排除

2 ——4 内存/RAM故障
重新拔插内存
对内存进行进一步的故障排除

2—— 5 安装的内存无效
重新拔插内存
对内存进行进一步的故障排除

2 ——6 系统主板、芯片组错误
将BIOS刷新到最新版本
与技术支持联系,进行进一步的故障排除

2—— 7 液晶显示屏故障
将BIOS刷新到最新版本
与技术支持联系,进行进一步的故障排除

3—— 1 CMOS电池故障
对CMOS电池进行故障排除
如果问题仍然存在,请与技术支持联系,进行进一步的故障排除。

3 ——2 PCI或显卡/芯片故障
与技术支持联系,进行进一步的故障排除

3 ——3 BIOS恢复1
找不到恢复映像
与技术支持联系,进行进一步的故障排除

3 ——4 BIOS恢复2
恢复映像找到但无效
与技术支持联系,进行进一步的故障排除

DELL Inspiron灵越系列笔记本电脑故障诊断指示灯说明

Dell Inspiron灵越系列笔记本电脑系统一直以来都有内置的故障诊断指示灯。这些可能是蜂鸣音、显示不同状态和颜色的电源按钮、特定故障诊断指示灯或其组合,以便指示开机自检(POST)期间系统出现问题的地方。

Inspiron灵越笔记本电脑系列(2016年至今)的诊断LED指示灯
对于最新的系列,这些系统上的诊断指示灯蜂鸣音大部分已移除。而是电源按钮的状态以闪烁和颜色转换方式指示出现问题的地方。

注:闪烁模式将包含2组数字。它们由第一组(呈琥珀色闪烁)和第二组(呈白色闪烁)表示。
第一组:电池LED指示灯呈琥珀色闪烁最多9次,暂停1.5秒钟,然后再运行第二组。
第二组:电池LED指示灯呈白色闪烁最多9次,暂停3秒钟,然后再次运行第一组。

例如:未检测到内存(2、3)、电源LED指示灯闪烁2次,暂停,然后闪烁3次,再暂停等。此模式持续至系统关闭。

琥珀色 白色
2—— 1 CPU故障
运行Intel CPU诊断工具
如果问题仍然存在,请与技术支持联系,寻求进一步的帮助

2 ——2 系统主板:BIOS,ROM故障
将BIOS刷新到最新版本
如果问题仍然存在,请与技术支持联系,进行进一步的故障排除。

2—— 3 未检测到内存/RAM
确认已安装内存
对内存进行进一步的故障排除

2 ——4 内存/RAM故障
重新拔插内存
对内存进行进一步的故障排除

2—— 5 安装的内存无效
重新拔插内存
对内存进行进一步的故障排除

2—— 6 系统主板、芯片组错误
将BIOS刷新到最新版本
与技术支持联系,进行进一步的故障排除

2—— 7 液晶显示屏故障
将BIOS刷新到最新版本
与技术支持联系,进行进一步的故障排除

3 ——1 CMOS电池故障
对CMOS电池进行故障排除
如果问题仍然存在,请与技术支持联系,进行进一步的故障排除。

3 ——2 PCI或显卡/芯片故障
与技术支持联系,进行进一步的故障排除

3—— 3 BIOS恢复1
找不到恢复映像
与技术支持联系,进行进一步的故障排除

3—— 4 BIOS恢复2
恢复映像找到但无效
与技术支持联系,进行进一步的故障排除

3 ——5 电源滑轨故障
EC 进入电源顺序故障状态
与技术支持联系,进行进一步的故障排除

3——6 SBIOS 闪存损坏
SBIOS 检测到闪存损坏
与技术支持联系,进行进一步的故障排除

3—— 7 ME错误
等待 ME 答复 HECI 消息时超时
与技术支持联系,进行进一步的故障排除

DELL 旧款OptiPlex 系列 LED 指示灯 故障诊断

注:本内容适应用2012-2020 年之间出厂的OptiPlex 系列机型

出现故障时,电源按钮的状态指示灯会呈现“闪烁琥珀色”状态。

2,1 —–先闪烁 2 次,再停顿片刻,闪烁 1 次,停顿较长时间,然后重复。
主板问题
更换主板。


2, 2 —–先闪烁 2 次,再停顿片刻,闪烁 2 次,停顿较长时间,然后重复。
主板、电源或电源布线问题
如果您可以进行故障诊断,则通过PSU BIST检测并重新拔插线缆。
如果所有设备都无法正常工作,请更换主板、电源或电缆。


2,3—– 先闪烁 2 次,停顿片刻,再闪烁 3 次,停顿较长时间,然后重复。
主板、内存或处理器
如果您可以进行故障诊断,则通过重新拔插内存并换用已知正常工作的内存模块(如果可用)来缩小问题的范围。
如果所有设备都无法正常工作,请更换主板、内存或处理器。

2、4—– 先闪烁 2 次,停顿片刻,再闪烁 4 次,停顿较长时间,然后重复。
纽扣电池问题
如果您可以进行故障诊断,则通过换用已知良好的纽扣电池(如果可用)来缩小问题的范围。
如果所有设备都无法正常工作,请更换纽扣电池。

2、5 —–先闪烁 2 次,停顿片刻,再闪烁 5 次,停顿较长时间,然后重复。
BIOS校验和故障
系统处于恢复模式。
刷新最新的BIOS版本。如果问题仍然存在,请更换主板。

2、6 —–先闪烁 2 次,停顿片刻,再闪烁 6 次,停顿较长时间,然后重复。
处理器问题
正在进行 CPU 配置活动或检测到 CPU 故障。
更换处理器

2、7—– 先闪烁 2 次,停顿片刻,再闪烁 7 次,停顿较长时间,然后重复。
内存故障
正在进行内存子系统配置活动。检测到相应的内存模块,但发生了内存故障。
如果您可以进行故障处理,请通过重新拔插内存模块并换用已知工作正常的模块(如果可用)来缩小问题的范围。
如果所有设备都无法正常工作,请更换内存。

3, 1 —–先闪烁 3 次,再停顿片刻,闪烁 1 次,停顿较长时间,然后重复。
PCI设备或视频子系统故障
正在进行 PCI 设备配置活动或检测到 PCI 设备故障。
如果您可以进行故障诊断,则通过逐个重新拔插 PCI 并将其卸下来确定出现故障的卡,以此来缩小问题的范围。
如果您可以确定发生故障的 PCI 卡,请更换该 PCI 卡。
如果PCI卡均未出现故障,则更换主板。

3, 2 —–先闪烁 3 次,停顿片刻,再闪烁 2 次,停顿较长时间,然后重复。
视频子系统故障
正在进行视频子系统配置活动或出现视频子系统故障。
如果客户可以进行故障诊断,则通过逐个卸下显卡来来缩小问题的范围。
如果您可以确定发生故障的卡,请更换该卡。如果卡均未出现故障,则更换主板。

3、3 —–先闪烁 3 次,停顿片刻,再闪烁 3 次,停顿较长时间,然后重复。
未检测到内存
如果您可以进行故障处理,请通过逐个卸下内存模块来确定发生故障的模块,以此来缩小问题的范围。将故障模块更换为已知工作正常的模块(如果可用)以进行确认。
如果您可以确定故障模块,请更换该模块。
如果模块均未出现故障,则更换主板。

3, 4 —–先闪烁 3 次,停顿片刻,再闪烁 4 次,停顿较长时间,然后重复。
存储子系统故障
正在进行可能的存储设备配置,或出现存储子系统故障。
如果您可以进行故障处理,请通过从主板上逐个卸下所有连接的存储设备来确定发生故障的设备,以此来缩小问题的范围。
如果您可以确定哪个存储设备发生故障,请更换该设备。
如果存储设备均未出现故障,则更换主板。

3、5 —–先闪烁 3 次,停顿片刻,再闪烁 5 次,停顿较长时间,然后重复。
内存配置或不兼容的错误
正在进行内存子系统配置活动。未检测到任何内存模块。
如果您可以进行故障处理,请通过逐个卸下内存模块来确定发生故障的模块,以此来缩小问题的范围。您还可以组合配置,以验证合适的组合。
如果您可以确定发生故障的组件,请更换该组件。
如果组件均未出现故障,则更换主板。

3、6—– 先闪烁 3 次,停顿片刻,再闪烁 6 次,停顿较长时间,然后重复。
系统主板故障
检测到重大系统板故障。
如果您可以进行故障处理,请通过逐个卸下主板上的组件来确定发生故障的组件,以此来缩小问题的范围。
如果您可以确定任何发生故障的组件,请更换相应组件。
如果组件均未出现故障,则更换主板。

3, 7 —–先闪烁 3 次,停顿片刻,再闪烁 7 次,停顿较长时间,然后重复。
可能的内存故障
正在进行内存子系统配置活动。已检测到内存模块,但是似乎不兼容或配置无效。
如果您可以进行故障处理,请通过逐个卸下内存模块来确定发生故障的模块,以此来缩小问题的范围。
如果您可以确定故障模块,请更换该模块。
否则,请更换主板。

DELL 新款OptiPlex 系列 LED 指示灯 故障诊断

注:本内容适应用2020 年至今出厂的新款OptiPlex 系列机型

在新系列机型中,电源按钮的状态指示灯会以闪烁和颜色转换的方式指出问题所在,从而使错误诊断更为准确。

出现故障时,电源按钮的状态指示灯会呈现“闪烁琥珀色”状态。


1,1—— 先闪烁 1 次,停顿片刻,再闪烁 1 次,停顿较长时间,然后重复。 MBIST:TPM
TPM 检测失败,联系戴尔技术支持。

1,2 ——先闪烁 1 次,停顿片刻,再闪烁 2 次,停顿较长时间,然后重复。 MBIST:SPI 闪烁
无法恢复的 SPI 闪烁故障,联系戴尔技术支持。

1,5 ——先闪烁 1 次,停顿片刻,再闪烁 5 次,停顿较长时间,然后重复。
i-Fuse 故障
EC 无法对 i-Fuse 进行编程
联系戴尔技术支持。

1,6 ——先闪烁 1 次,停顿片刻,再闪烁 6 次,停顿较长时间,然后重复。
EC 内部故障
无法恢复的 EC 代码流错误通用解决方法
断开所有电源,然后按住电源按钮以耗尽残余电量

2,1 ——先闪烁 2 次,再停顿片刻,闪烁 1 次,停顿较长时间,然后重复。
CPU故障
运行 Intel CPU 诊断工具
如果问题仍然存在,请联系戴尔技术支持。

2, 2—— 先闪烁 2 次,再停顿片刻,闪烁 2 次,停顿较长时间,然后重复。
主板、电源或电源布线问题
刷新到最新 BIOS 版本。
如果问题仍然存在,请联系戴尔技术支持。

2,3—— 先闪烁 2 次,停顿片刻,再闪烁 3 次,停顿较长时间,然后重复。
内存模块故障
如果您可以进行故障诊断,则通过重新拔插内存并换用已知正常工作的内存模块(如果可用)来缩小问题的范围。
如果问题仍然存在,请联系戴尔技术支持。

2、4 ——先闪烁 2 次,停顿片刻,再闪烁 4 次,停顿较长时间,然后重复。
内存RAM 故障
如果您可以进行故障处理,则通过换用已知良好的 DIMM(如果可用)来缩小问题的范围。
如果问题仍然存在,请联系戴尔技术支持。

2、5—— 先闪烁 2 次,停顿片刻,再闪烁 5 次,停顿较长时间,然后重复。
无效的内存和锁定
如果您可以进行故障处理,则通过换用已知良好的 DIMM(如果可用)来缩小问题的范围。
如果问题仍然存在,请联系戴尔技术支持。

2、6—— 先闪烁 2 次,停顿片刻,再闪烁 6 次,停顿较长时间,然后重复。
主板/芯片组错误
刷新到最新 BIOS 版本。
如果问题仍然存在,请联系戴尔技术支持。

2、7—— 先闪烁 2 次,停顿片刻,再闪烁 7 次,停顿较长时间,然后重复。
液晶屏故障 — SBIOS 消息
刷新到最新 BIOS 版本。
如果问题仍然存在,请联系戴尔技术支持。

2,8—— 先闪烁 2 次,停顿片刻,再闪烁 8 次,停顿较长时间,然后重复。
液晶屏故障 — EC 检测到电源滑轨故障
联系戴尔技术支持。

3, 1 ——先闪烁 3 次,再停顿片刻,闪烁 1 次,停顿较长时间,然后重复。
RTC 电源故障 CMOS 电池故障
如果您可以进行故障处理,则通过换用已知良好的 CMOS 电池(如果可用)来缩小问题的范围。
如果问题仍然存在,请联系戴尔技术支持。

3, 2 ——先闪烁 3 次,停顿片刻,再闪烁 2 次,停顿较长时间,然后重复。
PCI 或显卡/芯片故障
联系戴尔技术支持。

3、3 ——先闪烁 3 次,停顿片刻,再闪烁 3 次,停顿较长时间,然后重复。
BIOS 恢复 1:找不到恢复映像
刷新最新的BIOS版本。
如果问题仍然存在,请联系戴尔技术支持。

3, 4 ——先闪烁 3 次,停顿片刻,再闪烁 4 次,停顿较长时间,然后重复。
BIOS 恢复 2:已找到恢复映像但无效
刷新到最新 BIOS 版本。
如果问题仍然存在,请联系戴尔技术支持。

3、5——先闪烁 3 次,停顿片刻,再闪烁 5 次,停顿较长时间,然后重复。
电源滑轨故障:EC 遇到通电顺序故障。
联系戴尔技术支持。

3、6 ——先闪烁 3 次,停顿片刻,再闪烁 6 次,停顿较长时间,然后重复。
付费 SPI 卷错误
刷新最新的BIOS版本。
如果问题仍然存在,请联系戴尔技术支持。

3, 7 ——先闪烁 3 次,停顿片刻,再闪烁 7 次,停顿较长时间,然后重复。
ME 错误。等待 ME 答复 HECI 消息时超时
联系戴尔技术支持。

4,1 ——先闪烁 4 次,停顿片刻,再闪烁 1 次,停顿较长时间,然后重复。
内存 DIMM 电源滑轨故障
联系戴尔技术支持。

4,2 ——先闪烁 4 次,停顿片刻,再闪烁 2 次,停顿较长时间,然后重复。
CPU 电源线缆连接问题
运行 PSU BIST。
如果 BIST 通过,但问题仍然存在,请联系戴尔技术支持。

Dell 52xx/53xx系列单色激光打印机出现“80定期维护”的解决方法

注:本内容适用于DELL 5200n、5300、5210n、5310n和5230dn、5330dn和5350dn系列单色激光打印机

出现“80定期维护”是一个通知,表示您需要更换打印机上的几个部分后,每隔300,000页打印。零件包括:热熔器、充电辊、转印辊、搓纸轮

此外,维护或更换完相关部件后,可能需要重置“寿命计数器”

重置该寿命计数器以防止继续错误消息,并维持将来的维护需要一个精确的页数。要重置该寿命计数器,请执行以下步骤:
1、关闭打印机。

2、访问配置菜单:

5200/5300型打印机,请按住“ 选择 并 返回 ”按钮在同一时间。

对于所有其它型号,按住“ 选择 和 鼠标右键 按钮,在同一时间。

3、按住按钮仍然,打开打印机电源,然后松开按钮。

4、打开打印机后,将显示“80定期维护”消息。按下 选择 “关闭此通知。

5、应显示“配置”菜单Next(下一步)。从“Configuration”(配置)”菜单,选择“ Reset Maint Cnt(。

6、重新启动系统。
完成后,则说明打印机已准备就绪,可以使用。

DELL服务器开机显示 System Services disabled

在冷引导系统时 , 会出现一个错误信息” System Services disabled 出现在开机自检 (power-on self-test) 。此信息时 , 将会出现打开服务器时的在 30 秒内插入电源设备连接到电源。

要解决此问题重新启动服务器 
此信息会显示 Dell 集成远程访问控制器 (iDRAC)6 没有 getenough 时间完成初始化 (30 秒钟 ,1 分钟 ) 。 
此 issuecan 可以解决重新启动服务器 , 或者等待 1-2 分钟 , 然后打开服务器后将电源线插入电源。 

如果重新启动失败再升级生命周期控制器使用恢复映像通过 iDRAC 转到 iDRAC- 远程访问 – 更新并上载的 USC 修复 pack.usc 重新引导并测试 

ICP备案号:晋ICP备18007549号-1