华为交换机端口Down故障排查

一、人为因素导致的端口物理 DOWN 故障
故障原因
当端口由正常UP状态变为DOWN时,需要首先排查下近期是否有人为操作不当,包括错误拔插网线、误碰触设备导致连线松动。如果确保连线没有问题,则进一步排查是否有误配置命令行的行为。
故障定位
在对接的两个设备上的任意视图下,均执行命令display interface interface-type
interface-number,查看端口当前工作状态和接口统计信息,如下图:
端口信息
故障恢复
1、如果current state字段为“Administratively down”,表示端口被人为执行了命令
shutdown,请在端口下执行undo shutdown命令。
2、如果current state字段为“DOWN”,则需要查看链路两端的端口速率、双工模
式、自协商模式。根据Negotiation字段值的不同,采取不同的恢复方法。

ENABLE 表示端口处在自协商模式,端口速率和双工模式均是双方协商的结果。如果链路两端的速率和双工模式协商不一致,可在端口下执行命令restart,重启端口,使之重新协商。如果仍然协商不成功,可在端口下执行命令undo negotiation auto,使之工作在非自协商模式。速率和双工模式的配置可以参考Negotiation字段值为DISABLE时的情况。

DISABLE 表示端口处在非自协商模式,速率和双工模式可在接口视图下执行命令speed { 10 | 100 | 1000 | 2500 | 5000| 10000 }以及duplex { full | half }进行调整,使链路两端参数保持一致。

3、如果current state字段为“ERROR DOWN (down-cause)”,表示端口由于错误事
件而被Shutdown,您需要根据down-cause具体字段信息排查故障。
在采用恢复措施前,建议您先排除业务故障,以防止端口再次进入ERROR DOWN
状态。ERROR DOWN状态恢复措施包括手动和自动两种。
手动恢复:在端口视图下依次执行命令shutdown和undo shutdown命令或者执
行命令restart,重启接口。
自动恢复:在系统视图下执行命令error-down auto-recovery cause down-cause interval interval-value,设置由具体原因引起的Error-Down自动恢复UP功
能。
常见down-cause字段值如下:
as-not-ready 在SVF场景下,当设备协商为AS模式时,端口状态会变为Down,待Parent将模板业务下发完成后,设备端口会重新UP。

auto-defend 执行命令auto-defend action配置攻击溯源的惩罚措施后,设备会将攻击报文进入的端口shutdown,从而避免攻击源继续攻击设备。

bpdu-protection 在运行STP协议的网络中,执行命令stp bpdu-protection配置BPDU保护功能后,如果有人伪造BPDU报文恶意攻击交换设备,交换设备会在边缘端口接收到BPDU报文时将边缘端口状态变为Down,从而阻塞该端口上的所有业务。

efm-remote-failure执行efm trigger error-down命令使能远端故障事件和
当前端口联动功能时,当EFM检测到故障事件critical-event、dying-gasp、link-fault或timeout后,相应端口的协议状态变为Down,端口上的所有业务将全部被中
断。

efm-threshold-event当配置了链路监控功能后,如果在设置的观察时长内,
端口检测到的误帧、误码或者误帧秒数量达到或者超过门限值,则用户可以认为此链路不可以用。执行命令efm threshold-event trigger error-down配置EFM越
限事件和当前端口联动功能,在上述情况下,设备会将接口状态变为Down,从而阻塞该接口上的所有业务。

error-statistics 配置了备份链路的以太网端口,当接收到错误报文时,会导致业务丢包等故障。为了不影响业务的正常运行,执行命令error-statistics threshold-event triggererror-down,当接收到的错误报文达到告警阈值时,则
将端口shutdown,业务切换到备份链路。

runts-error-statistics插拔光纤、网线或者光模块,执行shutdown、undo
shutdown命令或者网络中存在Runts报文等情况会导致端口收到Runts错包。为了避免对设备或者运行的业务带来更坏的影响,设备会统计端口在1分钟内收到的Runts
错包数,当Runts错包数超过告警阈值5时,将该端口shutdown。

link-flap 网线故障或主备倒换等问题会引起端口状态频繁UP/Down变化,此时可执行命令port link-flap proctection enable 配置端口的link-flap保护,设备在收到接口UP/Down消息时,查看端口振荡的次数和间隔时间,在指定时间内UP/DOWN振荡次数达到了设定值时,将该端口shutdown。

storm-control 执行命令storm-control action配置了端口下风暴控制的动作为error-down后,在风暴控制检测时间间隔内,当端口上接收广播、组播或未知单播报文的平均速率大于指定的高阈值的时候,端口将进行关闭处理。

port-security 配置接口安全功能后,设备学习到的MAC地址变为安全
动态MAC。若通过port-security protect-action命令配置端口安全保护动作为shutdown,当端口学习到的安全MAC地址数超过限制或配置静态MAC地址检测功能后出现静态MAC地址漂移时,就把端口关闭。

mac-address-flapping当用户网络中由于环网等原因造成了MAC地址漂移时,
可以在相应端口上执行命令mac-address-flapping action配置发生MAC地址漂移后的处理动作来实现破环。端口配置了MAC地址漂移处理动作后,如果系统检测到是该端口学习的MAC发生漂移,会将该端口关闭。

transceiver-power-low配置了备份链路的以太网光接口,当端口的光功率降低
时,会导致业务丢包等故障。为了不影响业务的正常运行,执行命令transceiver power low trigger error-down,当设备光功率低于设置的告警下限阈值时,会触
发接口error-down,及时切换业务。

data-integrity-error设备长时间运行后,芯片内存标识符出现数据完整性错
误。

二、由设备自身硬件故障引起的端口物理 DOWN
故障原因
当设备单板故障、单个接口故障,以及对端设备出现异常状况时,直接会导致端口物
理DOWN。因此设备自身硬件是否故障是重点排查项。
故障定位
在任意视图下执行命令display interface brief ,查看所有端口状态和配置的简要信
息。
端口状态
如果是多个端口由UP变为DOWN,则可能原因是本端或对端设备的单板故障以及
对端设备状态变化,例如对端设备进行主备倒换、休眠或者重启等。
如果是单个端口由UP变为DOWN,则可查看对接的两个端口槽位外观上是否有金
属弹片存在凹陷或偏位现象。如果外观没有问题,还需要在端口视图下执行命令
loopback internal,查看端口内部是否存在硬件故障。 如果执行命令loopback
internal后,端口状态(字段current state)变为 UP,则端口内部连接正常,无
硬件故障,如果端口状态仍然为DOWN,则端口内部通信异常,存在硬件故障。
故障恢复
1、多个端口Down
这些端口都属于同一块单板,并且连接到多个无异常的对端设备,则可能是单板异常,尝试执行命令reset slot slot-id ,复位单板。如果故障仍未解决,则需要更换单板。

如果多个端口物理DOWN,并且这些端口都是属于本端设备和对端同一设备连接的端口,则可能原因是对端设备异常,您需要登录对端设备查看设备单板是否故障,并及时进行复位或更换操作。如果对端设备处于主备倒换、休眠、重启等状态, 则可以认为属于正常现象,待对端设备状态稳定后,一般本端设备状端口状态即可自动恢复到UP状态。该场景下,接口会出现频繁UP/DOWN,产生大量UP/DOWN日志。

如果对端设备反复重启,例如S交换机与AP设备对接,AP反复重启,导致S交
换机上与之连接的接口物理DOWN。此时需要排查AP反复重启原因,确认是
否存在网络环路、大量ARP广播报文、网络攻击等因素并排除后,才可以确
保端口正常UP。

2、单个端口DOWN
仅有单个端口DOWN,则需要排查链路两端端口是否有金属弹片凹陷等硬件
故障,如果端口故障可尝试使用其他空闲端口。

三、由连接介质故障引起的端口 DOWN 故障
故障原因
设备端口有电口和光口,涉及的连接介质主要是RJ45-网线、光模块、光纤。当连接介质出现老化、破损或者光模块收发光异常等故障时,会导致端口DOWN。
故障定位
电口连接介质故障
1. 检查连线是否正确。
保证对接两端接口使用同一根网线,如果经过跳线架,请检查跳线是否正确。检
查接口是否连接正确,同时检查是否存在接触不好及网线外部损坏的情况。

2. 检查网线规格及长度是否符合标准。
依据以太网相关标准,网线长度不能超过100m。对于GE电口,如果使用低于五
类线的网线将不能够使GE电口以1000M速率UP。所有电口对接,均推荐使用五类
线以上规格的网线对接。

3. 检查网线内部线对状态是否正常。
网线中4对线序中有部分出现损坏,将不能保证电口正常UP。检测网线质量,可
以使用测线仪或者接口视图下执行virtual-cable-test命令,检测线序对连接是否
正常。
如下所示回显中Pair state为Ok表示正常;如果为Unknown,建议使用线缆分析
仪进行测试;如果为Open或Short,建议更换其他网线。
端口down
光口连接介质故障
1. 检查光模块是否属于华为认证光模块。
华为公司在交换机产品发货的光模块标签上增加有华为logo和相应标识,
对于非华为认证发货的光模块插入交换机设备中,会出现告警信息,可以通过
display trapbuffer命令查看。告警格式如下:
告警信息格式
2. 检查光模块状态是否正常。
执行命令display transceiver interface,检查两端设备上的光模块工作状态是否
正常,主要查看收光功率、发光功率、电流值等,确定各项指标是否都在正常范
围内,如下图所示。
光模块状态
注:光模块状态属性的正常数值范围
光模块正常属性值
故障恢复
电口连接介质故障
如果电口网线故障,建议直接更换网线。
光口连接介质故障
1. 如果使用的光模块为非华为认证光模块,请更换使用华为认证光模块。非华为认
证光模块的可靠性无法保证,可能导致业务不稳定。由非华为认证光模块导致的
问题,华为将不承担责任,并在原则上不予以解决。
2. 如果执行display transceiver interface命令查看光模块工作状态参数,超出了正
常范围:
电流过高或过低:请更换光模块。
发光功率过低或过高:请更换光模块。
收光功率过低或过高:使用光功率计测试链路各部分的光功率衰减情况,对
异常的部位进行修复。如果仍无法解决问题请更换光模块或者光纤,确保光
模块传输距离和光纤类型符合组网需求。

四、由连接介质使用方法错误引起的端口 DOWN 故障
故障原因

进行设备间连接介质操作时,需要考虑光模块与光口是否匹配,光模块是否与光纤型号是否匹配,光模块与光纤连线操作是否正确等。当端口出现DOWN时,可以从上述几个原因进行排查。
故障诊断
1、任意视图执行命令display device,查看设备型号及部件信息,其中框式设备主要可查看对应单板名称。
单板
2、登录硬件查询工具,查询当前使用的光模块类型是否和对应设备端口匹配以及光模块是否和光纤型号匹配。
3、两端设备上均在任意视图下执行命令display transceiver interface,检查链路两端光模块参数是否一致。查询光模块参数是否一致

4、检查光纤连线方式是否正确,光模块一般包含发送端(TX)和接收端(RX)。光端口对接时需要两根光纤将一端光模块TX端与另一端RX连接,一端光模块RX端与另一端TX连接。
tx和rx交叉连接
5、判断接口是否为Combo端口,如果是Combo端口,检查端口使用方法是否正确,即端口当前工作模式是否和您当前端口连线是否一致。
COMBO接口参数

如图所示,Combo端口GE1/0/1在设备面板上对应两个端口:Combo光口和Combo电口。Combo光口和Combo电口不能同时工作。当用户需要对Combo光口或Combo电口进行属性配置时,都只需要进入同一接口视图GE1/0/1进行配置即可。
任意视图下执行命令display interface,查看端口是否为Combo端口,以及当前工作模式是否正常。
查看工作 是否正常

故障恢复
根据 硬件查询工具,确保当前使用的光模块与光口匹配,光模块与光纤匹配,如果不一致,请更换相应部件。
如果当前端口为Combo端口,则Combo端口工作模式选定原则如下:
当指定Combo端口工作模式为自动选择模式时(端口视图下执行combo-port auto,默认设备 Combo端口工作模式为auto),系统将检测Combo光口是否有光模块插入,进行模式选择:
Combo电口没有连接网线,当Combo光口插上光模块时,则Combo端口选择光口模式。

Combo电口已经连接网线,且Combo端口处于UP状态,此时即使Combo光口插上光模块,Combo端口仍选择为电口模式。但是设备重启后,Combo端口 工作模式将变为光口模式。

Combo电口已经连接网线,且Combo端口处于DOWN状态,此时Combo光口插上光模块时,Combo端口将选择光口模式。

综上所述,Combo端口工作模式为自动选择模式时,只要Combo光口已插上光模块,则设备重启后,Combo端口都将选择光口模式

当Combo端口的工作模式设置为强制模式时,需要根据本端与对端设备连接的端口类型进行配置,如果本端Combo电口与对端电口相连,则需要强制指定Combo端口的工作模式为copper,即端口视图下执行combo-port copper。

如果本端Combo光口与对端光口相连,则需要强制指定Combo接口的工作模式为fiber,即端口视图下执行combo-port fiber。

综上所述,当确定正确的传输介质后(光纤或者网线)后,就可以确定Combo口正确的工作模式,您可以直接使用命令combo-port {copper | fiber },强制配置端口工作模式和连接介质保持一致即可。

 

ICP备案号:晋ICP备18007549号-1
站长微信:13613567205