1000字范文,内容丰富有趣,学习的好帮手!
1000字范文 > 曙光服务器状态灯 中科曙光服务器培训教程汇总:操作系统异常情况处理

曙光服务器状态灯 中科曙光服务器培训教程汇总:操作系统异常情况处理

时间:2024-08-13 15:04:19

相关推荐

曙光服务器状态灯 中科曙光服务器培训教程汇总:操作系统异常情况处理

《中科曙光服务器培训教程汇总:操作系统异常情况处理》由会员分享,可在线阅读,更多相关《中科曙光服务器培训教程汇总:操作系统异常情况处理(60页珍藏版)》请在人人文库网上搜索。

1、操作系统异常情况处理,孙龙祥技术支持中心 ,目录,01,02,03,04,判断故障类型,硬件相关工具,OS启动异常处理,磁盘克隆方法与相关操作,05,网络相关,1.1 判断软硬件故障辅助工具-LiveCD,有大量的报修软件故障还是硬件故障扯不清的问题,我可以从U盘/光盘启动一个live系统,来排除故障节点的操作系统本身问题。 https:/,1.1 磨刀不误砍柴工-liveCD(不仅限于)的制作,从上页下载了iso文件 从此页下载rufus工具 在rufus第一行选择要制作live启动盘的U盘设备 在rufus中下部最右侧找到“光盘”的图标加载镜像 其他选项可以按照默认,单击rufus工具的“。

2、Start”按钮,工具检测出是Linux系统会弹出对话框选择使用iso模式写入或dd模式写入。选择iso模式优点是U盘剩余空间还可以写入文件。dd模式优点是兼容性特别好。 本工具还可以写入DVD9 iso镜像,即大于4.7G的镜像,比如winserver R2 其他还有制作DOS启动盘,WTG等功能待你发掘,https:/rufus.akeo.ie,1.1 liveCD的使用,然后拿到制作好的启动盘插入服务器,不同型号服务器开机按F7/F11等选择liveU盘启动。就会进入一个基本的centos系统。 获得root权限使用命令:sudo su。或CTRL+ALT+F26,在文本模式输入。

3、root账户名,密码为空,进入系统。 然后就可以复现故障了。一般故障复现,很可能就是硬件问题,除了指示灯,蜂鸣器,BMC日志,我们还能从哪儿判断故障呢,开机按esc或tab,让logo后面的东西显示出来 盯住自检的过程,legacyBIOS会有很多部件初始化信息,包括固件版本。必要时按“Pause”,拍照后按esc使其继续 如有多种硬盘控制器,注意观察操作系统在哪个硬盘 会判断,出错界面是否已进入操作系统,1.2 显示内容很重要,POST阶段,BIOS: POST-63H MBR(pxe)Grub(2)Kernel,init UEFI:SECPEIDXEBDS,1.2 显示内容很重要,开机停在。

4、grub,无法进系统,多数为老设备,硬盘损坏,boot分区损坏,案例,ESXi PSOD(Purple Screen Of Death) 抓拍后再重启导出日志,1.2 显示内容很重要,案例,此图 故障: 内核参数加enforcing=0 或selinux=0(rhel5,Kernel panic,1.2 显示内容很重要,案例,1.2 显示内容很重要,Kernel panic,看到 十六进制字样一般是内核输出信息,从“Firmware Bug”可以看出是在os下报出的错误,抓拍 发邮件反馈时,请压缩图片,以能看清文字为准,文件越小越好 虽然指向的是cpu无响应,也要从我们的liveCD启动盘启动。

5、看下是否有相同的故障报错,因为不排除是用户更改了配置后造成的故障,1.2 显示内容很重要,案例,1.2 显示内容很重要,Give root password for maintenance (or type Control-D to continue,非正常关机,突然断电,设备数据读写异常等 此故障多为文件系统只读,或root分区损坏,系统只启动了内核,案例,1.2 显示内容很重要,还是硬盘错误,这次是系统下报错,这样就可以查系统日志了。 同一个部件,它可以变着花样,各种排列组合的折磨你,案例,1.2 显示内容很重要,操作系统启动和关闭过程中有大量信息,可能涉及系统服务bug、网络等,1.2 。

6、显示内容很重要,判断为硬件相关故障,考虑排查Reise卡或PCIe插槽,案例,1.2 显示内容很重要,判断为硬件相关故障,关闭CPU节能,案例,目录,01,02,03,04,判断故障类型,硬件相关工具,OS启动异常处理,磁盘克隆方法与相关操作,05,网络相关,2.1 系统工具来帮忙,lspci -vvv、lsmod、modinfo 驱动相关 网卡、网络配置相关 raid卡、SAS卡工具判断硬盘或卡故障 内存 cpu dmidecode ipmitool,2.1 系统工具来帮忙,lspci |grep (-i) xxx Eth Mellanox NVIDIA HFI LSI,如果系统下不识别某个。

7、硬件设备了,用什么方法来查看呢,2.1 系统工具来帮忙,lspci -vvv,lspci -vvv|grep (-i) A 10 xxx,外插卡出现异常,怎么查看驱动信息,链路信息,2.1 系统工具来帮忙,lsmod用于查看已加载的驱动和驱动间依赖关系 modprobe用于加载驱动 modprobe -r用于卸载驱动 modinfo用于查看驱动模块的版本,不识别某个硬件,驱动加载了吗,怎么看,2.1 系统工具来帮忙,mpt3sas是啥,2.1 系统工具来帮忙,mpt3sasLSI MPT Fusion SAS 3.0 Device Driver megaraid_sasAvago MegaRA。

8、ID SAS Driver aacraidAdaptec Advanced Raid Products qla2xxxQLogic Fibre Channel HBA Driver lpfcEmulex LightPulse Fibre Channel SCSI driver igb/e1000e/e1000Intel(R) Gigabit Ethernet Network Driver ixgbe/i40eIntel(R) X0 Gigabit PCI Express Network Driver tg3Broadcom Tigon3 ethernet driver mlx4/5_ibMel。

9、lanox ConnectX HCA InfiniBand driver hfi1Intel Omni-Path Architecture driver nouveaunVidia Riva/TNT/GeForce/Quadro/Tesla(inbox) nvidia be2iscsiEmulex OneConnectOpen-iSCSI Driver qla4xxx QLogic iSCSI HBA Driver bnx2fcQLogic FCoE Driver qedf QLogic QEDF 25/40/50/100Gb FCoE Driver i40iwIntel(R) Etherne。

10、t Connection X722 iWARP RDMA Driver,2.1 系统工具来帮忙,网卡出现大量错误包,一般是硬件故障,2.1 系统工具来帮忙,ethtool -i enp4s0 也可以查看驱动 安装过mellanox驱动,可以查看IB 驱动版本,怎么查看网卡当前连接速率,2.1 系统工具来帮忙,free,df,内存、硬盘爆仓了,怎么看? 有什么影响,2.1 系统工具来帮忙,由分区未对齐造成的磁盘性能低,parted) mklabel msdos (parted) mkpart primary 0 100% Warning: The resulting partition is n。

11、ot properly aligned for best performance. Ignore/Cancel? 磁盘对齐操作: (parted) align-check optimal 1 #1 is partation number 1 aligned,2.1 系统工具来帮忙,lscpu,高算集群某个节点计算速度慢,看下更换主板后关闭超线程了吗,2.1 系统工具来帮忙,cat /proc/cpuinfo,网络测试时,总测不出理想结果,看主频是否在基频,2.1 系统工具来帮忙,dmidecode -t memory,在mcelog里看到ECC报错,内存条有很多,怎么把BANK0和硬件对应起来。

12、,2.1 系统工具来帮忙,ipmitool,ipmitool sdr elist #查看传感器信息 ipmitool sel elist #查看日志 ipmitool -U admin -P admin -H 10.0.40.97 -I lanplus chassis poh #ipmi启动了多长时间,2.1 系统工具来帮忙,smartctl a /dev/sda,怎么查看SSD总写入量,是否超过设计寿命,2.1 系统工具来帮忙,SMART(Self-MonitoringAnalysisAndReportingTechnology,01(001)底层数据读取错误率 Raw Read Error。

13、 Rate C8(200)写入错误率 Write Error Rate 以下是SSD E1(225)主机写入数据量HostWrites E8(232)寿命余量EnduranceRemaining E8(232)预留空间剩余量AvailableReservedSpace(Intel芯片) E9(233)介质磨耗指数MediaWareoutIndicator(Intel芯片) http:/,机械硬盘无冗余,写(读)到坏一块就计数,当达到raid卡阀值就把硬盘标记为bad SSD有一定比例块被隐藏,用来替代损耗的块,当冗余的块用完,即达到寿命余量, 再继续消耗整体硬盘容量会变小,2.2 专业的人做专。

14、业的事祭出硬件专用工具,RAID卡 InfiniBand OPA GPU PHI,2.2 硬件专用工具,storcli /cx/vx show bbm查看raid逻辑坏块 storcli /cx show badblocks storcli /cx/vx set wrcache=awb pdcache=on storcli /cx show events storcli /cx show termlog storcli /cx show alilog,Broadcom(Avago、LSI)storcli,2.2 硬件专用工具,ibstat,怎么查看链接状态等信息,2.2 硬件专用工具,ib_w。

15、rite_bw/ib_read_bw#带宽 ib_write_lat/ib_read_lat#延时 ibdiagnets #诊断整个IB网,怎么测试点到点的带宽和延时,2.2 硬件专用工具,opainfo,连接带宽 连接质量,2.2 硬件专用工具,opareport -v,可以看到整个网路里每个端口 的带宽,2.2 硬件专用工具,opahfirev (Similar to OFED ibv_devinfo,lspci vv LinkSta:Speed 8GT/s,Width X16#像EDR、OPA、100G以太网卡和GPU、XEON PHI都需要x16PCIeGEN3: 8GT/s GEN2。

16、: 5GT/s,opa网络与理论带宽相差较大,可以看下PCIe的工作模式,2.2 硬件专用工具,nvidia-smi,NVIDIA GPU状态异常,看看温度如何,使用率多高,是否有ECC报错,2.2 硬件专用工具,XEON PHI (KNC,modprobe mic systemctl start mpss micctrl s miccheck #检查mic状态 micinfo #查看mic温度,mpss版本等,XEON PHI正常工作需要加载驱动,打开mpss服务,XEON PHI的正确打开方式,目录,01,02,03,04,判断故障类型,硬件相关工具,OS启动异常处理,磁盘克隆方法与相关操。

17、作,05,网络相关,3.1 启动停在grub,grubcat (hd0,2)/etc/fstab #sugon一般安装的系统sda1:/boot,sda2:swap,sda3:/ grubroot(hd0,2) grubsetup (hd0) grubkernel (hd0,0)/vmlinuz-tab ro root=/dev/sda3 grubinitrd (hd0,0)/initrd-tab grubboot,3.2 启动停在maintenance,Give root password for maintenance (or type Control-D to continue,多为文件。

18、系统只读,或硬盘有坏块 mount次数 BIOS时间 e2fsck /dev/sda2 e2fsck /dev/mapper/vg-root,3.2 启动停在maintenance,文件系统只读还有可能是/etc/fstab里加入了外部存储,不管是fcsan、ipsan、nas都有可能失联,或启动顺序不对导致超时。建议把外部存储开机挂载命令写入/etc/rc.local。非要写在fstab的话,一定加上_netdev参数。 例如: /dev/mapper/san_data /data xfs defaults,_netdev 0 0,3.3 rhel6进入单用户模式,在grub界面选中启动项 。

19、按e键,进入编辑模式 在“kernel”行末输入“空格1或signle“,回车 返回grub界面,按b键,启动系统,3.3 rhel7进入单用户模式,在grub2界面选中启动项,按e键,进入编辑模式 在linux16/linux/linuxefi所在参数行尾添加以下内容:init=/bin/sh 然后按ctrl+x键,启动系统到shell 挂载文件系统为可写模式:mount -o remount,rw / 运行passwd,并按提示修改root密码。 如果之前系统启用了selinux,必须运行以下命令,否则将无法正常启动系统: touch /.autorelabel 运行命令exec /sbi。

20、n/init来正常启动,或者用命令exec /sbin/reboot重启,方法1:init,3.3 rhel7进入单用户模式,在grub2界面选中启动项,按e键,进入编辑模式 在linux16/linux/linuxefi所在参数行尾添加以下内容:rd.break,按ctrl+x进入; 进去后输入命令mount,发现根为/sysroot/,并且不能写,只有ro=readonly权限; 挂载文件系统为可写模式:mount -o remount,rw /sysroot/ chroot /sysroot/ 改变根 运行passwd,并按提示修改root密码 如果之前系统启用了selinux,必须运行。

21、以下命令,否则将无法正常启动系统: touch /.autorelabel ctrl+d 退出 然后reboot,方法2:rd.break,目录,01,02,03,04,判断故障类型,硬件相关工具,OS启动异常处理,磁盘克隆方法与相关操作,05,网络相关,4.1更换磁盘后克隆系统,在HPC集群某个节点更换硬盘后,克隆硬盘的操作 找一个相同配置的正常节点A(系统下识别本地硬盘sda),重启,临时关闭网络,防止产生大量作业IO 插入故障节点B新更换的硬盘(在A节点识别为sdb) 执行dd if=/dev/sda of=/dev/sdb bs=1M;sync 等待执行完成,一般要半小时以上 克隆后,。

22、挂载sdb的根分区到/mnt目录mount /dev/sdb3 /mnt。 rhel6系统需要修改主机名/mnt/etc/sysconfig/network,所有使用网口ip配置文件/mnt/etc/sysconfig/network-scripts/ifcfg-eth0,ib0,删除/mnt/etc/udev/ruels.d/ 70-persistent-net.rules,sync然后卸载/mnt目录,重启 rhel7系统需要修改主机名/mnt/etc/hostname,所有使用网口ip配置文件/mnt/etc/sysconfig/network-scripts/ifcfg-eth0,ib。

23、0,sync然后卸载/mnt目录,重启,dd,4.1更换磁盘后克隆系统,在HPC集群某个节点更换硬盘后,克隆硬盘的操作 找一个相同配置的正常节点A,重启,从再生龙启动 系统下识别本地硬盘sda,插入故障节点B新更换的硬盘(在A节点识别为sdb) 经过一系列确认后开始克隆 克隆后,挂载sdb的根分区到/mnt目录mount /dev/sdb3 /mnt。 rhel6系统需要修改主机名/mnt/etc/sysconfig/network,所有使用网口ip配置文件/mnt/etc/sysconfig/network-scripts/ifcfg-eth0,ib0,删除/mnt/etc/udev/rue。

24、ls.d/ 70-persistent-net.rules,sync然后卸载/mnt目录,重启 rhel7系统需要修改主机名/mnt/etc/hostname,所有使用网口ip配置文件/mnt/etc/sysconfig/network-scripts/ifcfg-eth0,ib0,sync然后卸载/mnt目录,重启,再生龙,目录,01,02,03,04,判断故障类型,硬件相关工具,OS启动异常处理,磁盘克隆方法与相关操作,05,网络相关,5.1 网络及安全服务,NetworkManager firewalld selinux iptables ip6tables,临时关闭服务: system。

25、ctl stop NetworkManager systemctl stop firewalld setenforce 0 systemctl stop iptables systemctl stop ip6tables,下次启动生效: systemctl disable NetworkManager systemctl disable firewalld sed -i 7s/enforcing/ disabled/ /etc/selinux/config systemctl disable iptables systemctl disable ip6tables,网络不通,ssh无法登陆,先看看这几个服务,5.1 网络及安全服务,service NetworkManager stop (rhel6) chkconfig NetworkManager off(rhel6) rhel7推荐使用nmtui/nmcli创建team 做team依赖NetworkManager,5.1 网络及安全服务,opensm openibd,openibd-opa opensmopafm 系统先启动openibd或opa服务驱动硬件工作,然后在集群内至少一个节点打开子网服务opensm或opafm,如多个节点开启子网服务,需要驱动包版本尽量一致,HCA卡指示灯不亮,IB网不通。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。