1000字范文,内容丰富有趣,学习的好帮手!
1000字范文 > 【Linux 性能优化系列】Linux 性能优化 -- CPU 性能篇(三) Linux 软中断

【Linux 性能优化系列】Linux 性能优化 -- CPU 性能篇(三) Linux 软中断

时间:2020-06-01 00:05:33

相关推荐

【Linux 性能优化系列】Linux 性能优化 -- CPU 性能篇(三) Linux 软中断

【Linux 性能优化系列】Linux 性能优化 -- CPU 性能篇(三) Linux 软中断

【1】相关概念

【1.1】中断

中断其实是一种异步的事件处理机制,可以提高系统的并发处理能力;为了减少对正常进程运行调度的影响,中断处理程序就需要尽可能快地运行;中断处理程序在响应中断时,还会临时关闭中断,这就会导致上一次中断处理完成之前,其他中断都不能响应,即中断有可能会丢失;

【1.2】软中断

为了解决中断处理程序执行过长和中断丢失的问题,Linux 将中断处理过程分成了两个阶段,即上半部和下半部;

上半部用来快速处理中断,它在中断禁止模式下运行,主要处理跟硬件紧密相关的或时间敏感的工作;上半部直接处理硬件请求,即硬中断,特点是快速执行;

下半部用来延迟处理上半部未完成的工作,通常以内核线程的方式运行;下半部则是由内核触发,即软中断,特点是延迟执行;

实际上,上半部会打断 CPU 正在执行的任务,然后立即执行中断处理程序;下半部以内核线程的方式执行,并且每个 CPU 都对应一个软中断内核线程,名字为 “ksoftirqd/CPU 编号”,比如 0 号 CPU 对应的软中断内核线程的名字就是 ksoftirqd/0;

【1.3】查看软中断和内核线程

proc 文件系统是一种内核空间和用户空间进行通信的机制,可以用来查看内核的数据结构,或者用来动态修改内核的配置;

其中:/proc/softirqs 提供了软中断的运行情况;/proc/interrupts 提供了硬中断的运行情况;

$ cat /proc/softirqsCPU0 CPU1HI:00TIMER:811613 1972736NET_TX: 497NET_RX: 1136736 1506885BLOCK:00IRQ_POLL:00TASKLET:304787 3691SCHED:689718 1897539HRTIMER:00RCU: 1330771 1354737分析1. 软中断的类型,即第一列的内容,从第一列可以看到,软中断包括了 10 个类别,分别对应不同的工作类型;2. 同一种软中断在不同 CPU 上的分布情况,即同一行的内容,正常情况下,同一种中断在不同 CPU 上的累积次数应该差不多;3. TASKLET 在不同 CPU 上的分布并不均匀,TASKLET 是最常用的软中断实现机制,每个 TASKLET 只运行一次就会结束,并且只在调用它的函数所在的 CPU 上运行;存在问题,由于只在一个 CPU 上运行导致的调度不均衡,由于不能在多个 CPU 上并行运行带来了性能限制;

软中断实际上是以内核线程的方式运行的,每个 CPU 都对应一个软中断内核线程即ksoftirqd/CPU 编号,查看这些线程的运行状况的方法

$ ps aux | grep softirqroot 7 0.0 0.000 ? S Oct10 0:01 [ksoftirqd/0]root 16 0.0 0.000 ? S Oct10 0:01 [ksoftirqd/1]

【2】相关工具与命令

【2.1】sar 工具

sar 是一个系统活动报告工具,既可以实时查看系统的当前活动,又可以配置保存和报告历史统计数据;

语法格式sar [ 选项 ] [ <时间间隔> [ <次数> ] ]参数说明-A:所有报告的总和-b:显示I/O和传递速率的统计信息-B:显示换页状态-d:输出每一块磁盘的使用信息-e:设置显示报告的结束时间-f:从制定的文件读取报告-i:设置状态信息刷新的间隔时间-P:报告每个CPU的状态-R:显示内存状态–u:输出cpu使用情况和统计信息–v:显示索引节点、文件和其他内核表的状态-w:显示交换分区的状态-x:显示给定进程的装-r:报告内存利用率的统计信息

使用示例

查看CPU使用情况 sar -u结果%user 用户空间的CPU使用%nice 改变过优先级的进程的CPU使用率%system内核空间的CPU使用率%iowaitCPU等待IO的百分比 %steal虚拟机的虚拟机CPU使用的CPU%idle 空闲的CPU

查看平均负载 sar -q结果runq-sz 运行队列的长度(等待运行的进程数,每核的CP不能超过3个)plist-sz 进程列表中的进程(processes)和线程数(threads)的数量ldavg-1 最后1分钟的CPU平均负载,即将多核CPU过去一分钟的负载相加再除以核心数得出的平均值,5分钟和15分钟以此类推ldavg-5 最后5分钟的CPU平均负载ldavg-15 最后15分钟的CPU平均负载blocked

查看内存使用情况 sar -r结果kbmemfree 空闲的物理内存大小kbmemused 使用中的物理内存大小%memused 物理内存使用率kbbuffers 内核中作为缓冲区使用的物理内存大小,kbbuffers和kbcached,这两个值就是free命令中的buffer和cachekbcached 缓存的文件大小kbcommit 保证当前系统正常运行所需要的最小内存,即为了确保内存不溢出而需要的最少内存(物理内存+Swap分区)commit 该值是kbcommit与内存总量(物理内存+swap分区)的一个百分比的值kbactivekbinactkbdirty

查看系统swap分区统计情况 sar -W结果pswpin/s 每秒从交换分区到系统的交换页面(swap page)数量pswpott/s 每秒从系统交换到swap的交换页面(swap page)的数量

查看IO和传递速率 sar -b结果tps 磁盘每秒钟的IO总数,等于iostat中的tpsrtps 每秒钟从磁盘读取的IO总数wtps 每秒钟从写入到磁盘的IO总数bread/s 每秒钟从磁盘读取的块总数bwrtn/s 每秒钟此写入到磁盘的块总数

查看磁盘使用情况 sar -d结果DEV 磁盘设备的名称,如果不加-p,会显示dev253-0类似的设备名称,因此加上-p显示的名称更直接tps 每秒I/O的传输总数rd_sec/s 每秒读取的扇区的总数wr_sec/s 每秒写入的扇区的总数avgrq-sz 平均每次次磁盘I/O操作的数据大小(扇区)avgqu-sz 磁盘请求队列的平均长度await 从请求磁盘操作到系统完成处理,每次请求的平均消耗时间,包括请求队列等待时间,单位是毫秒,等于寻道时间+队列时间+服务时间svctm I/O的服务处理时间,即不包括请求队列中的时间%util I/O请求占用的CPU百分比,值越高,说明I/O越慢

统计网络信息 sar -n-n { <关键词> [,...] | ALL }关键词可以是:DEV网卡EDEV 网卡 (错误)NFSNFS 客户端NFSD NFS 服务器SOCK Sockets (套接字) (v4)IPIP 流 (v4)EIPIP 流 (v4) (错误)ICMP ICMP 流 (v4)EICMP ICMP 流 (v4) (错误)TCPTCP 流 (v4)ETCP TCP 流 (v4) (错误)UDPUDP 流 (v4)SOCK6 Sockets (套接字) (v6)IP6IP 流 (v6)EIP6 IP 流 (v6) (错误)ICMP6 ICMP 流 (v6)EICMP6 ICMP 流 (v6) (错误)UDP6 UDP 流 (v6)

网络接口信息 sar -n DEV结果IFACE 本地网卡接口的名称rxpck/s 每秒钟接受的数据包txpck/s 每秒钟发送的数据库rxKB/S 每秒钟接受的数据包大小,单位为KBtxKB/S 每秒钟发送的数据包大小,单位为KBrxcmp/s 每秒钟接受的压缩数据包txcmp/s 每秒钟发送的压缩包rxmcst/s 每秒钟接收的多播数据包-----------------------------------------------------------------------------------------网络设备通信失败信息 sar -n EDVE结果IFACE 网卡名称rxerr/s 每秒钟接收到的损坏的数据包txerr/s 每秒钟发送的数据包错误数coll/s 当发送数据包时候,每秒钟发生的冲撞(collisions)数,这个是在半双工模式下才有rxdrop/s 当由于缓冲区满的时候,网卡设备接收端每秒钟丢掉的网络包的数目txdrop/s 当由于缓冲区满的时候,网络设备发送端每秒钟丢掉的网络包的数目txcarr/s 当发送数据包的时候,每秒钟载波错误发生的次数rxfram/s 在接收数据包的时候,每秒钟发生的帧对其错误的次数rxfifo/s 在接收数据包的时候,每秒钟缓冲区溢出的错误发生的次数txfifo/s 在发生数据包 的时候,每秒钟缓冲区溢出的错误发生的次数-----------------------------------------------------------------------------------------统计socket连接信息 sar -n SOCK结果totsck 当前被使用的socket总数tcpsck 当前正在被使用的TCP的socket总数udpsck 当前正在被使用的UDP的socket总数rawsck 当前正在被使用于RAW的skcket总数if-frag 当前的IP分片的数目tcp-tw TCP套接字中处于TIME-WAIT状态的连接数量-----------------------------------------------------------------------------------------TCP连接的统计 sar -n TCP结果active/s 新的主动连接passive/s 新的被动连接iseg/s 接受的段oseg/s 输出的段

【2.2】hping3 工具

hping3 是一个可以构造 TCP/IP 协议数据包的工具,可以对系统进行安全审计、防火墙测试等;

用法: hping3 host [options]-h --help显示帮助-v --version 显示版本-c --count发送数据包的数目-i --interval 发送数据包间隔的时间 (uX即X微秒, 例如: -i u1000)--fast等同 -i u10000 (每秒10个包)--faster 等同 -i u1000 (每秒100个包)--flood 尽最快发送数据包,不显示回复-n --numeric 数字化输出,象征性输出主机地址-q --quiet安静模式-I --interface 网卡接口 (默认路由接口)-V --verbose 详细模式-D --debug调试信息-z --bind绑定ctrl+z到ttl(默认为目的端口)-Z --unbind 取消绑定ctrl+z键--beep对于接收到的每个匹配数据包蜂鸣声提示模式选择default modeTCP // 默认模式是 TCP-0 --rawipRAWIP模式,原始IP模式,在此模式下HPING会发送带数据的IP头,即裸IP方式,使用RAWSOCKET方式-1 --icmp ICMP模式,此模式下HPING会发送IGMP应答报,可以用--ICMPTYPE --ICMPCODE选项发送其他类型/模式的ICMP报文-2 --udp UDP 模式,缺省下,HPING会发送UDP报文到主机的0端口,可以用--baseport--destport--keep选项指定其模式-8 --scan SCAN mode //扫描模式 指定扫描对应的端口Example: hping --scan 1-30,70-90 -S www.target.host // 扫描-9 --listenlisten mode // 监听模式IP 模式-a --spoofspoof source address //源地址欺骗,伪造IP攻击,防火墙就不会记录真实IP了,当然回应的包也接收不到了--rand-destrandom destionation address mode. see the man. // 随机目的地址模式--rand-source random source address mode. see the man. // 随机源地址模式-t --ttl ttl (默认 64) //修改 ttl 值-N --id id (默认 随机) // hping 中的 ID 值,缺省为随机值-W --winid使用win* id字节顺序 //使用winid模式,针对不同的操作系统;UNIX ,WINDIWS的id回应不同的,这选项可以让你的ID回应和WINDOWS一样-r --rel 相对id字段(估计主机流量) //更改ID的,可以让ID曾递减输出-f --frag 拆分数据包更多的frag //分段,可以测试对方或者交换机碎片处理能力,缺省16字节-x --morefrag 设置更多的分段标志 // 大量碎片,泪滴攻击-y --dontfrag 设置不分段标志 // 发送不可恢复的IP碎片-g --fragoff set the fragment offset // 设置断偏移-m --mtu 设置虚拟最大传输单元, implies --frag if packet size > mtu // 设置虚拟MTU值,当大于mtu的时候分段-o --tos type of service (default 0x00), try --tos help// tos字段,缺省0x00-G --rrouteincludes RECORD_ROUTE option and display the route buffer // 记录IP路由,并显示路由缓冲--lsrr 松散源路由并记录路由 // 松散源路由--ssrr 严格源路由并记录路由// 严格源路由-H --ipproto 设置IP协议字段,仅在RAW IP模式下使用 //在RAW IP模式里选择IP协议,设置ip协议域,仅在RAW ip模式使用ICMP 模式-C --icmptype icmp类型(默认echo请求) // ICMP类型,缺省回显请求-K --icmpcode icmp代号(默认0)// ICMP代码--force-icmp 发送所有icmp类型(默认仅发送支持的类型) // 强制ICMP类型--icmp-gw 设置ICMP重定向网关地址(默认0.0.0.0) // ICMP重定向--icmp-ts 等同 --icmp --icmptype 13 (ICMP 时间戳) // icmp时间戳--icmp-addr 等同 --icmp --icmptype 17 (ICMP 地址子网掩码) // icmp子网地址--icmp-help 显示其他icmp选项帮助// ICMP帮助UDP/TCP 模式-s --baseport base source port (default random) // 缺省随机源端口-p --destport [+][+]<port> destination port(default 0) ctrl+z inc/dec // 缺省随机源端口-k --keep keep still source port// 保持源端口-w --win winsize (default 64) // win的滑动窗口,windows发送字节(默认64)-O --tcpoffset fake tcp data offset(instead of tcphdrlen / 4) // 设置伪造tcp数据偏移量(取代tcp地址长度除4)-Q --seqnumshows only tcp sequence number // 仅显示tcp序列号-b --badcksum (尝试)发送具有错误IP校验和数据包-M --setseq设置TCP序列号 -L --setack设置TCP的ack-F --fin set FIN flag-S --syn set SYN flag-R --rst set RST flag-P --push set PUSH flag-A --ack set ACK flag-U --urg set URG flag// 一大堆IP抱头的设置。-X --xmas set X unused flag (0x40)-Y --ymas set Y unused flag (0x80)--tcpexitcode 使用last tcp-> th_flags作为退出码--tcp-mss 启用具有给定值的TCP MSS选项--tcp-timestamp 启用TCP时间戳选项来猜测HZ/uptimeCommon //通用设置-d --data data size (default is 0) // 发送数据包大小,缺省是0-E --file 文件数据-e --sign 添加“签名”-j --dump 转储为十六进制数据包-J --print转储为可打印字符-B --safe 启用“安全”协议-u --end 告诉你什么时候--file达到EOF并防止倒回-T --traceroute traceroute模式(等同使用 --bind 且--ttl 1)--tr-stop 在traceroute模式下收到第一个不是ICMP时退出--tr-keep-ttl 保持源TTL固定,仅用于监视一跳--tr-no-rtt 不要在跟踪路由模式下计算/显示RTT信息 ARS包描述(新增功能,不稳定)ARS packet description (new, unstable)--apd-send 发送APD描述数据包(参见docs / APD.txt)

【2.3】tcpdump 工具

tcpdump 是一个常用的网络抓包工具,常用来分析各种网络问题;

参数说明-i any : 监听所有网络接口-i eth0 : 监听网卡eth0-D : 显示所有可用接口-n : 不解析主机名,可避免DNC查询-nn : 不解析主机名,也不将协议和端口号转换为名称-q : quiet,打印更少的协议信息-t : 不在每行打印时间戳-tttt : 以-12-31 02:03:48.523512这样的可读性最强的形式打印时间戳-X : 在解析和打印时,除了打印每个数据包的报头外,还以十六进制和ASCII格式打印每个数据包的数据-XX : 与-X相同,并额外显示以太网报头-v, -vv, -vvv : 逐渐增加信息的详细程度-c : 进捕获指定数量的数据包-s : 以字节为单位定义捕获的包大小-S : 打印TCP序列号的绝对值-e : 表示在输出中包含链路层头信息,例如可用于打印以太网和IEEE 802.11等协议的MAC层地址-E :通过提供加密密钥来解密IPSEC流量TCPDUMP语法Syntax: Protocol Direction Host(s) Value Logical Operations Other expressionExample:tcp dstport80 and tcp dst host 10.2.2.2Protocol,值可为:ether,fddi,ip,arp,rarp,decnet,lat,sca,moprc,mopdl,tcp,udp,如果未指定,则默认使用所有协议Direction,值可为: src, dst, src and dst, src or dst,如果不指定,则默认使用 “src or dst”Host(s),值可为: net, port, host, portrange,如果不指定,则默认使用 “host”Logical Operations,值可为: not, and, or,“not”优先级最高,”or”和”and” 优先级相同

【3】案例分析

终端一

运行试验环境# 运行Nginx服务并对外开放80端口$ docker run -itd --name=nginx -p 80:80 nginx

终端二

使用 curl 访问 Nginx 监听的端口,确认 Nginx 正常启动$ curl http://192.168.0.30/<!DOCTYPE html><html><head><title>Welcome to nginx!</title>...-------------------------------------------------------------------------------------------运行 hping3 命令,来模拟 Nginx 的客户端请求# -S参数表示设置TCP协议的SYN(同步序列号),-p表示目的端口为80# -i u100表示每隔100微秒发送一个网络帧# 192.168.0.30 为 Nginx 所在虚拟机 IP# 注:如果在实践过程中现象不明显,可以尝试把100调小,比如调成10甚至1$ hping3 -S -p 80 -i u100 192.168.0.30

终端三

# top运行后按数字1切换到显示所有CPU$ toptop - 10:50:58 up 1 days, 22:10, 1 user, load average: 0.00, 0.00, 0.00Tasks: 122 total, 1 running, 71 sleeping, 0 stopped, 0 zombie%Cpu0 : 0.0 us, 0.0 sy, 0.0 ni, 96.7 id, 0.0 wa, 0.0 hi, 3.3 si, 0.0 st%Cpu1 : 0.0 us, 0.0 sy, 0.0 ni, 95.6 id, 0.0 wa, 0.0 hi, 4.4 si, 0.0 st...PID USERPR NI VIRT RES SHR S %CPU %MEMTIME+ COMMAND7 root20 0 000 S 0.3 0.0 0:01.64 ksoftirqd/016 root20 0 000 S 0.3 0.0 0:01.97 ksoftirqd/12663 root20 0 923480 28292 13996 S 0.3 0.3 4:58.66 docker-containe3699 root20 0 000 I 0.3 0.0 0:00.13 kworker/u4:03708 root20 0 44572 4176 3512 R 0.3 0.1 0:00.07 top1 root20 0 225384 9136 6724 S 0.0 0.1 0:23.25 systemd2 root20 0 000 S 0.0 0.0 0:00.03 kthreadd...分析1. 平均负载全是 0,就绪队列里面只有一个进程(1 running);2. 每个 CPU 的使用率都挺低,最高的 CPU1 的使用率也只有 4.4% 并不算高;3. 进程列表 CPU 使用率最高的进程也只有 0.3% 并不高;两个 CPU 的使用率虽然分别只有 3.3% 和 4.4%,但都用在了软中断上;从进程列表上也可以看到,CPU 使用率最高的也是软中断进程 ksoftirqd,可见可能是软中断导致性能问题;

终端四

$ watch -d cat /proc/softirqsCPU0 CPU1HI:00TIMER: 1083906 2368646NET_TX: 539NET_RX: 1550643 1916776BLOCK:00IRQ_POLL:00TASKLET:333637 3930SCHED:963675 2293171HRTIMER:00RCU: 1542111 1590625分析通过 /proc/softirqs 文件内容的变化情况,可见TIMER(定时中断)、NET_RX(网络接收)、SCHED(内核调度)、RCU(RCU 锁)等这几个软中断都在不停变化其中,NET_RX 即网络数据包接收软中断的变化速率最快,而其他几种类型的软中断,是保证 Linux 调度、时钟和临界区保护这些正常工作所必需的,所以它们有一定的变化倒是正常的;-----------------------------------------------------------------------------------------# -n DEV 表示显示网络收发的报告,间隔1秒输出一组数据$ sar -n DEV 115:03:46 IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s %ifutil15:03:47 eth0 12607.00 6304.00 664.86 358.110.000.000.000.0115:03:47docker0 6302.00 12604.00 270.79 664.660.000.000.000.0015:03:47 lo0.000.000.000.000.000.000.000.0015:03:47 veth9f6bbcd 6302.00 12604.00 356.95 664.660.000.000.000.05分析1. 对网卡 eth0 来说,每秒接收的网络帧数比较大,达到了 12607,而发送的网络帧数则比较小,只有 6304;每秒接收的千字节数只有 664 KB,而发送的千字节数更小,只有 358 KB;2. docker0 和 veth9f6bbcd 的数据跟 eth0 基本一致,只是发送和接收相反,发送的数据较大而接收的数据较小;这是 Linux 内部网桥转发导致的,即系统把 eth0 收到的包转发给 Nginx 服务即可;分析 eth0 :接收的 PPS 比较大,达到 12607,而接收的 BPS 却很小,只有 664 KB;计算网络帧的大小 664*1024/12607 = 54 字节,说明平均每个网络帧只有 54 字节,即小包问题

终端五

tcpdump 命令抓包 通过 -i eth0 选项指定网卡 eth0,并通过 tcp port 80 选项指定 TCP 协议的 80 端口# -i eth0 只抓取eth0网卡,-n不解析协议名和主机名# tcp port 80表示只抓取tcp协议并且端口号为80的网络帧$ tcpdump -i eth0 -n tcp port 8015:11:32.678966 IP 192.168.0.2.18238 > 192.168.0.30.80: Flags [S], seq 458303614, win 512, length 0...分析192.168.0.2.18238 > 192.168.0.30.80,表示网络帧从 192.168.0.2 的 18238 端口发送到 192.168.0.30 的 80 端口;Flags [S] 则表示这是一个 SYN 包;

参考致谢

本博客为博主的学习实践总结,并参考了众多博主的博文,在此表示感谢,博主若有不足之处,请批评指正。

【1】Linux性能优化实战

【2】Linux系列之SAR命令使用详解

【3】linux 性能监控 sar命令

【4】hping3 使用详解

【5】Linux下的Tcpdump网络包分析工具使用指南

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。