19.系统负载

进程优先级

作用：可以让优先级高的进程，优先使用系统资源，内存、CPU、磁盘、文件描述符...

nice值越高：表示优先级越低，例如19，该进程容易将CPU使用量让给其他进程。
nice值越低：表示优先级越高，例如-20，该进程更不倾向于让出CPU。

## 查看优先级
[root@localhost ~]# top -n 1 -p 6884
[root@localhost ~]# ps axo pid,user,nice,command|grep sshd
## 配置优先级
# 在进程启动命令之前，加上nice
[root@localhost ~]# nice -n 优先级（-20 ~ 20） 程序启动命令（systemctl不行）
## 配置nginx优先级
# 1.正常启动nginx找到启动命令
[root@localhost ~]# systemctl start nginx
[root@localhost ~]# ps -ef|grep nginx
root 10691 1 0 18:08 ? 00:00:00 nginx: master process
/usr/sbin/nginx
# 2.先停止服务
[root@localhost ~]# systemctl stop nginx
# 3.配置优先级启动
[root@localhost ~]# nice -n -15 /usr/sbin/nginx
# 4.检查是否启动成功
[root@localhost ~]# ps -ef|grep nginx
[root@localhost ~]# netstat -lntup|grep nginx
tcp 0 0 0.0.0.0:80 0.0.0.0:* LISTEN
10770/nginx: master
tcp6 0 0 :::80 :::* LISTEN
10770/nginx: master
# 5.检查优先级
[root@localhost ~]# top -p 10770
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
10770 root 5 -15
39304 1068 124 S 0.0 0.1 0:00.00 nginx

Linux假死

# ping 通一台机器，一定能ssh连上这台机器吗？
不一定 ping协议：icmp
原因：ping 通，只能能说明icmp协议是通的，不能说明ssh协议是通的
#ping 不通一台机器，一定ssh连不上这台机器吗？
不一定 ping协议：icmp

Linux后台进程管理

# 如何将进程放入后台运行
# 1.方法一：在想要执行的命令后面加上&
[root@localhost ~]# ping baidu.com &
[root@localhost ~]# ping baidu.com >> /tmp/1.txt &
# 2.方法二：在需要放入后台的命令前面加上nohup 后面加上 &
[root@localhost ~]# nohup ping baidu.com & // 在当前目录下生成一个nohup.out文件，
所有输出结果会放入该文件
# 3.方法三：将进程先暂停到后台 输入：bg 将程序放入后台运行（background）
[root@localhost ~]# ping baidu.com
Ctrl + Z // 将程序暂停到后台
bg // 将暂停的程序放入后台运行
fg // 将暂停的程序调到前台运行 根据编号，调用指定的进程到前台
jobs // 查看后台暂停的程序有哪些
# 4.方法四：使用screen，开启新屏幕
[root@localhost ~]# yum install -y screen


## 查看screen后台运行任务
[root@localhost ~]# screen -ls
[root@localhost ~]# screen -list
There are screens on:
11050.sina (Detached)
## 创建卷轴
[root@localhost ~]# screen // 没有命名的卷轴
[root@localhost ~]# screen -S baidu // 指定名字
## 封印 回到前台界面
Ctrl + a + d
## 删除窗口
[root@localhost ~]# screen -S sina -X quit

系统平均负载

每次发现系统变慢时，我们通常做的第一件事，就是执行top或者uptime命令，来了解系统的负载情况。平均负载与CPU使用率并没有直接关系。

## 查看系统负载情况
[root@localhost ~]# w
19:36:06 up 3:36, 3 users, load average: 0.00, 0.01, 0.05
[root@localhost ~]# uptime
19:36:10 up 3:36, 3 users, load average: 0.00, 0.01, 0.05
[root@localhost ~]# top -n 1
top - 19:36:15 up 3:36, 3 users, load average: 0.00, 0.01, 0.05

平均负载是指，单位时间内，系统处于可运行状态和不可中断状态的平均进程数，也就是平均活跃进程数

可运行状态和不可中断状态是什么？

1
2

1.可运行状态进程，是指正在使用CPU或者正在等待CPU的进程，也就是我们用PS命令看的处于R状态的进程
2.不可中断进程，（你在做什么事情的时候是不能被打断的呢？...不可描述）系统中最常见的是等待硬件设备的IO相应，也就是我们PS命令中看到的D状态（也成为Disk Sleep）的进程。平均负载其实就是单位时间内的活跃进程数

平均负载多少时合理？

最理想的状态是每个CPU上都刚还运行着一个进程，这样每个CPU都得到了充分利用。
所以在评判负载时，首先你要知道系统有几个CPU，这可以通过top命令获取，或grep 'model name'
/proc/cpuinfo
## 如何查看当前系统CPU核心数
[root@localhost ~]# top
[root@localhost ~]# cat /proc/cpuinfo
[root@localhost ~]# lscpu
假设现在在4，2，1核的CPU上，如果平均负载为2时，意味着什么呢？
1.在4个CPU的系统上，意味着CPU有50%空闲。
2.在2个CPU的系统上，以为这所有的CPU都刚好完全被占用。
3.在1个CPU的系统上，则意味着有一半的进程竞争不到CPU。

#三个值关注哪个合理
1）三个值，不能只关注其中一个值（三个都要看）
2）不能根据1分钟负载低情况来判断，当前负载处于下降状态（不关注服务器的问题）


#计算方式
假设我们在有2个CPU系统上看到平均负载为2.73，6.90，12.98那么说明在过去1分钟内，系统有136%的超载
1分钟：（2.73/2*100%=136%）
5分钟：（6.90/2*100%=345%）
15分钟：(12.98/2*100%=649%)
计算公式：（负载/核心数）*100%

负载过高排查

web01机器很卡，找出原因
### 压测命令
stress （K8S）是Linux系统压力测试工具，这里我们用作异常进程模拟平均负载升高的场景
##################################################################
### 排查工具
mpstat是多核CPU性能分析工具，用来实时检查每个CPU的性能指标，以及所有CPU的平均指标。
pidstat是一个常用的进程性能分析工具，用来实时查看进程的CPU，内存，IO，以及上下文切换等性能指标。

CPU对负载影响

[root@localhost ~]# yum intall -y sysstat
## 分析CPU
[root@localhost ~]# mpstat -P ALL 1
[root@localhost ~]# top
%Cpu0 : 99.2 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.8 si, 0.0 st
%Cpu1 :100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu2 : 0.0 us, 0.0 sy, 0.0 ni, 99.0 id, 0.0 wa, 0.0 hi, 1.0 si, 0.0 st
%Cpu3 :100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
[root@localhost ~]# pidstat -u 5 1
Linux 3.10.0-957.el7.x86_64 (localhost.localdomain) 04/26/2024 _x86_64_(4 CPU)
08:21:50 PM UID PID %usr %system %guest %CPU CPU Command
08:21:55 PM 0 9 0.00 0.20 0.00 0.20 0 rcu_sched
08:21:55 PM 0 60 0.00 0.20 0.00 0.20 0 kworker/0:1
08:21:55 PM 0 6618 0.00 0.20 0.00 0.20 0 sshd
08:21:55 PM 0 6803 99.60 0.20 0.00 99.80 3 java
08:21:55 PM 0 6804 99.40 0.40 0.00 99.80 2 java
08:21:55 PM 0 6805 99.60 0.40 0.00 100.00 1 java
08:21:55 PM 0 6815 0.00 0.20 0.00 0.20 0 pidstat
Average: UID PID %usr %system %guest %CPU CPU Command
Average: 0 9 0.00 0.20 0.00 0.20 - rcu_sched
Average: 0 60 0.00 0.20 0.00 0.20 - kworker/0:1
Average: 0 6618 0.00 0.20 0.00 0.20 - sshd
Average: 0 6803 99.60 0.20 0.00 99.80 - java
Average: 0 6804 99.40 0.40 0.00 99.80 - java
Average: 0 6805 99.60 0.40 0.00 100.00 - java
Average: 0 6815 0.00 0.20 0.00 0.20 - pidstat
## 查找对应程序的日志
tail -f /var/log/nginx/access.log
tial -f /var/log/java/xxxx.log
error：找到报错
## 将日志交给开发处理/分析

测试一下磁盘IO对负载影响

## IO对CPU的影响
[root@localhost ~]# mpstat -P ALL 3
Linux 3.10.0-957.el7.x86_64 (localhost.localdomain) 04/26/2024 _x86_64_(4 CPU)
08:29:48 PM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle
08:29:51 PM all 0.17 0.00 73.85 0.00 0.00 0.00 0.00 0.00 0.00 25.98
08:29:51 PM 0 0.00 0.00 66.93 0.00 0.00 0.00 0.00 0.00 0.00 33.07
08:29:51 PM 1 0.00 0.00 68.15 0.00 0.00 0.00 0.00 0.00 0.00 31.85
08:29:51 PM 2 0.00 0.00 79.87 0.00 0.00 0.00 0.00 0.00 0.00 20.13
08:29:51 PM 3 0.00 0.00 78.92 0.00 0.00 0.00 0.00 0.00 0.00 21.08
## iostat 查看磁盘IO信息
[root@localhost ~]# iostat
Linux 3.10.0-957.el7.x86_64 (localhost.localdomain) 04/26/2024 _x86_64_(4 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
16.40 0.00 3.49 0.01 0.00 80.10
Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
scd0 0.01 0.53 0.00 1028 0
sda 6.23 283.56 8.79 548598 17015
[root@localhost ~]# pidstat -u 5 1
08:30:36 PM 0 6831 0.40 76.74 0.00 77.14 3 stress
08:30:36 PM 0 6832 0.00 78.13 0.00 78.13 1 stress
08:30:36 PM 0 6833 0.00 74.55 0.00 74.55 3 stress

测试大量进程对负载影响

[root@localhost ~]# mpstat -P ALL 3
Linux 3.10.0-957.el7.x86_64 (localhost.localdomain) 04/26/2024 _x86_64_(4 CPU)
08:33:45 PM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle
08:33:48 PM all 53.94 0.00 0.25 0.00 0.00 0.25 0.00 0.00 0.00 45.57
08:33:48 PM 0 53.00 0.00 0.50 0.00 0.00 0.00 0.00 0.00 0.00 46.50
08:33:48 PM 1 54.41 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 45.59
08:33:48 PM 2 52.50 0.00 0.50 0.00 0.00 0.50 0.00 0.00 0.00 46.50
08:33:48 PM 3 55.02 0.00 0.00 0.00 0.00 0.48 0.00 0.00 0.00 44.50
[root@localhost ~]# pidstat -u 5 1
08:30:36 PM 0 6831 0.40 76.74 0.00 77.14 3 stress
08:30:36 PM 0 6832 0.00 78.13 0.00 78.13 1 stress
08:30:36 PM 0 6833 0.00 74.55 0.00 74.55 3 stress
# 总结：
1.平均负载高有可能是CPU密集型进程导致的
2.平均负载高并不一定代表CPU的使用率就一定高，还有可能是I/O繁忙
3.当发现负载高时，可以使用mpstat、pidstat等工具，快速定位到，负载高的原因，从而做出处理

负载达到多少时候需要注意

1
2

当平均负载高于CPU数量70%的时候，你就应该分析排查负载高的问题了，一旦负载过高，就可能导致进程相应变慢，进而影响服务的正常功能。
但70%这个数字并不是绝对的，最推荐的方法，还是把系统的平均负载监控起来，然后根据更多的历史数据，判断负载的变化趋势，当发现负载有明显升高的趋势时，比如说负载翻倍了，你再去做分析和调查。