CPU爆满后的无助感
2019-11-18杂谈搜奇网58°c
A+ A-告警
晚七点恰好上地铁,握在手里的手机震惊了好几下,依据震惊这几下的手感已推断出这是钉钉在告警了,十有八九就是线上的题目,经由过程Zabbix监控的一台线上服务器已五分钟不可达,这应当不会是收集收集题目了,如果是收集题目,其他线上机械应当都邑不可达。没背电脑,只能干着急,厥后也许看了一下云平台是由于CPU太高致使的。过了也许半个小时,有自动恢复了。
实在这个题目模模糊糊涌现好几次了,只是没去注重,本日一来到公司就最先翻开xshell,啪啪啪几下登录上去以后,袖子一卷,预备好好排查一下,看看究竟是何方妖怪让我的CPU飙升还机械都连不上去。
排查
呆呆的看着这个黑色的框框,没错,我呆呆的看着他看了一天了。由于我完整没有眉目,没有思绪,从那里动手?根据日常平凡的套路,看日记,翻开几个相干的日记,眼睛都瞄没了,也没找到什么有效的东西。网上搜刮一下,看看有么有什么好的方法排查,翻开Google,翻开baidu,一模一样,几乎就是复制粘贴,基本上运用top找到CPU占用高的历程,然后看历程的日记。然则我如今已不是第一现场了。追念起了之前口试的时刻口试过经常会问当你的机械CPU倏忽很高时,你怎么办?思想里也一次又一次的涌现日常平凡说要好好看看linux体系的书,没看,真忏悔,等此次后我肯定要把这方面的学问好好进修进修,体系的进修。但是等今晚归去睡一觉,明早一醒来,照样原样。
深思
日复一日,年复一年,毕业已三年半,运维职业生涯快要四年。三天打鱼,两天晒网,本日看Docker,来日诰日看ELK,样样都没学通。基本底层的东西照样一无所知。有时刻能显著的以为到本身脑壳里那点学问是少之又少。如今做运维以为都是很先进的东西,AIOps,DevOps,这些东西不学也不可。但我以为不管什么Ops,基本照样很主要。照样盘算在跟上时期的脚步时,想往体系运维这一块深入发展。
单从Zabbix的这几个CPU监控项来讲,每一个监控项的意义是什么,估计会岂非一大批跟我一样的工程师们。
system.cpu.switches system.cpu.util[,guest_nice] system.cpu.util[,guest] system.cpu.util[,idle] system.cpu.util[,interrupt] system.cpu.util[,iowait] system.cpu.util[,nice] system.cpu.util[,softirq] system.cpu.util[,steal] system.cpu.util[,system] system.cpu.util[,user] system.cpu.intr system.cpu.load[percpu,avg1]
不知不觉天已黑,又到了放工,内心多了几分沉重感。