):沈阳服务器主机托管性能方面,正确的方向该当如何
–>
在沈阳服务器主机托管运维的工作中,要对服务器的稳定安全负责,为用户提供可靠且可行的运维方案。
概述
什么是性能?
性能最通俗的衡量指标就是“时间”,CPU的使用率指的是CPU用于计算的时间占比,磁盘使用率指的是磁盘操作的时间占比。
当CPU使用率100%时,意味着有部分请求来不及计算,响应时间增加或者超时;
当磁盘使用率100%时,意味着有部分请求需要等待IO操作,响应时间也会增加或者超时。
换言之,所有的操作都在理想的时间内,就不存在“性能优化“的问题。我们在分析性能的时候,总是会首先要找到是什么引起响应时间变慢了,对应单机性能的分析,一般我们会将目光锁定在CPU和IO上,因为对于应用程序一般分为CPU bound型和IO。
bound型,即计算密集型或者读写密集型;至于内存,其性能因素往往也会反映到CPU或者IO上,因为内存的设计初衷就是提高内核指令和应用程序的读写性能。
当内存不足,系统可能进行大量的交换操作,这时候磁盘可能成为瓶颈;而缺页、内存分配、释放、复制、内存地址空间映射等等问题又可能引起CPU的瓶颈;更严重的情况是直接影响功能,这个就不仅仅是性能的问题了。
性能优化并不是一个孤立的课题,除了响应时间的考虑,我们往往还需要综合功能完整性、安全性等等方面的问题。
性能分析的基础
性能优化需要厚实的基础知识:
- 操作系统
操作系统管理着应用程序所需要的所有资源,例如CPU和IO,当任何一个组件出现问题,我们的分析也是基于操作系统的,例如文件系统类型,磁盘类型,磁盘raid类型都需要操作系统管理和支持。
- 系统编程技术
系统编程技术涉及到我们如何使用系统资源,例如对IO的操作我们可以使用buffering I/O,也可以使用Direct IO,可以采用同步的方式,也可以采用异步的方式,可以使用多进程,也可以使用多线程的方式。懂得不同编程技术的原理,有利于问题的分析。
- 应用程序
例如数据库组件的数据类型、引擎、索引、复制、配置参数、备份、高可用等等都可能是性能问题的元凶。
性能分析的方法论
问题分析方面,各类方法论如金字塔思维、5W2H、麦肯锡七步法等等。套用5W2H方法,可以提出性能分析的几个问题
- What-现象的表现是什么样的
- When-什么时候发生
- Why-为什么会发生
- Where-哪个地方发生的问题
- How much-耗费了多少资源,问题解决后能减少多少资源耗用
- How to do-怎么解决问题
但是这些只能给出方向,性能分析需要找到原因需要更具体的方法,怎么解决一个问题也需要更加具体的方式。
Brendan Gregg在《性能之巅:洞悉系统、企业与云计算》第二章中讲到大量的方法,比较突出的如Use方法、负载特征归纳、性能监控、静态性能调优、延时分析、工具法等等。
其中工具法最具体,但是工具法也有自己的限制,如磁盘的饱和度,在磁盘使用率100%的时候,磁盘的负载可能还可以继续增加。在实际分析问题中,负载特征归纳更有指导意义,静态跟踪和动态跟踪让我们更容易更直观发现问题。
CPU
认识CPU
CPU本身的架构和内核调度器的架构这里不做详细讲述,具体可以参考操作系统类书籍。但是仍然需要清楚一些概念:
- 处理器
- 核
- 硬件线程
- CPU内存缓存
- 时钟频率
- 每指令周期数CPI和每周期指令数IPC
- CPU指令
- 使用率
- 用户时间/内核时间
- 调度器
- 运行队列
- 抢占
- 多进程
- 多线程
- 字长
针对应用程序,我们通常关注的是内核CPU调度器功能和性能
线程的状态分析主要是分析线程的时间用在什么地方,而线程状态的分类一般分为:
on-CPU:执行中,执行中的时间通常又分为用户态时间user和系统态时间sys。
off-CPU:等待下一轮上CPU,或者等待I/O、锁、换页等等,其状态可以细分为可执行、匿名换页、睡眠、锁、空闲等状态。
如果大量时间花在CPU上,对CPU的剖析能够迅速解释原因;如果系统时间大量处于off-cpu状态,定位问题就会费时很多。