极客大学架构师训练营性能优化性能测试指标性能测试性能优化 CDN 网络硬盘缓存异步集群第13课听课总结

2022-03-10 作者: John(易筋)

说明

讲师：李智慧

架构师用了很多优化手段，如何给老板证明，性能提升了呢？

性能测试

性能测试是性能优化的前提和基础，也是性能优化结果的检查和度量标准。不同视角下的网站性能有不同的标准，也有不同的优化手段。

主观视角：用户感受到的性能。

（支付转账场景，用户点击转账后，有个倒计时的页面，即时反馈给用户，让用户感受到快。）

客观视角：性能指标衡量的性能。

性能测试指标

不同视角下有不同的性能标准，不同的标准有不同的性能测试指标，网站性能测试的主要指标有响应时间、并发数、吞吐量、性能计数器等。

响应时间

响应时间：指应用系统从发出请求开始到收到最后响应数据所需要的时间。响应时间是系统最重要的性能指标，直观的反映了系统的“快慢”。

并发数

并发数：系统能够同时处理请求的数目，这个数字也反映了系统的负载特性。对于网站而言，并发数即系统并发用户数，指同时提交请求的用户数目，于此相对应，还有在线用户数（当前登录系统的用户数）和系统用户数（可能访问系统的总用户数）。

吞吐量

吞吐量：指单位时间内系统处理的请求的数量，体现系统的处理能力。对于网站，可以用 “请求数/秒” 或是 “页面数/秒” 来衡量，也可以用 “访问人数/天” 或是 “处理的业务数/小时” 等来衡量。

TPS(每秒事务数)也是吞吐量的一个指标，此外还有HPS（每秒HTTP请求数）。
QPS(每秒查询数)。

吞吐量 = (1000 / 响应时间ms) * 并发数

性能计数器

性能计数器：是描述服务器或操作系统性能的一些数据指标。包括 System Load、对象与线程数、内存使用、CPU 使用、磁盘与网络 I/O 等指标。这些指标也是系统监控的重要参数，对这些指标也是系统监控的重要参数，对这些指标设置报警阀值，当监控系统发现性能计数器超过阀值的时候，就向运维和开发人员报警，及时发现处理系统异常。

命令查看，Load Avg：正在处理的线程数 + 正在等待的线程数，三个时间段的平均时间。理想情况下是CPU的核数。

如果大于CPU的核数，表示CPU过载；如果小于CPU的核数，表示CPU空闲，资源利用不足。

性能测试方法

性能测试是一个总称，具体可细分为性能测试、负载测试、压力测试、稳定性测试。

性能测试

以系统设计初期规划的性能指标为预期目标，对系统不断施加压力，验证系统在资源可接收范围内，是否能达到性能预期。

负载测试

对系统不断地增加并发请求以增加系统压力，直到系统的某项或多项性能指标达成安全临界值，如某种资源已经呈饱和状态，这时候继续对系统施加压力，系统的处理能力不但不能提高，反而会下降。

压力测试

超过安全负载的情况下，对系统继续施加压力，知道系统崩溃或不能再处理任何请求，以获得系统最大压力承受能力。

稳定性测试

被测试系统在特定硬件、软件、网络环境条件下，给系统加载一定业务压力，使系统运行一段较长时间，以此检测系统是否稳定。在生产环境，请求压力是不均匀的，呈波浪特性，因此为了更好地模拟生产环境，稳定性测试也应不均匀地对系统施加压力。

TPS

性能测试目标：要把这条曲线测出来。

性能测试：a~b 并发数增加，TPS快速增加。

负载测试：b~c 并发数增加，TPS增长速度变小。

压力测试：c~d 并发数增加，TPS反而开始下降。

让系统在b点位置左右运行；如果在c点位置左右，那么就很容易系统奔溃了。

到底是在b点位置的左还是右呢？这要依赖于投资多少钱的机器。如果要省钱，那么在b点靠右的位置，安全性会低一点，到达c点比较危险。如果不差钱，那么可以多加机器(比如银行)，那么就在b点靠左的位置。

响应时间

通常瓶颈点在于磁盘和内存数。

并发数 | 响应时间（ms）|TPS | 错误率（%）| Load | 内存（G）| 备注

| - | - | - | - | - | -

10 | 500 | 20 | 0 | 5 | 8 | 性能测试

20 | 800 | 30 | 0 | 10 | 10 | 性能测试

30 | 1000 | 40 | 2 | 15 | 14 | 性能测试

40 | 1200 | 45 | 20 | 30 | 16 | 性能测试

60 | 2000 | 30 | 40 | 50 | 16 | 性能测试

80 | --- | 0 | 100 | --- | --- | 性能测试

基于Flower的应用重构性能测试

性能测试压测可用性

重构前

Flower重构后

软件性能优化的两个基本原则

你不能优化一个没有测试的软件。
你不能优化一个你不了解的软件。

新来架构师，一看系统就觉的技术架构很落伍，要用业界比较牛的架构重构。一般这种架构师撑不过试用期。别这样，千万别这样。毕竟技术团队花了很长的时间在这套系统里面，要先了解系统。了解问题，比掌握技术更关键。不要盲目的那所谓的牛逼技术到处用。不要拿着锤子🔨去砸钉子，要先找到钉子。

性能测试的主要指标

响应时间：完成一次任务花费的时间。
并发数：同时处理的任务数。
吞吐量：单位时间完成的任务数。
性能计数器：System Load, 线程数，进程数，CPU，内存，磁盘，网络使用率。

Spark 应用性能测试

很多个Task在执行

性能优化的一般方法

性能测试，获得性能指标。
指标分析，发现性能与资源瓶颈点。
架构与代码分析，寻找性能与资源瓶颈关键所在。
架构与代码优化，优化关键技术点，平衡资源利用。
性能测试，进入性能优化闭环。

系统性能优化的分层思想

机房与骨干网络性能优化。
服务器与硬件性能优化。（垂直伸缩）
操作系统性能优化。
虚拟机性能优化。（垃圾回收性能优化，锁对性能的优化）
基础组件性能优化
软件架构性能优化
软件代码性能优化

机房与骨干网络性能优化

异地多活的多机房架构。
专线网络与自主 CDN 建设。

从美国到中国网络传输需要300ms左右时间。就近提供机房，让用户快速访问。这是任何软件技术都解决不了的问题。

服务器与硬件性能优化

使用更优的CPU，磁盘，内存，网卡，对软件的性能优化可能是数量级的，有时候远远超过代码和架构的性能优化。

硬件性能优化案例

Spark 作业过程需要传输大量数据，进行资源瓶颈分析，发现大量时间消耗在网络传输上。

解决方案：压缩数据。（压缩以及解压缩，会增加CPU的负担，得不偿失。）

优化方案：升级网卡，10G网卡代替1G网卡。

操作系统性能优化案例

资源利用分析，发现大量 CPU 操作为 sys 类型，消耗大量计算资源。

调查发现，起因是部分 Linux 版本缺省情况下打开 transparent huge page 导致。

优化方案：关闭 transparent huge page。

虚拟机性能优化

虚拟机垃圾回收的期间，全世界都停下来了。

基础组件性能优化

阿里巴巴应用服务器升级项目，采用Jetty 7.1.5 代替 JBoss 4.05 GA。

性能大幅提升，阿里巴巴全站下线 1/3 应用服务器，明年不用采购新机器。

架构更轻量；
配置更简单；
应用更无状态化，开发和维护的福音；
更加安全。

阿里巴巴应用服务器升级项目：

Apache2.2 + Mod - Proxy + Jetty 7.1.5 与阿里巴巴现有架构性能对比

软件架构性能优化三板斧

缓存
异步
集群

缓存

从内存获取数据，减少响应时间。
减少数据库访问，降低存储设备负载压力。
缓存结果对象，而不是原始数据，减少 CPU 计算。
缓存主要优化读操作。

异步

即时响应，更好的用户体验。
控制消费速度，合适的负载压力。
异步主要优化写操作。

集群

古老谚语：如果一匹马拉不动车，无需换一匹更强的马，而是用两匹马拉车。

互联网技术的发展路径是：更多的用户访问需要消耗更多的计算机资源，单一服务器计算资源的增加是有极限的，所以需要增加更多的服务器。关键是如何利用起来这些服务器。

集群的技术目标只有一个：如何使很多台服务器对使用者而言看起来像一台服务器。

2010年京东刚火起来，第一天，服务器崩溃，网站一天不可用。刘强东发一条微博，请信息部喝茶，放了一把刀的图片。第二天，服务器照样崩溃，网站又一天不可用。刘强东再发一条微博，请信息部喝茶，送了信息部900台服务器。第三天，服务器照样崩溃，网站依然一天不可用。科学技术需要技术手段解决，刀子和服务器都不能简单的使用。

软件代码性能优化

遵循面向对象的设计原则与设计模式编程，很多时候程序性能不好不是因为性能上有什么技术挑战，仅仅就是因为代码太烂了。

并发编程，多线程与锁。
资源复用，线程池与对象池。
异步编程，生产者与消费者。
数据结构，数组、链表、hash表、树。

代码优化案例

Spark 任务文件初始化调优

资源分析，发现第一个 stage 时间特别长，耗时长达 14s，CPU 和网络通信有一定开销，不符合应用代码逻辑。

打开 Spark 作业 log，分析这段时间的 Spark 运行状况。

根据 log 分析结果，阅读 Spark 相关源码。

发现 Spark 在任务初始化加载应用代码的时候，每个 Executor 都加载一次应用代码，当时没太服务器最多可启动48个 Executor，每个应用代码包 17M 大小，导致加载开销巨大。

优化方案： Executor 加载应用程序包启用本地文件缓存模式。[SPARK-2713]
优化效果：Stage1 运行时间从14s下降到不到1s。

极客大学架构师训练营性能优化性能测试指标性能测试性能优化 CDN 网络硬盘缓存异步集群第13课听课总结

说明

性能测试

性能测试指标

响应时间

并发数

吞吐量

性能计数器

性能测试方法

性能测试

负载测试

压力测试

稳定性测试

TPS

响应时间

基于Flower的应用重构性能测试

性能测试压测可用性

软件性能优化的两个基本原则

性能测试的主要指标

Spark 应用性能测试

性能优化的一般方法

系统性能优化的分层思想

机房与骨干网络性能优化

服务器与硬件性能优化

硬件性能优化案例

操作系统性能优化案例

虚拟机性能优化

基础组件性能优化

软件架构性能优化三板斧

缓存

异步

集群

软件代码性能优化

代码优化案例

关于我们

热门标签

Elsewhere

极客大学架构师训练营 性能优化 性能测试指标 性能测试 性能优化 CDN 网络 硬盘 缓存 异步 集群 第13课 听课总结

说明

性能测试

性能测试指标

响应时间

并发数

吞吐量

性能计数器

性能测试方法

性能测试

负载测试

压力测试

稳定性测试

TPS

响应时间

基于Flower的应用重构性能测试

性能测试压测可用性

软件性能优化的两个基本原则

性能测试的主要指标

Spark 应用性能测试

性能优化的一般方法

系统性能优化的分层思想

机房与骨干网络性能优化

服务器与硬件性能优化

硬件性能优化案例

操作系统性能优化案例

虚拟机性能优化

基础组件性能优化

软件架构性能优化三板斧

缓存

异步

集群

软件代码性能优化

代码优化案例

关于我们

热门标签

Elsewhere

极客大学架构师训练营性能优化性能测试指标性能测试性能优化 CDN 网络硬盘缓存异步集群第13课听课总结