个人签名

124篇博客

编辑推荐

网易数帆开源API网关与容器云项目，让云原生生产落地“多快好

网易汪源：统一负载与多云环境的“开放姿态”，才是云原生

网易数帆如何用 Kubernetes“原语”搞定云原生中间件

快手打新挤爆券商系统，网易数帆推出券商稳定性保障方案

探索智慧校园新模式，网易有数在教育行业的实践分享

金融行业大数据治理之路——数据模型篇

性能测试之如何准备测试数据

未来已来2018-09-06 14:10

作者：刘林霞

关于如何准备性能测试数据，相信不少性能测试人员也踩过不少坑：比如数据量不足，导致性能表现非常好，忽略了一些潜在性能问题；数据分布不合理，导致测试结果与线上差异较大，又要推到重来。经过n多次被坑之后，总结下经验。我们把测试数据准备分为两类数据：铺底数据和参数化数据。

什么是铺底数据？一般情况下，产品上线后，数据量是不断增加和累计的过程。刚上线时，数据量较少，数据库查询及更新速度快，服务响应及时性较好。随着数据量的累积，数据量不断增加和膨胀，系统的操作响应时间会随着数据量的不断增加而变得越来越长。所以，在性能测试模拟时，要考虑一定规模数据量情况下的性能是否能满足预期，比如考虑半年或一年的业务量。

什么是参数化数据？在压力测试时，通常模拟不同的用户行为，或者业务行为，从系统所提供的API来看，我们需要参数化用户账号等数据，如考拉海淘产品，压测下单场景时，我们要参数化用户数据，哪些用户进行下单；参数化商品数据，这些用户购买什么产品等。

一、性能测试数据准备

铺底数据准备

铺底数据有目的: 铺底数据的首要目的是让性能测试环境与线上保持一致，或者说接近线上真实情况。一个是保证待测系统有一定的规模，比如半年或一年后的用户规模。另一个是为压测做准备，准备每个要压测的请求需要使用到的数据，这部分数据涉及到具体的业务，对性能测试结果影响比较大，具体说明可参考“参数化数据准备”章节。

根据以上两点，将铺底数据划分为两块：

只做铺底，在压测中不会访问到的数据，这部分数据是为了使数据库达到一定的规模，以发现数据库查询、更新等性能瓶颈，如忘记建立索引，查询SQL不合理等问题。只为铺底，压测时不会用到的这部分数据，在预设的过程中就比较随意了，不用考虑数据是否合理，也不用考虑业务关联关系，只要符合数据库设计规则，能插入数据库即可。
另一部分数据是在压测时要用到的数据，比如API要传参过去的数据，或者请求响应数据。这部分数据在铺底的时候就要精细化的设计，包括数据大小，数量，分布等。

铺底数据量多少合适？ 这个完全根据产品的规模来预估，比如产品预计半年后注册用户数达到100w，则铺底的时候需要铺底100w用户账号。如果是已上线产品，根据线上数据库数据量进行预估，可以根据用户规模的比列进行铺底，如线上注册用户数一千万，线下铺底注册用户数100w，则总体数据规模为线上的十分之一左右。实际情况下，这里会略微复杂，比如还要考虑线上数据库集群和测试集群的硬件差异等，需做适当的调整。

参数化数据准备

如果我们从系统接口调用角度来看的话，参数化数据包括两类：一类是我们要传参给接口调用的数据，比如用户账号ID，商品ID等。 另一类是接口返回的结果数据，如获取商品详情时，需要返回商品的数量、颜色、描述信息等，这些数据必须是事先准备好的。

在进行参数化数据准备时，对于已经上线的产品，可以统计不同铺底数据的分布规律。从网易宝和之前的timeline的两个产品的数据统计来看，大多数数据的分布接近2/8原则。比如活跃用户数占注册用户数的比例为20%，非活跃或者欠活跃的用户占比为80%左右。针对具体业务，80%的业务是由20%的活跃用户产生，20%的业务是由80%的非活跃用户产生。所以参数化测试账号时，对这20%的用户账号需要进行精心铺底。

测试账号准备

注册用户数是产品用户规模的衡量指标，一般会先铺底一定规模的用户账号。

铺底多少测试账号？根据产品本身的特点、参考竞品的用户量、以及产品的推广计划，预估半年后要推广到100w用户。那这100w是指注册用户数。一般互联网产品活跃用户是注册用户的10%~20%，不同类型的产品略有差异。那么我们在准备数据的时候，会考虑铺底100w用户，其中80%左右的用户是非活跃用户，用户相关数据会比较随意的铺底，保证铺底主表及关联表即可；其中20%左右的用户是活跃用户，是压测时要用到的数据，这20%的用户信息，比如好友关系、发表的微博数量等，都需要设计进行铺底。

读请求数据准备

读请求一般即为GET请求，影响GET请求性能的主要有两部分：

一是GET请求返回的数据量的多少
一是GET请求传入参数的数据量多少

一个常见的读请求定义为：

URI： /video/details?deviceId=123456 
Method：GET
Reurn：{
"message": "success",
"timeline": {
"list": [
{ "from": -23261042219000, "to": -23261042199000 },
{ "from": 1388523600000, "to": 1388523921000}
]},
"code": 200
}

其中，deviceId是接口调用时要传的参数，这里是指设备Id；Reurn是指该接口的返回数据，返回数据内容为该设备的详情信息。那么在铺底数据的时候，我们要铺底deviceID来虚拟出若干设备出来，同时这些设备的详情信息不能为空，也需要进行铺底；这就涉及到接下来要介绍的，读请求返回数据量准备和传入参数deviceId的数据量准备。

读请求返回的数据量准备

读请求返回的数据量大小要与实际情况基本一致，返回数据量不能太大，太大会偏离实际情况，增加数据库压力，网络传输时延等，导致测试结果比实际情况差的多；返回数据量不能太小，比如获取一篇博文，博文不能全部返回空，会比实际情况好，导致遗漏一些性能风险点。如示例中的RETRUN内容为2条信息左右，通常情况下用户的设备详情信息在2~10条左右，这里铺底就要考虑铺底随机2~10条。

返回数据量的多少，取决于预设的数据量，例如测试活动页的性能，预设10个商品和200个商品时，得到的性能测试数据不一样，发现的问题点也可能不一样：10个商品时，性能开销在memcached网络IO上；200个商品时，发现性能开销在返回数据的序列化上。再比如，获取博客详情信息，博客长度为几百字和几千字的性能也是会有差异的，体现在从缓存或者数据库中获取数据量多少时的性能差别等。

方法：预设这部分数据时，需要了解返回数据的上限是多少，即找相关开发了解一个活动页面最多会有多少数据，分别测试常规情况下活动页的性能以及极限情况下活动页的性能。

另外返回数据量的多少可能会使得网络带宽首先成为瓶颈点，当返回的数据量过多时，应该通过分页等策略限制返回数据量的大小。

传入参数的数据量准备

传入参数的数据量是指，GET请求中需要的参数从多少数据量中获取，例如获取博客详情接口，给定的参数可以是一个博客地址，不停的获取该博客的内容，也可以是10w个博客地址，随机的获取这些博客的性能。如示例中的deviceId在压测中会从10w个设备中随机选择进行测试，也就是我们要在测试前铺底10w个设备。

这种情况下，需要找开发确认，代码实现中是否有缓存相关操作，如果热点博客会被缓存住，那一个博客的情况下，测试的是全部被缓存住的性能，10w个博客，根据缓存大小的不同，可能会测试到不同情况下的性能。

对于有热点缓存的情况，建议可以测试下把缓存关掉时的性能，发现极端情况无缓存时，是否存在性能问题。

读请求的传入参数与返回数据量两者结合

有些时候，以上两种情况都需要考虑，即：传入参数的数据量以及返回的数据量，例如获取博客的评论信息接口：基于80/20原则，20%的博客为热点博客，这20%的博客的评论数量较多，另外80%的博客为非热点博客，评论数较少。为了得到更真实的性能结果，我们需要把这多种情况都考虑进去。

写请求数据准备

写请求，一般情况下指POST、PUT等请求，也即是向服务端提交数据的请求类型。一般情况下写请求对服务端造成的压力会大一些，因为涉及到数据更新，如数据库更新、缓存更新等。因此，写请求的数据量，对数据库的压力等都是影响性能的条件。写请求关注几点：

写请求对热点数据的更新
写入数据量大小和分布

一个常见的写请求定义如下：

URI: /public/setAsPublic 
Method：POST
Body：{
"deviceId": "111",
"description": "this is my device",
}
Return:
{
"message": "success",
"result": {
"deviceId": "111",
"onlineNumber":0
},
"code": 200
}

该接口是写请求，目的是设置设备的概要信息。deviceId是设备Id，description描述信息。 deviceId是参数化数据，需要提前进行铺底的数据。description是描述信息，是文本信息，设置多少字节？需要根据实际情况预设。

写请求对热点数据的更新

写请求有若干种情况，更新单个数据，批量更新多个数据，多个用户同时更新同一个数据等，针对不同类型的写请求，对资源的更新、竞争会造成不同的压力。热点数据更新，是指对该数据有资源竞争的情况，典型的场景例如电商的秒杀场景，大量用户同时抢购同一件商品；例如社交类的热点微博，大量用户同时评论同一个微博；大量用户同时关注同一个明星账号等。测试对热点数据竞争时的性能问题和数据库锁竞争问题等。

所以在准备这部分数据时，即需要准备批量的数据，测试随机购买、随机评论的性能，也需要准备少量的热点数据，测试对热点数据竞争时的性能。

写入数据量大小和分布

当压测写请求时，是需要提交数据到服务端，然后会写入缓存或者写入数据库的，这部分数据量的大小及分布会对性能结果影响比较多，数据量的大小会影响网络传输时间，会影响数据库更新时间，一般情况下，数据量越大，响应延迟会越高。所以，写请求传参的数据量要尽可能符合实际的用户行为，最好统计线上真实数据，博客的长度一般在多少字以内，微博的长度一般在多少字左右等。

二、性能测试数据准备方法

从线上数据库导入真实数据

从线上数据库或者备库导入数据，最大的优势是数据真实性高，数据分布合理，业务压力点及瓶颈点能和线上保持一致，这样测试出的结果与线上实际情况表现会比较接近。比自己模拟数据要可靠的多。

但是，缺点是用户数据需要进行脱敏，而且也要考虑用户的数据是否能直接拿来用，比如用户的手机号，需要脱敏掉，涉及到短信通知等业务需要进行一定的处理，或者mock掉等。

从线上导入数据库推荐准备过程：

先从基础表导出数据，可以全部导出，也可以部分导出
从基础表的数据出发，导出关联表的数据
数据导出后，对敏感的数据进行处理，即按一定的规则进行更新

根据业务规则构造模拟数据

模拟数据优点：符合自己定义的规则，便于使用，比如测试账号可以自己进行编号，参数化使用时方便。

缺点也比较明显：

模拟数据需要大量的梳理工作，要梳理数据库表，理清哪些是基础表，表与表之间的关联等；
要充分把握产品业务，比如社交类产品，要统计和分析用户的好友关系，每个用户的好友个数分布，每个好友发布的微博梳理分布等，这样测试结果才能趋于线上一致。

使用接口进行预设数据

使用接口进行数据预设，需要先根据产品的业务特征来梳理数据的分布规律。针对产品业务抽取要铺底的数据，对该铺底数据进行特征提取，如某电商产品需要整体性能压测，主要业务包括商品浏览、商品购买、订单查询等业务

首先要铺底测试账号，测试账号有多种特征，是否绑定银行卡，是否绑定支付宝，是否绑定其他支付渠道等；
铺底商品信息，根据不同的地区商品信息略有差异，北京商品数量和分布；杭州商品数据量和分布等；
铺底订单信息，多少用户没有下过单，多少用户有0~10单，多少用户有10~100订单等具体分布情况。

针对以上某一项数据可以抽取A、B、C、D、E共5种特征，比如测试账号，A是绑定银行卡的，B是绑定支付宝支付的，C是绑定网易宝支付，D是同时绑定银行卡和支付宝的账号等5类特征，根据线上数据统计5类特征所占的比例。调用注册账号的接口按照各特征所占比例进行生成数据分布。使用接口预设数据相对比较耗时。

使用存储过程预设数据

除了用应用接口进行数据预设以外，也可以通过存储过程进行数据预设。使用存储过程的时候，需要梳理基础表，以及表和表之间的关联。使得一次存储过程的调用，插入数据库中的数据和进行一次业务操作插入的数据要一致。这一点需要开发配合梳理。有了存储过程，可以自己写程序直接调用存储过程插入数据。

如铺底订单信息，针对部分用户铺底订单，订单状态包括30%已完成支付、50%未支付订单、20%取消订单案例，通过以下方式准备：

a.创建存储过程

CREATE OR REPLACE procedure proc_trade(
    v_trade_id in number,                       --交易id
    v_third_ip in varchar2,                    --第三方ip
    v_third_time in date ,                     --第三方完成时间
    v_trade_state in number ,                  --订单状态，0未支付；1已支付；2取消
    o_result out number,                       --返回值
    o_detail out varchar2                      --详细描述
)
as
-- 定义变量
  v_error varchar2(500);
begin
    --对变量赋值
    o_result:=0;
    o_detail:='验证失败';

  --业务逻辑处理
  if v_tradeid >100 then
      insert into orders(id, third_ip, third_time, trade_state, result, detail) 
        values(v_trade_id, v_third_ip, v_third_time, v_trade_state, o_result, o_detail);
      commit;
  elsif v_tradeid < 100 and v_tradeid > 50 then
      insert into orders(id, third_ip, third_time, trade_state, result, detail) 
        values(v_trade_id, v_third_ip, v_third_time, v_trade_state, o_result, o_detail);
      commit;
  else
      goto log;
  end if;
--跳转标志符，名称自己指定
<<log>>
        o_result:=1;
--捕获异常
exception
    when no_data_found
    then
        result := 2;
    when dup_val_on_index
    then
        result := 3;
    when others
    then
        result := -1;
end proc_trade;

b.Java调用存储过程

//获取连接conn
Connection conn = datasource.getconnection();

//创建并初始化CallableStatement
CallableStatement cs = null;
cs = conn.prepareCall("{call proc_trade(?,?,?,?)}");

//设置参数trace_id，third_ip，third_time，trade_state，这些值预先设置好
//并且trade_state符合分布比例：30%已完成支付、50%未支付订单、20%取消订单
  cs.setString(1, traceid); 
  cs.setString(2, third_ip);
  cs.setString(3, third_time);
  cs.setString(4, trade_state);

  //获取返回值，o_result
  cs.registerOutParameter(5, Types.BIGINT);

 //执行存储过程   
cs.executeUpdate();

 //获取返回值
long number = cs.getString(5);

网易云大礼包：https://www.163yun.com/gift

本文来自网易实践者社区，经作者刘林霞授权发布

<上一篇如何做好稳定性测试？我们的探索和实践

下一篇浅谈js拖拽>

最新博客

最新资源下载

编辑推荐

性能测试之如何准备测试数据

一、性能测试数据准备

铺底数据准备

参数化数据准备

测试账号准备

读请求数据准备

读请求的传入参数与返回数据量两者结合

写请求数据准备

写请求对热点数据的更新

写入数据量大小和分布

二、性能测试数据准备方法

从线上数据库导入真实数据

根据业务规则构造模拟数据

使用接口进行预设数据

使用存储过程预设数据

最新博客

最新资源下载

编辑推荐

性能测试之如何准备测试数据

一、性能测试数据准备

铺底数据准备

参数化数据准备

测试账号准备

读请求数据准备

读请求的传入参数与返回数据量两者结合

写请求数据准备

写请求对热点数据的更新

写入数据量大小和分布

二、性能测试数据准备方法

从线上数据库导入真实数据

根据业务规则构造模拟数据

使用接口进行预设数据

使用存储过程预设数据

推荐博客