中国信通院云计算与大数据研究所王卓：第八批大数据产品能力评测解读

2019-06-05 09:05

王卓.JPG

　　大家好，昨天在主会场第八批整个大数据产品能力评测证书已经颁布了，今天我主要介绍评测详细的情况。内容主要分四部分：总体介绍、测试观察、详细结果、未来展望。

　　一、总体介绍

　　这些年大数据软件产业发展在不断扩大，比例从2013年刚刚开始测评时的20%左右到现在已经达到30%多，按照预测增长趋势还会不断扩大。大数据产品能力评测促进了大数据软件产业发展成熟，现有的评测体系包含多项多方面评测，既有已经展开的评测也有未来计划开展的评测，测评项不只包含基础能力还有相应的性能。目前共有112款产品通过评测，完成测试数量171个。

　　根据评测的数据统计，测评包括现在全球最大规模的测试数据集100TB，测试最大基础能力集群规模是10000节点批处理平台，在性能测试规模测试中，华为300节点、阿里300节点、新华三200节点。下图是对测评产品的统计，哪些企业具有更多的产品监测，前十有星环信息、阿里、腾讯云等。明显可以看到这些产品的基础能力和性能相对于其他的产品更加严格。

　　二、测试观察

　　测试观察部分主要针对这批产品能力测试的概览，以及概览中发现的一些有用信息。第八批里两个比较有特点的是华为512节点大规模集群的能力和新华三200节点能力集群。

　　观察一：大数据基础产品的稳定与变化

　　分布式批处理平台产品已经成熟稳定，总体来看73%的产品是基于HDP和CDH的开源版本进行二次开发，23%基于开源社区或者完全自研。经过10多年的发展，大数据基础技术开源生态趋向成熟，国内技术人员对开源生态群体的熟悉程度逐渐增高。

　　观察二：分布式分析数据库规模不断突破

　　分析型数据库发展加快，部分原因是Greenplum的开源让更多厂商能使用和研究分布式分析数据库，据统计参与评测的14款MPP数据库中43%都是基于Greenplum，14%基于PostgreSQL。分布式分析数据库正在努力突破扩展性的限制，大规模能力有很大突破，华为完成了512节点基础能力的测试，新华三完成了200节点性能的测试。

　　观察三：分布式事务数据库产品迎来春天

　　分布式事务数据评测只做了两批，但是从两批情况来看，已经测了十几家。我们统计了国内超过20-30款产品，这两批测评已经测了现有产品的近一半左右。从图中可以看到，分布式事务数据库基础能力是在不断提升的，两批测评之间产品能力和水平都有了相应的提升。在架构方面，82%的产品是采用中间架构，18%的产品使用新型一致性协议。新型产品基于MySQL是最多的，现在基于PG的厂商正在兴起。

　　观察四：数据管理与数据集成

　　在数据管理、数据集成部分，近两年，国内诞生了20多款数据管理软件，由于开源生态缺乏，企业均自主研发数据管理工具。数据管理工具的标准化程度较低，需要进一步进行规范。数据集成工具是大数据生态很重要的组成，开源生态较为完备，大多数产品基于Kettle、Sqoop和Nifi等开源框架开发、少数企业进行自研。

　　观察五：行业解决方案丰富多样

　　在行业解决方案中，这里新加入了知识图谱的测试。知识图谱是跟行业非常相关的，我们测的有金融、公安、游戏行业。每个行业的形式都有很大不同，可能是对外的产品，也有可能是对内自用的，在这种差异化中可以看到测试项里，必选项很少，大部分是可选项。数据的接入以结构化为主，对于文本数据的关系、属性识别还不完善，后续还值得加强，可能要有一些针对性的技术。通用知识图谱构建工具需求巨大。在很多不同行业，在提供对外产品或者服务的时候，一般以对一个需求方直接进行结构化建设，但是如果有一个共通的产品而不是以介入化的方式做这个产品会是这样一个结果。

　　三、详细结果

　　这部分对于每个项目会展示一下评测项目的整体标准和这个项目的测试情况。对于分布式批处理平台测评，整体分为八大项37个小项——原来是44项，后来进行了删减变成了12个可选项的形式。第八批测评通过的情况如图，共有8家企业5家新测企业，累计38个批处理平台产品通过了我们的测试。测试通过率是非常高的，所有产品都通过整体测试用例的完成度均在95%以上，在运维、多用户、拓展性、安全性、数据处理能力方面测试用例完成度全部是百分之百的通过率。每一年每一批都有很多企业参与，这说明我们大规模的测试趋势是非常明显的。

　　分布式批处理平台性能测试。我们这次评测跟之前情况有非常大的不一样，之前测试用例是SQL任务、机器学习，从头到尾是一组测试用例。这次进行了改变，而且有难度上的提升，分成10节点、20节点、30节点三种规模，在10TB和30TB两种数据集两种规模下，三种节点之内做了测试，SQL分到10节点下。性能测试因为需要一个统一的测试基准，测试全部是在机房做的标准化测试，右图是机房给的测试环境。这批通过的三家企业的情况如图，分别是滴滴、浪潮、联想大数据，这三个产品具体情况是不对外公布的，所以这里公布的是一些统计结果，包括平均值、中位值、最优值。

　　机器学习的结果如图，包括10节点、20节点、30节点，上面一行是SVM的情况，下行是内部的情况，每个也都是平均值、中位值、最优值，蓝色是小数据量、黄色是大数据量。

　　分布式批处理平台性能测评趋势。再总结一下我们进行了很多批的性能评测，从多批性能评测里面看到什么样的规律？比较清晰的是SQL的趋势，从SQL的总执行时间上看，在30TB上的比较量，可以看出来它的趋势是比较明显的，而且在不断优化的。但是在机器学习方面看到的趋势不是那么明显，在小数据量和大数据量上有一定的差异，第五和第八批分别使用258G的Kmeans和1T的SVM，从数据量上可以看到呈现不断优化的趋势。

　　接下来是分布式流处理平台基础能力评测标准。这个是新的评测标准，设了参考的可选项。分布式流处理平台基础能力测评包括六大项：基本功能、管理能力、兼容能力、容错能力、扩展能力、安全性，共46项测试用例。总体通过的情况是阿里云的实时计算和星环的流处理引擎，这两家的不太一样。

　　分布式分析型数据库。这个也是通过了报批流程的行业标准，它的项目共有51项，30个必须选和21项可选。这批有3家企业通过，累计14个产品通过了测试，通过测试里面产品用例完成度都比较高，在95%左右。在基准率的大规模测试里512节点的云服务器集群上完成了这个。

　　分布式分析型数据库性能，其实它的整体测试目的跟往常没有太大的差别，SQL任务、混合负载、压力测试和稳定性，测试量给30TB的测试，但是这批是新华三首次大规模数据库的评测，这个测试是在100TB、200节点物理机上测试的，具体测试数据在这里不公布。

　　接下来是分布式事务数据库。刚才提到目前只测了两批比较新的产品，它的测试用例整体标准是完全没有显着影响的，秉承的意义是尽量通过的多更好，所以从结果来看，这批测试通过率非常高，几乎接近百分之百，唯一的差异体现在管理功能大类项内。这个评测有创意信息、中兴、亚信、腾讯云和星环五家企业通过。

　　数据挖掘平台这是目前通过比较快的标准，共5大项32小项，有两个产品，分别是阿里云的还有数澜，累计完成8款评测，百分之百通过率。

　　数据集成工具共23个测试小项6个测试大项，这次又测了4家新的厂商，加新产品累计 11个数据集成工具，这次测试情况是在数据源、目标源、清洗/转换三个大类里面百分之百完成，其他类中还是有缺失的，最大的特点在于这4家企业他们的数据集成都是自研的，跟之前相比这是很大的进步。

　　数据管理平台44个大项，这批通过的三家企业情况，分别是腾讯、鼎信和浩鲸，看他们完整测评项可以看出，大家在整体测评项上有差异，整体通过率在86%-87%左右。因为数据自研功能项做标准的时候取了一个病题，这个病题导致某些可选项某些企业是不具备的，在这种情况下我们认为管理平台这样一个工具的标准化需要进一步迭代和扩展。下半年我们也会更新这个标准，形成新的测试用例。

　　最后是知识图谱，这是这一批新加入的评测，跟前面的逻辑不太一样，把大部分的测试用例、测试项全部定为了可选，测试部分3个是成对的，把他们分别算了一下共9个必选和20个可选。这批通过的情况不一样，从图中看出大家差异还是比较大的，这是行业和应用的长颈的区别。这批评测具体通过公司有海致、腾讯、明略和渊亭。因为觉得未来分布式知识图谱工具是值得关注的，所以我们慢慢会把标准逐渐集成必选项。这批整体参测有37个产品25家企业。

　　四、未来展望。

　　接下来介绍一下评测未来的展望，首先从大数据产品能力评测体系出发，我们已经有了一些将来的计划。我们觉得未来有些很新的方向值得进一步做这些工作，包括数据中台、数据湖产品方向，云原生大数据产品方向。数据脱敏是下一步要加入进测评的，除了此之外其他数据安全也是一个方向，还有行业大数据应用与解决方案。最后是性能，未来我们要做更多性能基础测试，面向时序数据库、事务数据库、流计算等技术，都要有相应的性能评测，这也是我们下半年的工作重点。

　　最后介绍一下第九批大数据产品能力评测从现在开始正式启动，报名也从今天现在，到7月15日结束报名，测试时间是6月10日到11月15日，11月下旬进行专家评审，最后会在数据资源管理大会上进行证书颁发，我是这批产品能力评测的主要负责人，如果有相关问题大家可以找我解决。