YD_T 4515-2023 移动智能终端智能化性能基准测评方法.docx
《YD_T 4515-2023 移动智能终端智能化性能基准测评方法.docx》由会员分享,可在线阅读,更多相关《YD_T 4515-2023 移动智能终端智能化性能基准测评方法.docx(18页珍藏版)》请在课桌文档上搜索。
1、ICS33.050CCSM37YD中华人民共和国通信行业标准YD/T45152023移动智能终端智能化性能基准测评方法Benchmarktestmethodsforintelligenceperformanceofmobilesmartterminal2023-12-20发布2024-04-01实施中华人民共和国工业和信息化部发布目次前言II1范围12规范性引用文件13术语、定义和缩略语14测试概述24.1 移动智能终端智能化测试构架24.2 通用测试方法34.3 性能指标监测35图像处理测试方法45.1 图像分类45.2 人脸识别55.3 目标语义分割75.4 图片超分辨率95.5 目标检测
2、116视频处理测试方法146.1 推理集要求146.2 测试模型146.3 测试方法146.4 测试指标14前言本文件按照GB/T1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的费任。本文件由中国通信标准化协会提出并归口。本文件起草单位:中国信息通信研究院、中国电信集团有限公司、OPPo广东移动通信有限公司、高通无线通信技术(中国)有限公司、北京小米移动软件有限公司、中国一东盟信息港股份有限公司、华为技术有限公司、北京三星通信技术研究有限公司、北京奇虎科技有限公司、维沃移动通信有限公司、北京百
3、度网讯科技有限公司。本文件主要起草人:解谦、张睿、庞涛、贾利敏、杜志敏,刘欣、李小娟、卢炳全、高立发、马艳军、洪明、朱亚军、朱政、雷震、吴春雨、姚一楠。Il移动智能终端智能化性能基准测评方法1范围本文件规定了通过使用神经网络模型在移动智能终端侧进行推理计算的基准测试的方法,对终端基于神经网络模型的计算性能进行评估。评测场景包括图像处理、视频处理等不同场景,针对不同场景测试集、测试方法和评测指标提出要求。本文件适用于具备智能操作系统的移动智能终端,包括数字移动电话机、平板电脑以及其他数字移动通信终端设备。2规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适
4、用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。本文件没有规范性引用文件3术语、定义和缩略语3.1 术语和定义本文件没有需要界定的术语和定义。3.2 缩略语下列缩略语适用于本文件。AI人工智能ArtificialIntelligenceCPU中央处理器CentralProcessingUnitDSP数字信号处理DigitalSignalProcessingFAR错误接受率FalseAcceptanceRateFN错误的负样本FalseNegativeGPU图形处理器GraphicsProcessingUnitIoU交并比IntersectionoverUnion
5、mAP平均准度均值meanAveragePrecisionNPU神经网络处理器NeuralNetworkProcessingUnitPR正确通过率PassRateTP真正的正样本TruePositiveTP90尾部延迟90分位TaiIlatenCyat90thPercentiles4测试概述4.1 移动智能终端智能化测试构架人工智能终端的基准测试指通过运行一段(一组)程序或者操作,来评测终端相关性能的活动。移动智能终端人工智能性能基准测试包括图像处理、视频处理测试。在移动智能终端上通过神经网络模型对基准推理集进行推理测试,评测移动智能终端整机的人工智能处理性能。移动智能终端智能化测试构架如图1
6、所示。图1移动智能终端智能化涌试构架4.1.1 神经网络模型用于人工智能计算,神经网络模型应为经过训练且达到一定准确率的模型,包括模型结构和变量参数。4.1.2 三y作为人工智能推理计算的输入数据集,可以为图片、视频等格式的数据或文件。4.1.3 移动终端人工智能推理框架4.1.3.1 总体要求移动终端人工智能推理框架部署在移动智能终端上,通常由模型转换工具和推理框架编译器组成。移动终端人工智能推理框架可以分为通用框架和专用框架,通用框架指能跨平台运行,能在多种芯片平台上运行的人工智能计算平台,如TensorFlow1.itoPaddle1.ite等。专用框架指仅能在指定的部分芯片平台上运行的
7、人工智能计算平台,如SNPE、HiAI等。在测试过程中需要指明使用的移动终端人工智能推理框架。1.1.1.1 换工具转换工具能将输入的推理算法,根据移动终端特点进行剪裁压缩和优化,具有减小模型体积、优化算法操作和参数精度等功能。4.1.3.3 基准测试例基准测试例为指定测试场景下,使用神经网络模型推理算法对推理测试集进行推理测试的测试例。4.1.3.4 移动终端人工智能推理框架编译器推理框架编译器主要通过加载神经网络模型并执行推断计算,向上能支持转换工具优化过的神经网络模型,向下能提供调度和使用包括CPU、GPU、DSP、NPU等人工智能计算所需的硬件资源。4.1.4终端硬件层参与人工智能处理
8、的硬件,包括CPU、GPU、AI硬件加速单元、内存、电池等。4.2 通用测试方法通用测试方法如下:a)移动智能终端初始化,包括屏蔽测试无关的其他应用、后台功能、调整屏幕亮度、记录初始电量等,使得每次测试前终端的运行状态保持一致;b)使用模型优化工具将预训练的模型文件离线转换为移动智能终端上可以直接运行的模型文件,并进行优化;C)将测试例推理集的图像或视频资源进行缩放、通道转换等预处理工作;d)将预处理的测试图像或视频资源输入优化后的模型进行推理测试;e)测试过程中通过软件方式或其他方式记录处理结果,处理时间和硬件性能指标;0计算最终评测结果。4.3 性能指标监测性能指标包括检测人工智能推断计算
9、性能的模型性能指标和硬件性能指标。模型性能指标参见第5章内容。硬件性能指标为通用测试指标包括功耗、内存等,具体为:a)功耗测试应计算每亳焦耳能量消耗下最大能处理的图片张数(帧数);b)内存测试为测试过程中占用的内存的平均值。YD/T451520235图像处理测试方法5.1 图像分类5.1.1 推理测试根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。5.1.2 推理集要求推理集应由公开渠道可自由获取的非商业用途图片数据构成,可选的公开数据集包括如下图片集:a)CIFAR-100;b)Caltech_256;c)ImageNet.进行基准测试时,应从公开数据集的测试集
10、中随机抽取100oO张图片。5.1.3 评测模型评测模型可包括下表所列个或多个深度学习模型:a)Inceptionv3;b)ResNet50;c)MobileNetV2。5.1.4 测试方法图像分类测试方法如下:a)加载数据集中的图片到终端内存,并完成图像缩放、通道转换等预处理工作;b)评测软件记录本次图片推理前的时间戳;c)将内存中预处理后的数据输入推理模型;d)记录模型输出结果和该时刻的时间戳;e)重复步骤a)d),直到数据集所有图片完成测试、输出记录、计算指标;D测试需要使用浮点型精度或整型精度的模型分别进行测试。5.1.5 测试指标图像分类测试指标如下:a)TOPI准确率(VPopl)
11、o在一次推理结果分类排序中,只有当概率最高的结果为正确分类,本次推理结果才能判定为正确,统计所有图片的推理结果,用正确推理图片数量除以图片总数,得到TOPI准确率。mTPlyFNlMlOOH式中:TPl一推理结果中,Topl分类正确的图片数量;FNl推理结果中,Topl分类不正确的图片数量。b)TOP5准确率(VTOP5)。在一次推理结果分类排序中,概率排名前五的结果中包含正确的分类,本次推理结果判定为正确,统计所有图片的推理结果,用正确推理图片数量除以图片总数,得到ToP5准确率。TPSVTop5m100%TPKFNS式中:Top5分类正确的图片数量;TP5推理结果中,FN5推理结果中,c)
12、单张图片推理时间(InfeICnCeT单位:毫秒)。记录一组图片推理总耗时,计算出单张图片平均推理时间。InferenceTime=N式中:TN组图片推理总耗时;N该组图片数量。d)可选测试尾部延迟90分位耗时(Tp90,Taillatencyat90thPerCentiles,单位:亳秒)。记录一组图片(即数据集随机抽取的100OO张图片)每次推理的耗时,按照耗时从小到大排序,取第90%处的耗时作为尾部延迟90分位耗时。1)将N次采集的延迟数据按照升序排序,得到如下序列:T1,T2,T3,.,Txo2)计算P=90分位在序列中的前、后位置m和m+l,其中m的计算如下所示。p(-D-1(6)I
13、(M)m=l3)计算TP90,即90分位尾延时。TP90=Tm+(Tm+-T)(l-m)5.2人脸识别5.2.1推理集要求本文件人脸照片进行特征提取和比对,并根据终端的平均处理时长,量化移动终端的性能。推理集应由公开渠道可自由获取的非商业用途图片数据构成,可选的公开数据集包括如下图片集。a)1.abeledFacesintheWildHome(1.FW);b)MegaFace;c)PubFig:Pub!icFiguresFaceDatabase;(I)Colorferet进行基准测试时,应从公开数据集的测试集中随机抽取100Oo组,选取对象按照不同年龄段和不同性别两个维度选取,至少包括男性儿童
14、、女性儿童、男性成人、女性成人、男性老人、女性老人。YD/T451520235. 2.2评测模型评测模型包括facenet深度学习模型。6. 2.3测试方法人脸识别测试方法如下所示。a)选取符合5.2.1.1中要求的推理集作为测试样例,建立对应的文件列表;b)将文件列表送入对比识别算法程序,开始执行程序;c)从推理算法程序读取文件列表时开始计时,记录200组图片对比完成所需要的时间和对比结果;d)与数据库中的图像关系对比,计算测试样例的正确通过率、错误接受率。统计错误率,错误接受率为百万分之一、千分之一、万分之一处的正确通过率;e)测试需要使用浮点型精度或整型精度的模型分别进行测试。7. 2.
15、4测试指标人脸识别测试指标如下所示。a)正确通过率(PaSSRate,PR)在真实的验证过程中(正确人脸特征)同一个人的样本被判断为同一个人的比对次数占总比对次数的比例。TP式中:TP同一个人的样本对被判断为同一个人的比对次数;EN同一个人的样本对被判断为不同人的比对次数。(8)b)错误接受率(FaISeAcceptanceRate,FAR)在冒充攻击尝试(错误人脸特征)中被错误接受的比例。XlOOSTNAFP式中:FP不同人的样本对被判为同一个人的比对次数;TN不同人的样本对被判为不同人的比对次数。C)单张图片推理时间(InferenCeTime,单位:亳秒)。记录200组图片推理总耗时,计
16、算出单张图片平均推理时间。.r(FfTNIfwCTcnccnfc-Ar式中:TN组图片推理总耗时;N该组图片数量。d)可选测试尾部延迟90分位耗时(TP90,单位:毫秒)。记录一组图片(即数据集随机抽取的10000张图片)每次推理的耗时,按照耗时从小到大排序,取第90%处的耗时作为尾部延迟90分位耗时。1 )将N次采集的延迟数据按照升序排序,得到如下序列:T15T2,T3,Tx2)计算P=90分位在序列中的前、后位置m和m+l,其中m的计算如下所示。P1do)100m=l(11)3)计算TP90,即90分位尾延时:TP90=Tm+(Tn+1-Tm)(l-m)(12)5.3目标语义分割5.3.1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- YD_T 4515-2023 移动智能终端智能化性能基准测评方法 4515 2023 移动 智能 终端 智能化 性能 基准 测评 方法

链接地址:https://www.desk33.com/p-1424996.html