多核之后CPU 的发展方向是什么.docx

资源ID：1552090 资源大小：315.68KB 全文页数：18页
资源格式： DOCX 下载积分：5金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要5金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

多核之后CPU 的发展方向是什么.docx

首先回顾一下计算机体系结构领域三个定律：子尔定律、枚本定件.贝尔定竹.摩尔定律就不用多说了，但想表达一个观点是摩尔定律未死，只是不断放缓。摩尔定律摩尔定律未死：单位面积晶体管数量仍增加，只是不断放缰2.摩尔定律让芯片上的晶体管数量不断增加，但一个问题是这ItV讣三了吗最近MIT团队在Science上发表了一篇文章There'Sp1.entyofroomattheTop:Whatwi1.1.drivecomputerperformanceafterMoore,s1.aw?，给出他们的答案：髭然以有.可以来看一下M1.T团队开展的一个小实验（见下面PPT）假设用Python实现一个矩阵柒法的性能是1,那么用C语言重写后性能可以提高50倍,如果再充分挖掘体系结构特性（如循环并行化、访存优化、SIMD等），那么性能甚至可以提高63Q00倍,然而，真正能如此深入理解体系结构、写出这种极致性能的程序员绝对是凤毛读角.对于处理器来说，就是之间的平衡.最近这一波开始转向了追求性能功耗，于是专用结构开始更受关注.性曾专兵4.第三个定律是Q尔定这是GordonBe1.1.在1972年提出的一个观察,具体内容如下面的PPT所述。值得一提的是超级计算机应用最高奖“戈登贝尔奖"就是以他的名字命名.贝尔定律每隔10年，会出现*类计算机（新编程平台、新网络连接、新用户接口、新使用方式且更廉价），形成新的产业5 .贝尔定律指明了未来一个新的发展趋势，也就是AIoT时代的到来.这将会是一个处理器需求再度烽发的时代，但同时也会是一个需求碎片化的时代，不同的领域、不同行业对芯片需求会有所不同，比如集成不同的传感器、不同的加速器等等。如何,“对上片上、求？这又将会是一个挑战.A1.。T的需求碎片化问题隹能物联网（A1.oT）时代到来，处理器芯片规模将达至阡亿以上.但A1.oT需求碎片化，现有处理器设计方法无法效应对，需发展处理器芯片ifii+哪方法I“a1.wnARMSHI*it方法：遢用*的指令Ir1.1.«MUK>1OOOMM).XK(-S1.B)mtt(2w>.哂t人m*孝”6 .这三个定律都驱动计算机体系结构向一如何实现DSA.这又涉及到两个方面：为了追求性能功耗，有三条主要的设计原则（见下面PPT）;为了应对碎片化需求，则需要发展出处理器敏捷设计新方法.（这个回答就不介绍敏捷设计方法了）Domain-SpecificArchitecture(DSA)7 .在谈一些具体技术之前，我们可以先总体/-7寸去几十年CPU-1能是如何扰升的.下面这页PPT列出了1995-2015这二十年Inte1.处理器的架构演进过程一一这是一个不断迭代优化的过程，集成了上百个架构优化技术。这些技术之间还存在很多摺合,带来很大的设计复杂度。比如2011年在SandyBridge上引入了大页直技术，要实现这个功能，会涉及到了小量,乱序执行.大内存'SSE指令、多核.硬件虚拟化、UOPFUSion等等一系列CPU模块和功能的修改，还涉及比作系统、泥译。、正数屋等软件层次修改，可谓是奉一发动全身.（经常看到有人说芯片设计很新m,也许是因为还没有接触过CPU芯片的设计，不知道CPU设计的复杂度）性能提升依赖一系列架构优化的融加处理器性能提升是一个不断迭代优化的过程过去几十年，Inte1.处理器集成上百个架构优化技术<iM.taM*8.处理器内部有非常豆杂的状态，其状态变化是由程序驱动的.也就是说，处理器状态取决于程序行为（见下面PPT）,而CPU体系结构层次的优化思路就是发现程序行为中的共性特征并进行加速.如何发现程序行为中的共性特征，就是处理器优化的关键点，这=IFJ程序行为、操作系统、编程与编译、体系结构等多个居次都有很好的理思，这也是计凭机体系结构博士的基本要求.这也是为什么很多国外的计算机体系结构方向属于ComputerScience系.题外话：这两天看到国内成立集成电路一级学科，这是一个好消息.不过第墙CPU设计人才，在课程设计上不要忽视了操作系统、编程与编译这些传统计算机科学的课程.处理器状态变化由程序驱动程序语义通过指令集表达，驱动底层处理器运行处理器状态取决于程序行为程序行为=代码,数据1 体系结构层次的优化思路：发现程M力中的共位将彼并进行加速9 .举两个发现热点应用和热点代码、并在体系结构层次上优化的例子.一个例子是发现在不少领域TCP/IP协议栈五层协议（1.5Ps）存在很多大量共性操作比如加密解密等，于是直接在网卡上实现了一个针对1.5Ps的加速器，大幅加速了网络包处理能力.另一个例子是这次疫情导致云计算数据中心大量算力都用来做视频转码，于是设计了一个硬件加速器专门来加速视频转码，大幅提升了数据中心效率.热点应用与代码加速数据中心的视频转码力口速TCP/IP协议栈：1.ayer-5protoco1.s(1.5Ps)10 .发现和识别这种热点应用和热点代码并不容易，T由很光大的星1没色和分析设铝。比如Goog1.e在其数据中心内部有一个GWP工具,能对整个数据中心应用在很低的开销下进行监测与统计，找到算力被那些热点程序/代码消耗，当前的CPU哪些部件是瓶颈.比如GWPGoog1.e数据中心内部有5%的篁力械用来做压缩.正是3益于这些基础工具，Goog1.e很早就发现A1.应用在数据中心中应用比例越来越高,于是开始专门设计TPU来加速AI应用.挖掘共性特征：代码库与Profi1.ingGoog1.e-WideProfi1.ing(GWP)对整个数据中心应用进行统计监测，指导体系结构优化11 .下面分别从三个方面来介绍体系结构层面的常见优化思路：减少数据移动、降低数据精度、提高处理并行度.首先看一下如何减少数据移动.第一个切入点是：今二一一指令集是程序语义的一种表达方式,同一个算法可以用不同萩度的指令集来表达，仁!扎亚我车会有很大的天另.一般而言，粒度趣大，表达能力变弱，但是执行效率会变高。12 .通用指令集为了能覆盖尽可能多的应用，所以往往需要支持上千条指令，导致流水线前端设计（取指、译码.分支预测等）变得很鱼杂，对性能与功耗都会产生负面影响.通用指令集的弊端通用指令集使微架构的流水线前端设计匿杂度提高，对性能与功耗会产生负面影响ProcessorPowerOisfributionExamp1.e(A1.pha21264)13 .针对某一个领域设计专用指令集,则可以大大减少指令数星,并且可以增大操作粒度、融合访存优化，实现数量级提高性能功耗比.下面PPT的这组数据是斯坦福大学团队曾经做过的一项研究，从这个图可以看出，使用了"MagicInstruction”后，性能功耗比大幅提升几十倍.而这种MagicInstruction其实就是一个非常具体的表达式以及对应的电路实现（见PPT右下角）.领域专用指令集的优势可数量级提升性能功耗比14 .第二个减少数据移动的常用方法就是充分发挥靖存的作用。访存部件其实是处理器最更要的部分了，涉及许多技术点（如下面PPT）.徨多人都关注处理器的流水线多宽多深，但其实大多数时候，访存才是对处理器性能影响最大的.关于访存优化，也有一系列技术，包括替换、预取等等.这些技术到今天也依然是体系结构研究的重点，这里就不展开细讲了。缓存访存对处理器性能影响很大 1.oad-storeunit,MM,T1.B,1.11.,1.1D,1.i1.3,prefetcher.MSHR.cachecoherency,memoryconsistency,memorycontro1.1.er,memoryaccessreorder,performancecounter,. 主要优化技术：替换算法、预取、大页面、压缩、调度等15.不再展开介绍访存优化技术,就选最近比标热的内存a缩方位介绍一下。IBM在最新的Z15处理器中增加了一个内存压缩加速模块，比软件压缩效率提高388倍，效果非常突出.内存压缩技术（1）内存压缩技术的优势：增加容、减少带宽、降低成本 IBMZ1.5处理器增加了NXU数据压缩加速器关键指标处理器面积0.5% 压细K率比Z1.ib高388倍压缩聚合带宽可达280GBs ApacheSparkTPC-DS端到端性能提升23%16.英伟达也在研究如何在GPU中通过内存压缩技术来提升片上存睹的有效容量，从而提高应用性能。CEAM*XyC8*FWMr”3%.“1c*”DMP1.MrargeMK*CWtfIMenQP1.kG>ii内存压缩技术(2)Nvidia.UTAUStin合作针对GPU的内存压缩技术BUddyCompression关健指标HPe应用1.9深度学习训练1.5x17 .Inte1.在历存优匕上很下功夫可以通过对比两款Inte1.CPU来一窥究竟.Core2DueT9600和PentiumG850两块CPU,工艺差一代，但频率相近，分别是2.8GHZ和2.9GHz,但性能差了77%一一SPECCPU分值G850是31.7分，而T9600只有17.9分.Z,为闺粒能会差这么多?事实上，G850的Cache容量比T9600还要小6MB1.2vs.256KB1.2+3MB13。如果再仔细对比下去，就会发现这两款处理器M大的又利ZFG850配的内存控制器中引入FMA(FastMemoryAccess)优化技术，大幅提高了访存性能。Inte1.的访存优化技术MeMMeAWdAyMgM1.tyxac*o*oyAtm(mm?)Inte1.在内存控制器引入了FMA优化技术：OutofOrderExecution,JustInTimeCommandSchedu1.ingandOpportunisticWritesat.M1.Mmr*18 .第二类体系结构优化技术是降低数据精度.这方面是这几年研究的热点，特别是在深度学习领域，很多研究发现不需要64位浮点，只需要16位甚至8位定点来运算，精度也没有什么损失，但性能却得到数倍提升.很多A1.处理器都在利用这个思路进行优化，包括前段时间日本研制的世界最快的超级计算机"富岳"中的CPU中就采用了不同的运算精度。因此其基于低精度的AI运算能力可以达到1.4E0PS,比64位浮点运算性能(416PF1.oPS)要高3.4倍。低精度数据计算减少般据珞动MnurMit9m*数据精度能产生不同的性能探索混合精度的计算模式19.IEEE754浮点格式的一个弊战是不容易进行不同精度之间的转换.近年来学术界提出一种新的浮点格式一一POSIT,更容易实现不同的精度，甚至有一些学者呼吁用POSIT替代IEEE754(Posit:APotentia1.Rep1.acementforIEEE754).RISC-V社区一直在关注POSIT,也有团队实现了基于POSIT的浮点运算部伶FPU但是也还存在一些争论(DavidPatterson和POSrr发明人John1.Gustafson之间还有一场精彩的辩论，另外找机会再介绍).数据表达数据的不同表达格式，决定所需要的计算量例子：IEEE754浮点格式VSPOS1.T浮点格式posrrIEEE754八><121'M>3551(20.体系结构层次的第三个优化思路就是并行.这个题目中提到的"多核"，就是这个思路中一个具体的技术.除了多核，还有其他不同层次的并行度，比如指令集并行、线程级并行、请求级别并行；除了指令级并行I1.P,还有访存级并行M1.P.总之，提高处理并行度是一种很有效的优化手段.并行需挖掘不同层次的并行指令集并行I1.P、内存层次并行M1.P 超标量、多线程、多核、SIMD.STMD.Systo1.icArraySTMDbMtn1tonOvcoiHv*dWarpSc以上是关于计笄机体系结构尤其是CPU结构优化思路的一个大致梳理.供大家参考.总结来说就是两点结论：领域专用体系结构DSA是未来一段时间体系结构发展趋势；体系结构填面3条优化路线减少数据移动、降低数据精度、提高处理并行度。

注意事项

本文（多核之后CPU 的发展方向是什么.docx）为本站会员（夺命阿水）主动上传，课桌文档仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知课桌文档（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。