算力经济下DPU芯片的发展机遇
发布时间:2021-03-26 | 发布者: 东东工作室 | 浏览次数: 次【猎云网(微信:ilieyun)北京】3月25日报道
01算力,已经成为先进生产力
当前承载算力的基础设施是各种规模的的数据中心,从几十个服务器节点的小规模企业级计算中心到数万个节点的巨型数据中心,通过云计算的模式对应用层客户提供存储、软件、计算平台等服务。这个生态直接承载了全球数十万亿美元规模的数字经济,而且对全球服务业、工业、农业的渗透率随着大数据、5G、人工智能等技术的发展还在不断提高。算力,已不仅仅是一个技术指标,它已经成为了先进生产力的代表。
算力源于芯片,通过基础软件的有效组织,最终释放到终端应用上。目前数据中心中核心算力芯片包括CPU、GPU、FPGA和少量的ASIC,其中各类通用CPU的占比还是绝对统治地位。数据显示目前CPU的年出货量超过200亿颗,其中数据中心中使用的服务器端CPU的出货量约2000万颗,PC(包括桌面、工作站等)端约2.6亿颗。仅在2020年第4季,全球基于ARM IP的芯片出货达到了创纪录的67亿颗;GPU的出货量也非常可观,超过4亿颗(包括Intel、AMD的集成核显),大部分都应用在各种终端设备中,如大量消费级和工业级电子产品中。在云端,高性能CPU和GPU是主要的两种算力芯片——也是规模最大,单价最高,应用环境最复杂的芯片。
02负载分化:从存内计算到网内计算,出现大量可从CPU卸载的任务
计算的两个核心要素:数据和计算,在数据和计算之间通过复杂的存储层次来均衡带宽、延迟、容量、成本等因素,尽可能让计算芯片对数据能做到“随用随取”,然而这在物理上是不可能实现的。将数据从生产侧或存储侧搬运到计算节点上也需要时间和能耗。为了把数据搬运到完成布尔逻辑的计算单元,已经消耗了90%以上的能耗了。过去50年,乘着摩尔定律的东风,单颗计算芯片的处理性能指数增长,然而访存带宽受限于管脚数和时钟频率仅能做到线性增长,相对而言数据搬运的开销被继续放大了。端到端的延迟越来越难以控制,要把处理器“喂饱”也变得越来越困难。为了不浪费处理器计算容量,只好通过各种共享机制来相互隐藏数据搬运的延迟和开销——而这本身就是一种开销。
一个直接的想法就是将数据靠近计算芯片、或者将计算芯片靠近数据,而且是物理临近。出现了“存内处理(PIM,Process In Memory)”的概念,也称之为"In-Memory Computing”,存内计算。例如,将一些地址计算,地址转换,校验码计算、查找表等设置在存储控制器中。但这本质上是卸载了部分CPU负载的计算到内存控制器,其实并没有把CPU完全“嵌入”内存,但也算是一种间接的存内计算的实现方式。还有一种更依赖新型器件技术的“存算一体”,比如非易失性存储单元的阻抗(或导纳)作为被存数据,当在一端施加输入数据(电压),输出就是二者的乘积,再通过模拟信号处理,模拟-数字转换后,得到CPU可以处理的二进制数据;当把这些节点组织称一个阵列,就相当于完成了一次两个向量的乘累加(MAC)操作。
另外一种存算融合的方式是“近内存计算(Near-Memory Computing)”, 主要体现为放置更多的存储器件(包括非易失性存储器件)到片上,可以视为一种通过片上集成大内存作为一级高速缓存,这种方式更多是存储技术和集成技术来驱动的,比如已经开始采用的高带宽存储器(HBM), 得益于3D集成技术,单个存储堆栈带宽即可以达到100GB/s,相比于GDDR5的DRAM的28GB/s,有接近4倍的提升!本质上来看,CPU的存储层次之所以发展为多层、多级,也是为了使处理器更“靠近”数据。
中科驭数SmartNIC产品
这些技术都是局部计算和存储的融合技术,即以单机、单节点为优化对象。如果把一座数据中心视为一台计算机,正所谓"The Datacenter as a Computer", 那么计算的分布就有新的可能性。数据中心虽然可以逻辑上被视为一台计算机,但其中的节点是需要通过网络互连的。计算的分配、存储的共享、硬件资源的虚拟化等,都将成为整合数据中心资源的开销。而数据中心的CPU和GPU都不是针对数据中心的这些负载来设计的,诸如网络协议处理、存储压缩、数据加密。网卡设备在数据中心中起到了关键作用。既然网卡可以处理物理层和链路层的数据帧,为什么不继续卸载网络层和部分应用层的计算到网卡上来呢?所以网卡从只负责节点间的“互连互通”到可以帮助CPU处理一些底层数据处理,其名称也就从NIC(Network Interface Card)升级成了SmartNIC。网卡也从单纯的处理数据帧变成了附带更多计算业务的“小服务器”,拓展成真正的“网内计算(In- Network Computing)”。
无论是存内计算、近内存计算、还是网内计算、其最终的目的都是将数据所经历的的存储、传输、计算的环节做有针对性的处理,提升系统的整体效率。
03计算组织:从“端-云”一体,到“端-边缘-云”一体
为了承载AIoT、自动驾驶、V2X、智慧城市、智能安防等新兴产业,计算的组织也有了很多新的变化。从端-云一体,到端-边缘-云一体,例如未来自动驾驶中,车将会成为边缘的一个载体;在5G时代,5G基站也可能会成为一个边缘节点,云计算的部分计算功能会下放到边缘端的算力节点上,获得更及时响应时间,更节省的网络带宽 。除 了 边 缘 计 算 , 在 端 - 云 之 间 甚 至 有 研 究 人 员 提 出 了 “ 雾 计 算 (Fog Computing)”,“霾计算(Mist Computing)”,来不断的将计算进行分层处理,以获得更好的服务质量,更低的成本。类似于一个国家的行政治理结构:省、市、区、县等,上级负责所辖的下一级整体规划,下级负责具体实施;在下一级能处理的业务,就不需要往上一级推送。这样就可以有序得将计算合理分配到各个计算层次。每个终端业务无须关心是哪一朵“云”在提供服务,也不需要关心有多少层“云”、是“云”还是“雾”在提供服务。计算能力将会像电力一样,通过端-边缘-云一体化系统,“输送”到用户。至于电来自于哪一座发电站,并不重要。这个计算组织结构的变化,直接影响了计算指标的演变:从高性能到高效能,进而到高通量,最终落实到高生产率计算。
04体系结构:通用、专用并举孕育了“X”PU的新机遇
转载请标注:我爱技术网——算力经济下DPU芯片的发展机遇