算力时代DPU让不可能成为可能

  最近一段时间,DPU成为越来越热的一个话题。芯启源智能网卡是目前国内唯一的基于SoC架构的成熟DPU(Data Processing Unit,数据处理单元)完整解决方案,并拥有自主知识产权,已成熟量产,可提供从芯片、板卡、驱动

  最近英特尔发布了一款IPU,这可以说是对英伟达DPU的一个回应。因为从英特尔对IPU介绍的字面意思来看,“释放CPU开销”、“可编程”、“智能网卡”这几个特性与当下火热的DPU的作用如出一辙。

  在Nvidia以及Marvell、Broadcom和 VMware等其他制造商中,智能网卡被称为数据处理单元 (DPU),并且已经出现了好几代,如 Nvidia的BlueField。其实不止国外,国内DPU的创新市场也不断有玩家涌现,诸如芯启源、中科驭数、星云智联等本土DPU企业也正在排兵布阵。不过随着英特尔的加入,这个新战场将更加热闹无比。

  去年10月,由于Nvidia 将基于Mellanox的SmartNIC卡命名为“DPU”,DPU这一概念一炮而红。其实DPU这个概念是Fungible最先提的,然后被NVIDIA发扬光大。不到一年时间,DPU成为业界追逐的话题、资本界青睐的细分赛道、厂商们竞相研发的技术。

  现在除了主内存和辅助内存之外的所有计算都是在CPU上完成的,面对超大规模数据处理的需求,CPU的算力已经达到瓶颈,所以就需要硬件加速。但数据中心服务器上运行有这么多性能的敏感任务,又不可能为每一个任务分配一张加速卡。所以就需要一个通用的加速平台来整合这些加速任务。

  DPU正是这样一个存在,它被定位为完成性能敏感的并且通用的工作任务加速处理。由DPU完成基础的工作任务,构建强大的基础设施层,上层的CPU和GPU来完成其他更有价值的工作。

  DPU 是一种新型的可编程处理器,DPU 是一种片上系统或 SoC,它结合了3个关键因素:

  (1)行业标准、高性能、软件可编程的多核 CPU,通常基于广泛使用的Arm架构,与其他SoC组件紧密耦合。

  (2)一种高性能网络接口,能够以线速或网络其余部分的速度解析、处理和有效地将数据传输到 GPU 和 CPU。

  (3)一组丰富的灵活可编程加速引擎,可为AI机器学习、安全、电信和存储等卸载并提高应用程序性能。

  DPU最核心的任务是IO数据的预处理和后处理,如网络类任务(虚拟网络、IPSec等)、存储类任务(分布式存储、数据加解密、数据压缩、数据冗余算法等)、虚拟化加速(虚拟化整体Offload,业务管理分离)、安全和认证类的任务(Root of Trust 等)。

  或者,从云计算业务的角度看,我们可以看做是,DPU是把整个IaaS的服务完整的Offload到硬件来做加速。

  如此看来,关于DPU的应用上,一线的云运营商对DPU的需求会更强烈。因为,数据中心规模足够大的缘故,任何一个任务的Offload到硬件都意味着非常显著的成本降低,这些都是最直接的利润。随着整个软硬件技术栈的演进,DPU的采用会逐步扩展到所有的云运营商,以及其他各类数据中心。

  看到了DPU如此重要且具有意义的作用,目前在国际上参与DPU研发设计的厂商既有Intel、Broadcom、Marvall、Nvidia等巨头,也有Fungible、Pensando等初创公司。

  各家的打法也不太相同,不过两个在数据中心领域一直虎狼之斗的两大巨头英特尔和英伟达,还是很有看点的,他们是如何应对当下以及未来复杂数据处理问题的?

  如今,数据中心已经成为英特尔、英伟达、AMD这些老牌芯片巨头未来争夺的主战场,而且英伟达收购Arm的意图,也是想能进一步占据数据中心服务器市场,其DPU就是集成了Arm的核,这可以说是取代英特尔的X86 CPU的一个切入点。

  在DPU领域,英伟达可以说是先行者,且这几年其BlueField系列产品迭代速率也很快。英伟达在DPU上的技术突破,来自于收购以色列芯片制造公司Mellanox之后,英伟达在这家公司的硬件基础上开发出BlueField系列的两款DPU——英伟达BlueField-2 DPU与BlueField-2X DPU。

  此外,英伟达还推出了DOCA的软件开发套件,这是一种集数据中心功能于芯片的架构,可助力开发者轻松地对 BlueField DPU 进行编程。DOCA是为DPU量身定做的软件框架,目的在于支持广大开发者在 BlueField DPU上进行软件开发。

  DOCA与DPU之间就如 CUDA与GPU的关系。向上,DOCA 可以给程序员提供简单的开发接口,同时向下平滑兼容与支持每一代 BlueField DPU 的产品。据英伟达称,DOCA能实现从单芯片级数据中心到3U(CPU、GPU、DPU)一体超大规模数据中心统一架构。

  而就在6月15日的Six Five峰会上,英特尔推出了全新的基础设施处理器(IPU)。首先要明确的是,英特尔的IPU不应与英特尔自己的成像处理单元 (IPU) 或英特尔平台更新 (IPU) ,还有来自Mellanox(现在是NVIDIA)的IPU和Graphcore IPU所混淆,他们所定义的IPU意思都不一样。

  其实细细看来,英特尔的IPU不是什么新鲜事物,跟当下主流的DPU作用类似。据英特尔官方的说法,IPU是一种可编程网络设备,旨在使云和通信服务提供商减少在中央处理器(CPU)方面的开销,并充分释放性能价值。

  利用IPU,客户能够部署安全稳定且可编程的解决方案,从而更好地利用资源,平衡数据处理与存储的工作负载。它扩展了英特尔的智能网卡功能,旨在应对当下复杂的数据中心,并提升效率。

  英特尔的IPU能干啥呢?其IPU可以通过专用协议加速器来加速基础设施功能,包括存储虚拟化、网络虚拟化和安全;通过把软件中的存储和网络虚拟化功能从CPU转移到IPU,从而释放CPU核心。还能允许灵活的工作负载分配,提高数据中心利用率。

  据英特尔称,目前英特尔已经使用FPGA部署了 IPU,微软、百度、京东云和 VMWare是买家。通过特定功能,IPU可对数据中心中基于微服务架构的现代应用程序进行加速。谷歌和Facebook的研究表明,微服务通信开销可消耗22%到80%的CPU性能。

  据了解,英特尔将推出更多基于FPGA的IPU平台和专用ASIC,不过这些最终会是什么样子以及它们将实现什么都尚未说明。无论 IPU 最终变成什么样,这都是朝着分解迈出的明确一步,也是未来形成组件化“至强平台”的巨大飞跃。

  那么如何看待两家的发展的思路呢?关于这点,笔者有幸采访到了软硬件融合技术理念倡导者、(前)Ucloud芯片及硬件研发负责人黄朝波,对于英特尔此次推出的IPU,黄朝波认为其理念超前,但实际的产品,现在还是FPGA,要看后面芯片的版本会怎么样。

  而在其《软硬件融合》一书中对于超大规模云计算架构的创新上已有很深的见解,在他看来,在数据中心软硬件结合的发展全貌是:

  第一阶段:智能网卡(SmartNIC)。管理侧网络后台任务是最先遇到资源消耗挑战问题的,典型的如Os,在25bit/s下占用的CPU资源已经非常显著。智能网卡就是为卸载网络相关工作任务而设计的。

  第二阶段:数据处理器(DPU)。从本质上来说,在智能网卡的基础上行,不仅仅是网络,而是整个I/O相关的工作任务处理都会面临资源消耗的挑战问题,因此DPU在网络卸载的基础上,加入了存储卸载及虚拟化卸载的解决方案。

  更进一步的:基础设施处理器(Infrastructure Process Unit,IPU)。从云计算公司的角度来看,基础设施处理器平台不仅承载网络、存储及虚拟化的卸载,还需要承担安全、管理、监控等各种管理面的功能,更为关键的是物理隔离业务和管理:业务在CPU和GPU,管理在DPU(或者更准确地称为IPU)。

  更贴合用户需求的:弹性的基础设施处理器(elastic IPU,eIPU)。随着业务规模的进一步扩大,云计算公司对底层芯片提出了新的需求。

  在传统芯片需求的基础上,新的需求体现在:差异化的产品开发、高效的业务卸载及快速迭代。对功能扩展而言,传统的解决方案都是基于集成或独立CPU实现的软件功能扩展。

  在云计算场景中,需要更加极致的性能,基于CPU的软件方案已经无法满足要求,这就需要通过硬件方式(eIPU方案)来实现高性能的功能扩展,提供性能强大、开发低门槛的硬件功能弹性。

  在DPU这个创新的市场上,国内这几年不乏有玩家提早布局,而且现在资本市场也非常青睐DPU这个细分赛道,据投中网的报道,现在头部的DPU项目已经呈现出了热火烹油的机构争抢态势。国内的DPU初创企业正迎来发展的大好时机。

  中科驭数算是国内布局较早的一家DPU企业,其创始团队来自于中科院计算所体系结构国家重点实验室。而且其DPU基于自主研发的KPU架构,KPU(Kernel Processing Unit)架构是中科驭数基于软件定义加速器技术路线自主研发的芯片架构。以KPU架构为核心,2019年其设计了业界首颗数据库与时序数据处理融合加速芯片,已经成功流片。

  今年初,中科驭数宣布了其下一颗DPU芯片研发计划,功能层面包括完善的L2/ L3/L4层的网络协议处理,可处理高达200G网络带宽数据。该颗芯片预计将于2021年底流片。

  截至目前,中科驭数已经布局126项发明专利,其中47项已获得授权,驭数围绕KPU(Kernel Processing Unit)芯片架构、基础软件和计算系统,建立了较完善的知识产权体系。

  在应用领域方面,中科驭数从金融行业入手,除了深耕金融领域,2021年中科驭数产品的商业应用还将逐步拓展到混合云、数据中心、电信通信等领域。前段时间刚与中移物联网达成战略合作,双方将在边缘端网络处理、异构算力基础设施领域建立合作。

  6月11日消息,DPU芯片企业“芯启源”宣布完成数亿元Pre-A3轮融资,本轮融资由SIG海纳亚洲、浦东科创、晶晨半导体、熠美投资(市北高新大数据基金)等联合投资,既有股东软银中国在本轮继续追加投资。本轮融资将用于吸引研发人才与管理人才加入团队,并启动DPU芯片下一阶段技术研发和市场拓展。

  芯启源成立于2015年,芯启源是一家针对超大规模电信和企业级的智能网络提供核心芯片和系统的高科技公司,拥有两大板块核心产品。

  据其官微介绍,芯启源智能网卡是目前国内唯一的基于SoC架构的成熟DPU(Data Processing Unit,数据处理单元)完整解决方案,并拥有自主知识产权,已成熟量产,可提供从芯片、板卡、驱动软件和全套云网解决方案产品,已获得了中国移动苏研院的首批智能网卡订单。

  据企查查显示,另外一家DPU芯片企业星云智联成立于2021年3月22日,该公司专注于数据中心基础互联通信架构和DPU芯片研发。今年4月份,珠海星云智联宣布完成数亿元天使轮融资,由高瓴创投(GL Ventures)领投,鼎晖VGC(鼎晖创新与成长基金)、华登国际中国基金参与跟投。

  据介绍,其正在研发的DPU将在 IAAS和PAAS之间形成独立的CAAS(通信服务层),实现物理资源的“多虚一”和近乎裸金属性能的“一虚多”,简化IAAS,提升资源利用率;

  卸载PAAS中与通信数据流相关的处理,提升应用的通信效率和性能。从而实现数据中心架构的跨越式发展,有力支撑云计算、HPC、AI等业务的指数级增长,形成一个超300亿美元的新市场。

  就目前形势来看,不论各家公司如何发挥各自专长去设计DPU芯片,都将推动整体行业的向前发展。

  据IDC统计,近10年来全球算力增长明显滞后于数据增长。全球算力的需求每3.5个月就会翻一倍,远远超过了当前算力的增长速度。而算力源于芯片,业内人士预测,DPU将成为继CPU和GPU之后重要的算力芯片。

  以数据为中心的计算架构成为了趋势,网络计算和DPU成为以数据为中心计算架构的核心。黄朝波认为:“未来所有的服务器都会配备1-2块DPU/IPU卡”。DPU作为算力新型基础设施中的新物种,将在数据传输、存储、运算等方面扮演越来越重要的角色,算力时代DPU可以让不可能成为可能。

  文章出处:【微信号:corigine,微信公众号:芯启源】欢迎添加关注!文章转载请注明出处。

  在芯片供应链紧张和客户订单急速增加的情况下,许多原本单价几块钱的芯片,价格普遍上涨了10倍、20倍甚....

  CPU(中央处理器),也被称为微处理器,是计算机的心脏和/或大脑。本文让我们一起深入了解计算机的核心....

  Cadendce 诚邀您报名即将线上举行的CadenceTECHTALK:使用 Protium X2....

  NRF52832TR2.4-GC模块是硅传研发的小体积、低功耗的蓝牙无线模块。模块自带高性能 PCB....

  一石激起千层浪。2022年2月,国家发改委、中央网信办、工业和信息化部、国家能源局联合印发通知,同意....

  近年来,“工业互联网”在国家层面被反复提及,已连续5年写入政府工作报告。随着人工智能、5G、大数据和....

  高通成为汽车行业优选提供商 ADI推RadioVerse®片上系统(SoC)系列

  近日,国家工业和信息化部公示了第五批国家级工业设计中心的名单。大华股份工业设计中心凭借在智慧物联领域....

  英特尔逐渐改进微指令,后来加入微指令缓存即uOP cache,也有的地方叫L0级缓存,表面看来,uO....

  随着数字技术的快速发展,社会正在发生怎样的变化?据预测,到2030年,CPU的计算能力和网络速度将比....

  开源Hummingbirdv2 E203 RISC-V处理器内核和SoC项目

  该存储库托管开源 Hummingbirdv2 E203 RISC-V 处理器内核和 SoC 项目,由....

  飞腾腾锐 D2000 是飞腾新一代高效能 8 核桌面处理器芯片,自推出以来获得了市场的高度认可,实现....

  如果给你30秒钟的时间,如何給投资人说明DPU是什么,可以做什么? 国内外所有的商用DPU公司的CE....

  手机、电脑等电子设备与我们的生活密不可分,它们的使用频率高,更换周期快。消费者在购买产品时,除了考虑....

  随着大家越来越重视身体健康,定期运动健身已经成为了很多人的日常生活方式。佩戴便捷、性能出众的智能手表....

  服务器是建立网站的最基础的必不可少的东西,也是根本呢所在,所以挑选何种类型的独立服务器成为了建站者的....

  PC 游戏飞速演进,硬件线程调度器(Thread Director)、深度学习超级采样(DLSS)等....

  Jason Donenfeld 是 WireGuard 的主要开发者,同时他也是 Linux 内核随....

  游戏笔记本的极致应该是什么样子?很多人应该都会首先想到ALIENWARE,而用性能挑战边界,自由穿梭....

  卓视智通入选2021年中关村“瞪羚企业”名单 芯启源获超越摩尔超亿元战略投资

  “瞪羚企业”是对成长性好、具有跳跃式发展态势的高新技术企业的一种通称,指进入高成长的企业通过研发原创....

  满载的应该是大脑而非机器。“东数西算”工程背景下,各应用场景对数据处理能力的考量和需求日新月异。这带....

  武汉研发中心的落成将极大推动华中地区DPU芯片的产学研合作。中科驭数将以武汉研发中心为基地,加强与华....

  数据库经过长期的运行,需要调整数据库性能,使之进入最优化状态。数据库中的数据是最重要的,这些数据如果....

  除了加法,我们也可以根据需要将不同的算数运算设计出来,负责计算的电路有一个统称,这就是所谓的算术逻辑....

  中兴通讯2021年营收1145亿元_瑞萨电子推出用于ADAS的R-Car V4H片上系统

  3月8日,中兴通讯发布2021年度报告。报告显示,2021年,中兴通讯实现营业收入1145.2亿元,....

  对于一些CPU,比如S7-300 CPU315-2DP (6ES7 315-2AG10-0AB0) ....

  1、新建空白项目,打开系统块,选择CPU ST40,CPU的固件选择V2.5,设置选择CPU启动后的....

  在 STEP7 11 中,可以通过GetError (获取本地错误信息)或者GetErrorID (....

  内容提要 DPU(Data Processing Unit)是新近发展起来的一种专用处理器。2020年 NVIDIA公司发布的DPU产...

  SIMATIC S7- 300 CPU集成了 PROFINET 接口,该接口除了具备连接 PROFI....

  IA Portal为程序块提供 KNOW_HOW_PROTECT 保护功能。如果没有使用正确密码打开....

  在TIA博途软件中,通过轨迹功能记录测量值变化,并通过逻辑分析器对记录进行评估分析。

  每个故障安全模块都有自己的 PROFIsafe 地址(F_destination_address),....

  在S7-1500 CPU中创建的S7-GRAPH FB 默认其保持性属性为“非保持”且其下拉框无法操....

  在搭建网站的时候是必须要用到服务器。服务器分很多种,有用来开发游戏叫游戏服务器,用来存放数据叫数据库....

  在嵌入式开发中,面对的都是单个 CPU 的情况,而在这个开发过程中,我们会涉及到裸机开发或者是跑操作....

  OMNIVISION推出首款3MP分辨率SoC 英飞凌XENSI雷达传感器监测睡眠

  2022年3月10日——数十亿人面临睡眠问题。根据科学研究,仅约有 10 亿人患有睡眠呼吸暂停,....

  XR806是否可用类似SDIO接口与CPU连接,并作为Linux的一个外设网卡设备?

  如题:XR806是否可用类似SDIO接口与CPU连接,并作为Linux的一个外设网卡设备? ...

  当前要下载的博途项目版本比存储卡里的项目版本低,比如,存储卡中的博途项目版本是V16,但是当前需要下....

  池州市委书记方正率领池州市考察团一行赴杰发科技考察调研。合肥市委副书记、市长罗云峰,市委常委袁飞等合....

  在2021腾讯数字生态大会上,英特尔与腾讯共同宣布了一系列深化创新合作成果:双方不仅以CPU为基础,....

  您可以通过 STEP 7 在线和诊断工具格式化连接的 CPU 中的存储卡。为此,请按下列步骤。

  RK3588和RK3588S的区别: RK3588S是RK3588的低配版,其区别类似RK3568跟....

  智能仪表是通过某种通信网络记录和报告公用事业服务的使用消耗的电子设备,例如电、气、水以及供暖/制冷等....

  随着互联网的飞速发展,越来越多海内外用户选择使用境外服务器来搭建网站,搭建和运行网站时,用户们会关注....

  我们学习单片机的目的就是为了进行嵌入式系统的开发,学好单片机首先要有一个整体认识。

  12月17日,佐思2021智能汽车年会暨金智奖颁奖典礼在苏州盛大开幕。深圳市航盛电子股份有限公司....

  LPWAN低功耗广域网无线为支持LoRa的LPWAN低功耗广域网无线通信SoC芯片。ASR6601在单一芯片上集....

  租用的服务器在使用操作系统的时候,用着用着系统就变慢了,打开“ 任务管理器 ”一看,才发现CPU使用....

  新一期的无线技术对谈在线研讨会随选回放已于SiliconLabs(亦称“芯科科技”)官网上线。本期探....

  RK3288是怎样使用TSADC来测量CPU温度的? RK3288是怎样使用TSADC来支持两种模式的? ...

  [RK3288][Android6.0]偶发会遇到播放GIF动画会卡顿怎么解决

  [RK3288][Android6.0]偶发会遇到播放GIF动画会卡顿的原因有哪些?怎样去解决呢?...

  RK3288系统CPU的频率调节策略是什么? 怎样去修改RK3288系统CPU的频率调节策略呢? ...

  TMS320VC5501(5501)定点数字信号处理器(DSP)基于TMS320C55xDSP生成CPU处理器内核。 C55xDSP架构通过增加并行性和全面关注降低功耗来实现高性能和低功耗。 CPU支持内部总线结构,该结构由一个程序总线,三个数据读总线,两个数据写总线以及专用于外设和DMA活动的附加总线组成。这些总线能够在一个周期内执行最多三次数据读取和两次数据写入。并行,DMA控制器可以独立于CPU活动执行数据传输。 C55xCPU提供两个乘法累加(MAC)单元,每个单元能够进行17位×17位乘法运算。单循环。额外的16位ALU支持中央40位算术/逻辑单元(ALU)。 ALU的使用受指令集控制,提供优化并行活动和功耗的能力。这些资源在C55x CPU的地址单元(AU)和数据单元(DU)中进行管理。 C55x DSP代支持可变字节宽度指令集,以提高代码密度。指令单元(IU)从内部或外部存储器执行32位程序提取,并为程序单元(PU)排队指令。程序单元解码指令,将任务指向AU和DU资源,并管理完全受保护的管道。预测分支功能可避免执行条件指令时的管道刷新。 5501外设...

分享: