生成式AI引发的技术浪潮,为云计算产业链和数据中心等基础设施带来了多维度、大规模的需求。但AI不止数据中心一个栖身之地,广大从业者正在将AI功能载入边缘侧和终端。在不久的将来,AI将下沉到全球数十亿台设备,惠及每一位消费者的工作和生活。
“传统意义上,大家所提到的AI是基于服务器的AI或生成式AI。但我们相信,AI还可以存在于边缘,存在于网络,从传统的数据端一直到存储和服务器,融入每一个计算过程。” 在上月末举行的Arm Tech Symposia年度技术大会深圳场上,Arm 高级副总裁兼基础设施事业部总经理Mohamed Awad告诉记者。
从面向云服务和数据中心的基础设施端,到手机等智能终端,再到让物联网数据更加接近数据源和用户的边缘端,Arm在AI领域已经或正在部署的每一个节点,都推出了解决方案。
AI的市场竞争,本质上是开发者生态的竞争。为了支持广大用户在AI时代的定制化、专有化需求,Arm以完整且全面的计算平台,全方位赋能开发者生态,成为产品上市和产业创新的“加速器”。
将AI能力带到云边端
在传统的基础设施架构中,中心是标准的现成CPU,内存与多个加速器都与CPU连接。这就造成了每一个加速器都需要通过CPU来访问内存。在 AI 时代,这样的架构显然难以应对AI所需的数据量和计算量。广大云服务厂商和数据中心基础设施供应商,都迫切需要定制CPU,使每颗CPU核心直接与每个加速器连接,实现系统层面的内存一致性。
而Arm 的独特之处在于,支持芯片设计企业按需定制芯片架构,并基于强大的Arm软件生态系统赋能整个开发流程,加速产品上市。这也是为什么英伟达、亚马逊、阿里云、微软等国内外头部云厂商,纷纷选择基于Arm架构来自研算力芯片。英伟达的GH200 Grace Hopper 超级芯片所使用的架构,就是英伟达携手Arm共同定制。该架构包含72颗Arm Neoverse核心,结合英伟达的GPU,每颗核心直接与每个加速器连接,使芯片的AI性能较基于x86架构的系统实现10倍提升。
在智能终端领域,围绕手机的技术和场景创新已经进入白热化阶段。手机不仅是消费者最常用的通信和娱乐设备,也成为移动办公的载体,乃至于大模型的部署目标。手机厂商百花齐放的产品创意和发展策略,亟需一个能够根据各种消费者需求进行扩展的计算底座。
各家手机厂商在选择其CPU集群的配置时,往往是根据他们最终面向的目标受众的用户场景,来选择合适的CPU进行配置,这也正是Arm CPU战略的一部分,目的是让其合作伙伴能够为客户选择性能合适的CPU。在目前的高端智能手机市场,我们往往可以看到许多不同的创意,各家的策略也各自不同,这正是Arm所期待看到的Arm IP的灵活配置所带来的多元化与差异化。而Arm今年推出的 2023 全面计算解决方案 (TCS23),该方案将物理IP、架构、工具、软件集于一体,为SoC开发提供一站式、简约化的技术支持。作为TCS23的一部分,Armv9 Cortex计算集群已连续三年实现两位数的性能提升。Arm的旗舰级 GPU Immortalis不仅率先将光线追踪、可变速率着色能力带入手机端,新的第五代GPU架构还优化了TCS23中的外部内存、CPU 集群和系统级缓存之间的交互过程,从而提升了整体的性能表现。
“我们为移动平台所提供的Arm 全面计算解决方案,赋能了AI在移动设备上的实现。此外,我们推出的 Arm Cortex-M52 以及 Cortex-M55,都是为支持 AI 所推出的产品,持续赋能和支持 AI 发展。”Mohamed Awad说。
当AI走进边缘侧,物联网不仅仅是设备信息的收集者和传达者,也能够利用AI实现预测性维护、传感器融合、工业控制等功能。
Arm为物联网领域推出了物联网全面解决方案,通过结合硬件IP、平台软件、机器学习 (ML) 模型、工具等,简化开发并加速产品设计。Arm Helium技术作为Cortex-M 处理器系列的矢量扩充方案,大幅度提升了小型、嵌入式设备的机器学习和数字信号处理能力。在Arm最新推出的 Cortex-M52中,Arm Helium为Armv8.1-M 架构系列增加了150条新的标量和矢量指令,使Cortex-M52较前代产品实现了数字信号处理能力的2.7倍提升和机器学习能力的5.6倍提升。面向物联网设备场景细分化、形式多样化的特点,Arm Corstone解决方案提供了关键 IP集成配置,让不同性能需求的物联网产品都能实现快速开发,将AI运算真正推向边缘端。
以全面的计算平台 赋能开发者生态
AI为全球计算产业带来无限商机的同时,也带来了严峻的算力挑战。一方面,连网设备和数据流量的指数级增长,为数据中心等算力基础设施带来沉重的压力;另一方面,随着先进制程接近物理极限,摩尔定律发展放缓,实现性能和功耗之间的平衡变得愈发困难。
面对计算产业的发展趋势与最新需求,Arm已经从大众最熟知的IP供应商转型为计算平台公司,在致力于 IP 授权业务的同时,也专注于通过完整且全面的解决方案,为合作伙伴带来选择的灵活性,帮助他们更快地将产品推向市场。从移动平台到基础设施、物联网,以及汽车领域,Arm都推出了对应的计算平台,在简化开发流程的同时,为芯片设计方根据自身场景和用例进行芯片定制提供更高的自由度。
除了Arm 全面计算解决方案、Arm Neoverse平台、Arm Corstone以及SOAFEE 等一系列计算平台之外,Arm近期又推出了Arm Neoverse计算子系统(CSS),以及Arm 全面设计,进一步激活生态系统的力量。
Neoverse是Arm面向服务器和基础设施的产品线,Neoverse CSS为用户提供了包括 Neoverse 核心、CMN网状结构和系统IP,以及优化效能所需的系统管理、电源管理、软件和开发工具,使用户能够以更低的成本、更短的时间、更低的风险交付定制芯片。
“Arm Neoverse CSS为工程团队节省了相当于80位工程师工作1年的时长。一位客户反馈,使用Neoverse CSS之后,他们的项目从概念定义到流片仅用了13个月。”Mohamed Awad表示。
微软Azure Cobalt 100 CPU,便是基于 Arm Neoverse CSS 打造,包含128 颗 Neoverse 核心。Neoverse CSS 和Arm 平台的软件生态优势,让微软有更多的时间专注于独特创新和优化,同时节省了大量的开发工作。Arm预计,2024年会有更多国内外云计算、数据中心相关厂商将第一代CSS设计投入生产。
在Neoverse CSS的基础上,Arm推出了Arm全面设计生态项目,让包括 AI、云端、网络与边缘等基础设施应用,都能广泛使用Arm Neoverse 架构。来自Cadence、Rambus与新思科技等合作伙伴预先集成且通过验证的IP与EDA工具,来自ADTechnology、Alphawave Semi、博通、凯捷、智原科技等合作伙伴的设计服务,来自英特尔代工服务及台积电等厂商的代工服务,以及来自安迈科技等基础设施固件供应商的商业软件与固件,将携手Arm共同为用户服务。
而包含终端和边缘侧产品的Cortex产品线,也一直秉承软硬件紧密耦合的生态建设逻辑,为开发者提供整体支持。以Cortex-M52为例,此前开发者要在低功耗处理器中同时实现数字信号处理和机器学习能力,需要将CPU、DSP 和 NPU 三种计算单元与三种不同的软件工具包结合使用,经历复杂的开发流程。而Arm为使用Cortex-M52的开发人员提供了单一工具链,以一致的开发流程应对传统计算任务、数字信号处理和机器学习负载,在提升开发体验的同时显著缩短了产品的上市时间。
对Arm来说,中国是一个重要且高增速的市场,也是Arm最具创新活力和潜力的市场之一。Arm在全球拥有1500万名开发者,其中有 400万名在中国。
在服务器和基础设施端,Arm Neoverse正在全面拥抱本地生态和开源社区建设。据Arm中国区业务全球副总裁邹挺介绍,Arm Neoverse 在中国市场,特别是基础设施领域有诸多客户。Arm积极参与数据中心、云计算等本土生态建设,以及龙蜥等开源软件社区建设,帮助这些社区更好地融入Arm全球生态。在终端和边缘侧,Arm也为本地开发者提供了一站式服务和丰富的生态资源。
Arm中国区业务全球副总裁邹挺
在Arm技术的支持下,在全球数十亿台设备上运行的推理将发生转变。与此同时,这也需要行业携手合作,共同加快AI训练与推理在数据中心和设备之间的共享速度,从而提高AI的效率和成本效益,同时提高其安全性,进而最终实现AI无处不在。