Arm推出新一代 Arm® Neoverse™ 技术:以更高性能和更低功耗赋能企业AI应用落地

数字时代,®Neoverse™AI已经成为企业创新和发展的出新关键动力 。随着云计算、代A低功地5G  、技术物联网技术的更高飞速发展,在小型终端和中大型数据中心、和更耗赋云中构建AI应用已经成为用户共识  ,业AI应用落但同样也带来了算力的®Neoverse™挑战 。近期 ,出新Arm 宣布推出新一代 Arm® Neoverse™ 技术,代A低功地其中包括通过性能效率更优异的 N 系列新 IP 扩展 Arm Neoverse 计算子系统 (CSS) 产品路线图,推出Neoverse CSS N3;以及首次将计算子系统引入性能优先的技术 V 系列产品线 ,推出新的模板下载更高 Neoverse CSS V3 。

近日,和更耗赋Arm 高级副总裁兼基础设施事业部总经理 Mohamed Awad 在接受记者采访时表示,业AI应用落AI有着非常庞大的®Neoverse™计算需求 ,传统的通用 CPU已经无法满足AI的算力要求。Arm 看到很多的大型云服务提供商正在设计自己的芯片,加速构建与 AI 加速器紧密耦合的定制通用计算产品,并且这些芯片都需要能够运行市场上已有的软件。与此同时,源码库业界众多的技术先行者选择了Arm Neoverse 平台作为其实现全球 AI 愿景的基石 。这不仅印证了 Arm 的技术领先地位 ,以及Arm赋能合作伙伴创新的自由度 ,同时也彰显了Arm生态系统的强劲实力  。

全新技术助力企业研发新一代高性能产品

Arm推出的新一代 Arm® Neoverse™ 技术旨在帮助用户打造更高性能 、更低功耗的新一代芯片产品 。据Arm基础设施事业部产品解决方案副总裁Dermot O’Driscoll介绍,与上一代 Neoverse CSS N2相比 ,Neoverse CSS N3 的亿华云每瓦性能可提高 20%。新的 Neoverse CSS V3 基于全新的 Neoverse V3 IP 打造 ,与此前的 Neoverse CSS 产品相比,其单芯片性能可提高 50%。

Dermot O’Driscoll表示,CSS N3 的首个实例能够提供 32 核,热设计功耗 (TDP) 低至 40W。CSS N3基于Neoverse N3 IP 平台打造,为新的 N 系列产品引入了 Armv9.2 功能  ,能够为每个核心提供 2MB 的专用 L2 缓存 ,高防服务器并支持最新的 PCIe 和 CXL I/O 标准以及 UCIe 芯粒标准。因此,CSS N3拥有非常强的可扩展性,能够覆盖电信 、网络和 DPU 等一系列应用 。

据介绍,基于新一代 Arm® Neoverse™ 技术推出的新 CPU 核心性能得到了全方面的提升 ,从视频处理到 SQL 数据库 ,性能均有所跃进。具体来看  ,N 系列在压缩方面取得了性能优势 ,可降低云服务运营商的香港云服务器成本 ,并最终降低云服务客户的成本 。V 系列显著提高了协议缓冲区的性能  ,为数据中心内传输数据提供了更加强大的关键功能。

Dermot O’Driscoll 告诉我们 ,通过分析合作伙伴的关键工作负载核心的特定关键任务算法,Arm能够明确并实施对提升性能最有效的微架构调整方法。在AI 数据分析工作负载用例中 ,通过改进分支预测 ,更好地管理最后一级缓存和相关内存带宽 ,服务器租用以及大幅增加 L2 缓存 。结果显示 ,N3 的性能提升高达 196%。

在火热的生成式AI方面,随着其广泛应用于业务场景,工作重点将转向推理。Dermot O’Driscoll认为 ,由于 CPU 易于部署 ,并可支持各种软件框架 ,因此可灵活用于 ML 或其他工作负载  ,具备低成本和高能效等优势。因此 ,CPU 推理将是生成式 AI 计算应用的关键组成 。Arm 发现 ,这些工作负载已从 ML 专用的 Neoverse 功能(如 Bfloat16  、MatMul、SVE 和 SVE2),以及Arm的微架构优化中受益 ,而且这一趋势还将继续 。

Dermot O’Driscoll强调,并非所有 AI 处理都将在 CPU 上进行 ,Neoverse CSS 是专为帮助客户在基于 Arm 领先的CPU 平台上快速打造通用计算芯粒而推出的产品。它能提供客户所需的所有接口 ,以便选择耦合自身的加速器。这种方法既可以在需要 CPU 时提供 CPU ,又可以在需要 AI 加速器时提供 AI 加速器 ,做到了两全其美 。

当前,芯粒已成为管理良率的常用机制,能让企业在单个芯片上利用到多种工艺节点 。企业们也在努力寻找巧妙的方法来复用芯粒 ,尤其是当他们将不同团队的设计组合在一起时,还是面临一些挑战 ,包括存在协议层的多种标准,怎样在设计时对芯粒进行逻辑分区 ?如何设置直接内存访问 (DMA) 和中断、电源和安全等管理功能?要建立可互操作的生态系统 ,就需要在生态系统层面一致地解决这些问题 。据介绍,Arm近期发布了芯片系统架构 (Chiplet System Architecture, CSA),目的是与生态伙伴协力推动整个 Arm 生态系统释放芯片技术的潜力,目前已有20 多家合作伙伴加入。简单的理解就是,CSS 可以让打造计算芯粒变得更为轻松,而CSA 可以简化计算芯粒与 AI 加速器并行的联合设计  。

Dermot O’Driscoll表示  ,凭借新的 CSS N3 和 CSS V3 ,Arm将更加专注于释放芯粒等新技术的潜力 ,并更大限度地优化实际工作负载的 TCO,这对于包括 AI、数据库、网络等在内的整个生态系统至关重要。

紧密协作推动Arm 计算子系统创新设计

为了将创新技术推向千行百业 ,Arm 还紧密携手业界合作伙伴,共同围绕 Arm 计算子系统开展创新设计 。

Arm 基础设施事业部营销副总裁 Eddie Ramirez告诉我们,Arm借由Arm全面设计生态项目将广泛的半导体产业汇聚一起  ,包括半导体领域的各路领先企业,囊括了芯片设计合作伙伴、IP 供应商 、EDA 工具提供商 、代工厂和固件开发商等 ,共同加快并简化基于 Neoverse CSS 的系统开发 。他表示  ,Arm 为芯片设计开发了专业技术中心 ,以此来加速产品上市时间 ,并降低相关方打造定制芯片的成本和难度。这将使得Arm合作伙伴更有针对性地投入资源 ,提高基于 Neoverse 平台解决方案的可触及性 。

据介绍,仅仅是在推出后短短四个月内,Arm 全面设计已经有 20 多家成员加入,其中包括新的 EDA 和配套 IP 提供商 ,以及来自包括韩国 、中国台湾 、中国大陆和印度等战略市场的芯片设计合作伙伴,这些市场存在巨大的发展潜力。除此之外 ,Arm 正在与三家主要代工厂合作,以确保CSS 产品能在其先进工艺节点上进行优化 。

“定制芯片离不开可靠供应链的支持,唯有 Arm 可提供多样的技术和选择。” Eddie Ramirez强调,Arm 全面设计的合作伙伴正在努力将基于 Neoverse CSS 的设计推向市场。去年十月 ,Socionext 成为首家宣布计划采用台积公司领先的 2 纳米工艺上开发基于 CSS 芯粒的合作伙伴 。这款配置 32 核的芯粒可与其他芯粒结合使用,提供可扩展且经济高效的计算解决方案。该设计将基于新推出的Neoverse CSS V3 来打造 。

智原科技也在构建基于芯粒的服务器芯片 ,该芯片将搭载 64 颗 N 系列核心 ,并基于英特尔代工服务的 18A 工艺节点进行生产制造。此外 ,ADTechnology 将提供高性价比的16 核 CSS N 系列边缘服务器平台,并将与三星代工厂合作,为边缘计算释放更强大的算力 。

采访最后,谈到过去几年Arm 为何能在基础设施领域收获累累硕果,Mohamed Awad表示,一是卓越性能 ,Arm 工程团队坚持不懈地实现迭代提升;二是灵活性 ,Arm 赋能技术合作伙伴定制芯片 ,以支持其专用的工作负载和系统,而非采用一体适用的方案;三是生态系统,在软件、 IP 和芯片生态系统中 ,Arm 提供出色性能和灵活性,从而降低配置的总成本并加速产品上市。

“我们独特的定位,皆因结合这些优势,帮助合作伙伴随时随地以任何方式进行部署。Arm Neoverse CSS 将这些优势演绎得淋漓尽致  。” Mohamed Awad如是说 。

人工智能
上一篇:拒绝支付赎金后,LockBit 泄露印度信贷公司600GB的数据
下一篇:Web和移动安全之​​​​​沙盒