AI服务器缺货真相调查：两天涨价30万

AI创业头条· 2023-10-21 08:32:01

几乎是一夜之间，AI服务器价格在国内市场中飙升。

智东西从一位服务器渠道销售人员处得知，搭载英伟达A800 GPU的热门AI服务器型号的价格已达140~150万元/台，比今年6月上涨超40%；搭载8颗英伟达H800 GPU的AI服务器价格上涨则更离谱，几天内涨了大几十万，逼近280万元/台，涨幅超10%。

自“百模大战”打响以来，国内AI服务器产业可谓冰火两重天。

一边，大模型浪潮带来了AI服务器需求暴增。互联网云大厂、AI大模型企业以及行业公司需纷纷砸钱投入。不仅中国电信这样的ICT龙头近期定下超80亿元的AI算力服务器采购项，就连“味精大王”莲花健康这样的跨界玩家也横插一脚，近日刚刚豪掷7亿元购入GPU服务器。

另一边，海量需求难敌供给不足。热门AI服务器型号售价翻数倍，近300万一台却有价无市。包括浪潮信息、新华三、宁畅、联想、工业富联等多家头部厂商推出了大模型新机，但什么时候能排上单？这个问题恐怕要打上一个大大的问号。

AI服务器对大模型的重要性不言而喻。如果把大模型比作一个需要靠吃大量数据长大的孩子，那AI服务器就是决定孩子能不能吃好的大厨。“百模大战”本质上也是一场AI服务器之争。

作为上接芯片大厂、下连大模型企业的承上启下角色，中国服务器厂商如何破局？这也成为我国大模型产业发展的一个重要议题。

01.大模型浪潮下的AI服务器生意：价格飞涨、红海在望、客户破圈

“之前是服务器不好卖，现在反过来是客户求着买！”一位头部服务器厂商代理销售员告诉智东西，“涨价倒是次要的，很多客户已经不在意多个几万，现在是明显的卖方市场，签单后不完全保证交货是时间点，但也不会承诺违约金。”

AI服务器是异构服务器，其核心的芯片可有不同的组合方式，包括CPU+GPU、CPU+TPU、CPU+其他加速卡等。相比于通用服务器，AI服务器更适应AI训练和推理的大算力、高并发、大数据流转等需求，已经成为大模型时代的“香饽饽”。

以热门AI服务器型号浪潮NF5688M6服务器为例，某代理商在电商平台上挂出125万元的价格，这款搭载8颗A800 GPU的服务器今年5月时还是105万元，但即便是这个高出近20%的价格，也是缺货状态。另一家有货的网店NF5688M6标价则逼近160万元，销售人员告诉智东西，现货145万元能拿到，但目前手上只有2台，更多则需要搭配选择宁畅、超微等其他品牌机器。

▲NF5688M6服务器在京东上的销售页面截图

店家告诉智东西，基于H800 GPU的AI服务器有一批新货，但我们当一问价格，店家都直呼离谱，几天里涨了大几十万。前段时间价格再高也不过250万元，现在得280万元才能拿下。反应慢点的销售渠道，则是一夜间改口，直线涨价30万元。

对于今年的行情，服务器厂家、代理渠道颇有受宠若惊的感觉，一位服务器厂家人员对智东西感叹：“每一次以为算力要成「红海」了，它又出现无限的「蓝海」。”

这片「蓝海」基本得到了高层的“盖章”。 10月8日，工信部等六部门联合印发《算力基础设施高质量发展行动计划》，计划提出，到2025年我国算力规模超过300EFLOPS（300百亿亿次浮点运算/秒），智能算力占比达到35%。而对比中国信通院数据，截至今年6月底我国算力规模达197EFLOPS，其中智能算力占比达25%。

这意味着，智能算力量化指标提升超110%，预计将会有约56EFLOPS的智能算力增量市场。

服务器龙头企业浪潮信息的相关负责人告诉智东西：“以大模型为代表的AIGC技术加速发展，给AI计算带来空前机遇。丰富的应用场景和对技术创新迭代的热忱，让中国市场对于AI服务器的关注度和需求量均明显增长，并可能在未来几年继续保持高速增长。”

根据知名行研机构IDC此前的报告，2023年上半年加速服务器市场规模达到31亿美元，同比2022年上半年增长54%；中国加速服务器到2027年市场规模将达到164亿美元（约合1198.84亿元人民币）。

布局智能算力「蓝海」，汇聚AI服务器集群的智算中心是一大抓手。如下图所示，在2023年3月-10月，全国已有超10座超大型智算中心已开工或启用，均衡分布在全国各地。大部分已启用的智算中心正在边用边扩容，都将扩大对AI服务器的需求。

▲国内部分智算中心项目建设启用情况

究其背后的推进者，互联网云大厂、运营商、AI大模型企业以及行业龙头也都卷进来了，向服务器厂商接连抛出亿级订单。

头部服务器厂家新华三的相关负责人告诉智东西：“「百模大战」深入推进，使得越来越多的企业、研究机构和开发者开始使用深度学习技术，推动了对AI服务器的需求。训练和推理阶段对于深度学习任务需要大量的计算资源，而AI服务器能够提供高性能的异构计算能力，满足这样的需求。”

近日，中国电信AI算力服务器（2023-2024年）集中采购项⽬已完成对投标⽂件的评审，合计采购4175台训练服务器，总额约84.63亿元，超聚变、浪潮信息、新华三、宁畅、中兴、烽火、联想以及几家华为代理商等厂商都入围了。

巨浪之下，就连“味精大王”莲花健康这样的跨界选手也在大购AI服务器。根据其9月28日一笔采购合同，新华三将向莲花科创交付330台英伟达H800 GPU系列算力服务器（每台服务器含8块GPU），合同总价为6.93亿元。

可以看到，无论是动辄几十P级别的智算中心，还是一出手就是数亿、数十亿的订单，都让服务器产业的生意人不再愁卖货。大模型浪潮下AI服务器生意价格飞涨、红海在望、客户破圈，将AI服务器厂商推向一片掘金地带。

02.

服务器厂家扎堆发大模型新品单接不过来、排产到明年

“有一半单子都是AI服务器，是传统服务器的两倍不止。”一位头部服务器厂商的人士告诉智东西，“AI服务器还会紧俏很一阵子，推理机的需求还没真正释放，不少客户今年买推理机也是试试水，明年可能会更大力投入。”

看准大模型这一长期赛道，反应较快的服务器厂商都已经面向大模型推出了硬件新品。

▲部分厂商面向大模型推出的服务器新品情况

与此前的专用小模型相比，大模型训练对服务器提出了众多新需求。这不仅包括高性能算力、大数据存储、更多框架适配，还包括更高的数据传输效率、更优的断点修复力、AI算力集群的调度管理能力等，这都促进服务器厂商推出大模型训练和推理新机器。

1、大模型推动服务器设计创新，头部玩家抢滩

“深度学习模型逐渐变得庞大而复杂，需要更高的计算能力，推动AI服务器不断提高性能，采用强劲的AI加速卡，以及更高的带宽和更大的容量。”新华三相关负责人告诉智东西，“为了满足深度学习任务的需求，AI服务器推动了许多设计创新。例如，为了提高服务器的计算密度和效能，AI服务器的散热和功耗管理，以及绿色数据中心的构建也成为设计的重要考虑因素。”

新华三于今年6月就推出了面向大模型的AI服务器H3C UniServer R5500 G6，据称相较上一代产品算力提升3倍，对于GPT-4大模型训练场景训练时间缩短70%。

作为AI服务器市场份额连续五年第一的行业龙头，浪潮信息也于9月21日升级推出最新NF5468系列AI服务器，大幅提升了Llama等大模型的微调训练性能；为了实现全局最优性能、能效或TCO，需要产业链需协同。浪潮信息自2019年起主导OAM（开放计算项目加速器模块）标准制定并与芯片厂加速适配，最近则发布了新一代的OAM服务器NF5698G7，全PCIE Gen5链路，H2D互联能力提升4倍。

浪潮信息相关负责人说，大模型对AI服务器的性能和功能提出更高的要求，考量的不仅仅是单一芯片或单一服务器，绝大多数情况最终部署的形式是包含计算、存储、网络设备，软件、框架、模型组件，机柜、制冷、供电、液冷基础设施等在内的一体化高集成度的智算集群。

以联想为代表的老牌服务器厂商，更是举全公司战略布局AI大模型时代。今年8月，联想推出两款全新AI服务器产品——联想问天WA7780 G3 AI大模型训练服务器、联想问天WA5480 G3 AI训推一体服务器；与此同时，联想首次对外发布“普慧”AI算力战略，提出将100%算力基础设施产品支持AI，50%基础设施研发投入在AI领域等战略举措，并推出了联想智算中心解决方案和服务核心产品。

▲联想两款服务器新品介绍

联想集团副总裁、中国区基础设施业务群服务器事业部总经理陈振宽在当时提到，以AI为导向的基础设施要依据AI数据和算法的特性而设计和优化，包括AI数据的“向量、矩阵或多维数组的形式”、“数据噪音多”等特征，以及AI算法“巨大规模并行计算和矩阵计算”、“容忍低精度浮点或量化整数”等特征，都需要被考虑在内。

2、算力效率更关键，考验软硬协同的工程化能力

虽然服务器厂商你追我赶地推出大模型新机，但能够第一时间拿到真机的人仍是少数。有多家大模型服务器新品都采用8颗H800、A800或L40S GPU。相关厂家负责人告诉智东西，AI服务器新品已不接单，之前说要排单到6个月后，现在看是12个月之后。

即便如此，服务器厂商仍加快从软件到生态的一盘棋布局。

浪潮信息相关负责人告诉智东西，不同于传统的小模型，大模型能力来源于大量工程实践经验。因此，当眼前的算力资源稀缺在明年逐渐被解决，算力之下的算力效率是另一个难解的命题。

以预训练阶段为例，首先，AI大模型的演化对于集群的并行运算效率、片上存储、带宽、低延时的访存等提出了较高需求，万卡AI平台的规划建设、性能调优、算力调度都是很难解决的难题；其次，大规模训练普遍存在硬件故障、梯度爆炸等小规模训练不会遇到的问题；再次，工程实践方面的缺乏导致企业难以在模型质量上实现快速提升。

为此，浪潮信息除了在硬件布局，还在软件算法加快全栈能力覆盖。其最新推出了OGAI （Open GenAI Infra）“元脑生智”，这是其于8月24日推出的大模型智算软件栈，据称可为大模型业务提供AI算力系统环境部署、算力调度保障及模型开发管理能力，助大模型企业解决算力的系统全栈问题、兼容适配问题、性能优化问题等。浪潮信息自2019年牵头发起元脑生态计划，聚合具备AI开发核心能力和行业整体方案交付能力的伙伴。

▲浪潮信息OGAI 简介

新华三相关专家也认为，百模大战推进使得大规模的AI服务器集群需要进行有效的管理和部署。为了管理和部署这些服务器，需要使用高效的集群管理软件和自动化工具，以确保服务器的高可用性、高性能和高效率。

为此，新华三从使能平台、数据平台、算力平台着手，打造AIGC整体解决方案。8月，新华三私域大模型百业灵犀（LinSeer）在中国信通院组织的大模型标准符合性验证中，实现了模型开发模块被评为4+的国内领先水平。此外，新华三也加强与头部互联网公司合作，探索私域模型与通用模型深度融合。

另外，厂商们还争相推出行业报告、标准及指南，希望掌握话语权。

比如浪潮信息发布了《开放加速规范AI服务器设计指南》，面向AIGC细化完善了从节点到集群间的AI芯片应用部署全栈设计参考；宁畅在积极发新的同时，积极参与AI服务器研究项目，参与编写了《AI服务器白皮书》。

可以看到，大模型及AIGC技术加速发展，给AI计算带来空前机遇的同时，也带来了巨大的挑，需从硬件、软件和算法、生态等多层面应对。

AI服务器是各服务器厂商的必争之地，是蓝海争夺之战，更是生存之战。

仍以行业龙头浪潮信息为例，其2023年上公司实现营业收入247.98亿元，同比下降28.85%；归母净利润3.25亿元，同比下降65.91%。随着传统通用服务器市场增量有限，如何把握大模型机遇下的智能算力机遇，获得更大的市场，成为服务器厂商实现新跨越的关键一步。

03.应对产业链风险：国际芯片大厂供应成疑，加速扶持国产AI芯秀

有价无市，是AI服务器需求爆发的另一面，究其背后原因，还是供应链供应不足。

英伟达通过向中国市场供应降低了互连速度的“阉割版”旗舰计算芯片A800和H800，来适应此前的限制规则。而新规的变化可能会冲击英伟达A800和H800的销售，AMD、英特尔等预计也可能受到新规的影响，这无疑加剧了国内AI服务器的供应链困难。

多位业内人士告诉智东西，过去很长时间里，国内外知名大模型大多数是基于GPGPU训练而来，占到90%左右，只有10%是基于其他的ASIC芯片。而GPGPU，又基本以英伟达的A100、A800、H100、H800效率最高。

实际上，基于供应受限的背景，服务器龙头们过去半年来一边继续做GPU服务器的开发，另一方面纷纷采取开放架构，兼容国产自主创新芯片。比如浪潮信息就推出了开放加速计算架构，据称具有大算力、高互联和强扩展的特点。基于此，浪潮信息发布了三代AI服务器产品，和10余家芯片伙伴实现多元AI计算产品落地，并推出AIStation平台，可高效调度30余款AI芯片。

还有一些服务器厂商则绕过GPGPU路线，另辟蹊径从自主创新硬件落地AI服务器。

比如，8月15日，科大讯飞与华为联合发布了讯飞星火一体机。星火一体机基于鲲鹏CPU＋昇腾GPU，采用华为存储和网络提供整机柜方案，FP16算力达2.5 PFLOPS。对比来看，在大模型训练中最为流行的英伟达DGX A100 8-GPU，可以输出5PFLOPS的FP16算力。

▲华为主推的AI推理训练服务器及相关参数

据第一财经报道，星火一体机很可能使用的是华为尚未官方对外发布的昇腾910B AI芯片，很可能是对标A100。而从华为已对外公布的Atlas系列服务器产品来看，目前已涉及等多款推理机和训练机，所用到的昇腾910已经略超A100 80GB PCIe版本，在盘古、讯飞星火等特定大模型场景中实现替代。

不过，智东西从产业链得知，当下昇腾910更适用于自身生态中的大模型，与其自有的MindSpore等开发框架像配合，通用性尚且不足。其他模型如GPT-3，则需要深度优化后才能再华为平台上顺畅运行。尽管讯飞等大模型厂家与其达成合作，但很多工作可能才刚刚开始。

除此之外，从业内人士处获悉，海光信息已独立研发两代DCU深算系列产品，并规模化量产，产品性能领先，可较好的支持通用大模型的训练推理工作。还有芯片创企如寒武纪、摩尔线程、壁仞科技、沐曦等也已经可以向AI服务器厂商供货。尽管一些公司受到影响，但更明晰的局势客观上为他们加速推进产品迭代和落地提供了动力。

总的来说，服务器厂商主要是两手准备，抵御产业链紧缺风险。而业内人士告诉智东西，由于大多数AI芯片创企是去年下才开始研发面向大模型AI芯片，因此目前在芯片架构、软件配套等方面可能仍不成熟，但通过更快的迭代节奏，国产AI芯片有望在今年底或明年撑起一部分AI服务器需求。

04.结论：“百模大战”关口AI服务器厂商“枢纽”角色更关键

随着大模型向千行百业落地，部署AI算力已成为算力基础设施的重要发展方向。IDC报告显示，随着生成式AI应用的爆发，各行业对智算的需求首次超过通用算力，AI算力已成为算力发展的主要方向，成为“东数西算”发展新的强劲动力。

服务器产业和厂商是智能算力建设中的重要一环。我们看到，当下国内服务器市场出现了价格飞涨、红海在望、客户破圈的盛况，同时也面临着供应链短缺、供需失衡的严峻风险。百模大战关口，AI服务器厂商走到了产业链疏通力的验证时刻。能否在抵御供应链风险的同时，与上下游伙伴形成强力联盟，成为AI服务器厂商破局的一个关键。

您可能关注: AI服务 AI服务器

专业AI论文写作一键生成万字论文只需5分钟

文章链接: https://www.huangxinwei.com/aizixun/858.html Chat AI人工智能机器人在线使用

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑，如存在版权问题请发送邮件至398879136@qq.com，我们会在3个工作日内处理。非原创标注的文章，观点仅代表作者本人，不代表炎黄立场。

上一篇 YouTube 计划开发新 AI 工具：允许用户模仿著名音乐

下一篇科大讯飞入股AI数字人公司良胜数字