yazhouqingse
发布日期:2025-04-22 07:51 点击次数:67
文 | 孙永杰蕾丝系列
经过多轮的商场传言测度与情感回转,好意思国政府最终对英伟达的 H20 芯片升级了出口管制,立地英伟达 CEO 黄仁勋时隔 3 个月再次到访中国,暗示但愿络续与中国谐和,可见此举在业内激勉的挪动。而跟着 H20 芯片在中国商场的受限,国内 AI 芯片替代的真确直考也肃肃开启。
英伟达 H20 等受限,国内厂商迎替代大考契机
说到 H20 芯片的出口管制,近日,英伟达发布 8-K 文献称,好意思国政府于 4 月 9 日奉告,H20 芯片出口到中国需要许可证,尔后又于 14 日奉告,这些规章将无尽期推行。好意思国将 H20 纳入"非民用超算风险清单",意味着 AI 芯片管制从高端家具(如 A100、H100)蔓延至定制化中端家具。需要流露的是,H20 是英伟达在中国正当销售的主要芯片,是在 2023 年 10 月好意思国最新一轮出口铁心奏凯后推出的。
险些与此同期,好意思国商务部文书,AMD MI308 以及同类型的 AI 芯片,也增多了新的中国出口许可条件。而英特尔也似乎莫得得到任何豁免,据报谈,该公司不异需要得到出口许可证才略向中国销售其 Gaudi 芯片。
对此,华泰证券指出,H20 销售受限或已被商场预期,但新规或明示将堵住以内存弥补算力缺欠。而万联证券则以为,这次好意思国政府对 H20 进行许可证管束,标明贸易管制力度加大,以为 H20 在中国商场的销售或将面对较大铁心或导致英伟达在中国商场份额有所流失,国内 AI 芯片厂商有望链接更多商场份额。该机构进一步指出,关税博弈不决,寰球贸易摩擦或加重半导体产业国产化程度有望进一步加快,国产算力将迎来发展机遇。
而在咱们看来,跟着英伟达 H20、AMD MI308 及同类型的 AI 芯片和英特尔 Gaudi 芯片在中国商场销售的受限,国产 AI 芯片直面替代大考的契机确实来了,即国内厂商有了前所未有的商场空间去考据自身家具的性能、可靠性、生态兼容性以及供应链的厚实性等。
原土力量崛起,华为昇腾领跑光环下的隐忧
说起替代英伟达 GPU 大考的契机,华为的昇腾(Ascend)系列芯片无疑是当今最受详确、声量最大,且在内容部署上走得最远的原土替代选项。尤其所以昇腾 910C 为代表的最新一代家具,正成为中国构建原土 AI 基础设施的中枢。
更紧迫的是,华为已将芯片的才略蔓延至系统层面,通过 CloudMatrix 这么的沟通系统(举例近日被媒体平凡报谈的由 384 块昇腾 910C 组成、选拔全对全互联拓扑的 CM384 系统)来团聚算力,其超节点在畛域及推感性能已并排英伟达 NVL72 超节点的水平。而这和组成该沟通系统最中枢的华为昇腾 910C 芯片密不可分。
据包括 Huawei Central、TrendForce News 和 Reddit 等多个可靠开始和平台的询查分析,昇腾 910C 是通过将两个昇腾 910B 芯片组合而成,选拔了共封装(co-packaging)或芯片组(chiplets)时期。而通过组合两个 910B 芯片,910C 的沟通才略显贵进步,达到了 800 TFLOP/s(FP16)的沟通才略和 3.2 TB/s 的内存带宽,险些是英伟达 H100 性能的 80%。
蕾丝系列
所谓成心就有弊,这种缱绻神色天然在短期内进步了性能,但也带来了显贵的瑕疵。
在线三级片最初从时期层面看,这种缱绻会导致诸如功耗增多、互连瓶颈等。
以功耗增多为例,更高的功耗意味着更多的散热需求,增多了散热系统的资本和复杂性(举例需要更苍劲的电扇、散热片或液冷系统)。同期,在数据中心等对能效条件高的场景下,高功耗会显贵增多运营资本。
据闻明半导体和东谈主工智能询查公司 SemiAnalysis 称,CM384 系统功耗远高于英伟达的 GB200 NVL72 系统。举例它需要 GB200 NVL72 3.9 倍的功耗,每 FLOP 的功耗差 2.3 倍,每 TB/s 内存带宽的功耗差 1.8 倍,以及每 TB HBM 内存容量的功耗差 1.1 倍("功耗差 X 倍"在这里暗示相关于基准 GB200 NVL72,每单元性能 / 容量所需的功耗是其 X 倍,即能效差了 X 倍)。而导致上述的部分原因可能就源于昇腾 910C 芯片自己的这种组合缱绻。
不要小看功耗的增多,在内容部署层面,每台 AI GPU 工作器的基础投资约为 40 万好意思元,其中电源、冷却等基础设施就占莳植资本的 1/3 以上。据 IDC 调研骄贵,80% 的数据中心决策者将能耗与散热视为关键制约成分,而具体到华为 CM384 系统功耗为 GB200 NVL72 的 3.9 倍,其恒久启动资本例必情随事迁,而如安在畛域彭胀与能效之间找到均衡是巨大的挑战。
至于互连瓶颈,尽管 910C 旨在惩办 910B 在跨卡互连方面的严重问题,但组合两个芯片的缱绻仍可能存在互连带宽的铁心。来自 Huawei Central 的询查骄贵,910C 的 die-to-die 带宽仅为 Nvidia H100 的 1/10 至 1/20。而这种瓶颈可能影响大畛域 AI 试验任务的效果,具体发达为性能无法按裸片数目兑现线性扩展,发达为两个裸片频繁无法达到单个同等时期裸片性能的两倍,尤其是在需要高带宽的场景中,如试验大型言语模子(LLM)。同期数据在不同裸片之间传输还会带来稀奇的延迟和功耗。
除了上述时期层面,在生态系统与商场层面,大众皆知,与昇腾芯片同属于昇腾沟通的华为 MindSpore 的 AI 框架天然在抑止发展,但仍无法与英伟达的 CUDA 平台视兼并律。
举例 Unite.AI 的分析就指出,MindSpore 的锻真金不怕火度和平凡采费用较低,可能铁心开发者选拔,尤其是关于恒久 AI 试验任务,这可能导致 910C 在软件提拔和开发者生态系统方面逾期于英伟达,从而在内容诈欺中效果镌汰。
临了,也更为关键的是,据 SemiAnalysis、TechInsights、WCCFTech 等的拆解、分析和报谈阐发,尽管昇腾 910C 部分由中芯海外(SMIC)制造,但受限于良率(据称华为昇腾芯片良率仅为 32%,也有报谈称,昇腾 910C 的良率已提高至近 40%,但仍低于 60% 的行业行径)和产能,其绝大部分仍是选拔台积电的 7nm 工艺制造。
究其原因,国内晶圆代工场,如中芯海外天然在时期上依然掌执了 7nm 工艺,但相较于台积电,其在先进制程的良率、厚实性、大畛域量产才略以及配套的开采和材料生态等方面仍存在差距。尤其关于像昇腾 910C 这么尺寸较大、时期复杂的 AI 芯片,对制造工艺的条件更高,中芯海外皮知足其大畛域、高良率坐褥方面仍面对挑战。
因此,即便存在国内制造的选项,华为为了保险供应的厚实性和家具质能,仍然倾向于依赖时期更锻真金不怕火、产能更厚实的台积电,这突显了中国在先进制程制造设施"卡脖子"窘境下,通过第三方渠谈获取晶圆的步地。
此外,昇腾 910C 关键组件,如 HBM 主要来自韩国供应商三星(据 SemiAnalysis 称,主要选拔三星在大中华区的 HBM 独家经销商 CoAsia Electronics 向 ASIC 缱绻工作公司 Faraday 发货 HBM,后者再寄托 SPIL 选拔便于后续索求的低熔点焊料将其与低价的 16nm 逻辑芯片沿途"封装",临了运到中国以拆焊的神色回收 HBM 使用)。而大众皆知的是,这种以基于清除为中枢概念的供应链步地,除了正当性存疑外,厚实性极差,风险性极高,是最大的隐忧。
国内厂商多点吐花,方能降风险、保厚实、促自主
如前述,咱们不丢脸到,尽管华为昇腾 910C 在国内诈欺和替代中处在领跑的位置,但非论从芯片自己的性能、所处的生态、如故关键的供应链步地等设施,因为客不雅或自身的原因均存在较大的隐忧,而这就需要国内其他联系厂商必须参与到替代的大及第来。
事实是,在 AI 芯片畛域,除华为外,科技大厂阿里、百度、腾讯均已布局自研 AI 芯片;在纯芯片厂商中,既有寒武纪、景嘉微、海光信息等上市公司,也浮现出如芯动科技、瀚博半导体、沐曦集成电路、天数智芯、地平线等一批兼具时期千里淀与立异活力的企业。
其中属于科技大厂的阿里巴巴(含平头哥的含光芯片)、百度(昆仑芯)、腾讯、商汤科技等,它们基于自身弘大的业务需求,开发用于里面场景的 AI 芯片。这些芯片主要工作于其自有的云平台或业务,虽不径直面向平凡的外部商场销售,但代表了国内顶尖的诈欺场景驱动型芯片缱绻才略,是国产 AI 算力体系的紧迫组成部分。
至于属于上市公司的海光信息,其海光 DCU 系列家具以 GPGPU 架构为基础,建立的自研软件栈全面兼容 CUDA 生态以及海外主流生意沟通软件、东谈主工智能软件,可平凡诈欺于大数据处理、东谈主工智能、生意沟通等畛域,已诈欺于国产超算和 AI 试验场景,可链接部分 H20 受限后的商场需求。百度、阿里、腾讯等互联网企业已认证通过海光的 DCU 家具并推出鸠合决策,打造寰球产软硬件一体全栈 AI 基础设施。此外,科大讯飞、商汤和云从等国内头部 AI 企业,已有多数模子移植并启动在海光 DCU 平台上。
又如寒武纪,当作国产 AI 芯片的头部企业,其想元系列芯片在云表和边际沟通畛域可部分替代英伟达的家具,尤其是通过第五代智能处理器微架构,其家具可知足云表试验等场景需求。
除上述老牌企业外,自 2019 年以来,一批国产 GPU 初创公司也先后树立,并浮现了诸如壁仞科技、摩尔线程、燧原科技等 AI 芯片缱绻独角兽。
举例其中的摩尔线程,与华为昇腾有所不同,其方针是构建一个更平凡的通用 GPU 生态系统。为此,摩尔线程构建了 MUSA(Moore Threads Unified System Architecture)调处的软件平台。而近日,摩尔线程肃肃发布 MUSA SDK4.0.1,其最大的迂回便是兑现了从芯片缱绻到软件栈的 " 全链路相识 ",且兑现关于英伟达 CUDA 全盘的转移,用户使用俗例不会蜕变,速率却快 15% 以上
至于同属 AI 芯片缱绻独角兽的壁仞科技,则早在 2022 年就推出了选拔 7nm 制程的 GPGPU 芯片 BR100,该芯片峰值算力达到海外厂商彼时在售旗舰家具 3 倍以上,创下国内互连带宽记录。
从上述咱们不丢脸出,除华为昇腾外,国内还有很多在 AI 芯片畛域实力不俗,且有不乏具备可替代英伟达 GPU 的企业,而鉴于咱们前述华为昇腾存在的隐忧,只有这些企业积极参与,酿成多点吐花,方能在替代的经过中,降风险、保厚实、促自主。
写在临了:英伟达 H20 等近期在中国商场的受限,突显了国内替代决策的紧迫性。但通过上述,咱们以为蕾丝系列,中国 AI 芯片的替代,乃至异日的自主之路,不可仅靠个别企业,更不可恒久依赖充满不细目性的清除技巧的供应链步地,而是在于多点吐花,提拔包括华为、海光信息、摩尔线程等在内的多元化的国内 AI 芯片企业的协同发展,借此构建真确苍劲、好意思满、有韧性的全产业链自主生态,才是加快兑现中国 AI 芯片自主可控的正解。