智谱GLM-4.6 发布，寒武纪、摩尔线程火速适配-人工智能的专栏

智谱GLM-4.6 发布，寒武纪、摩尔线程火速适配

2025-10-02 10:36:35栏目：默认栏目 IP属地：IP未知

9 月 30 日，智谱 AI 发布的新一代旗舰大模型 GLM-4.6，以 27% 的综合性能提升刷新国产大模型天花板。在 AIME 25、LCB v6 等 8 项国际权威评测中，其核心指标已看齐 Claude Sonnet 4/4.5，尤其在 Claude Code 环境的 74 个真实编程任务中，实测表现超越 Claude Sonnet 4，坐稳国内编程领域模型头把交椅。

更关键的突破在于效率革命：通过架构创新，GLM-4.6 将平均 token 处理成本降低 30% 以上，达到行业最低水平，其 Coding API 价格仅为 Claude 的 1/7。同时，模型上下文窗口从 128K 扩展至 200K，支持更长代码序列与智能体交互，并新增工具调用与搜索强化能力，全面适配企业级复杂场景需求。

如果说性能跃升是 GLM-4.6 的 “矛”，那么与国产芯片的深度适配便是其落地的 “盾”。发布当日，寒武纪与摩尔线程同步宣布完成适配，上演了国产 AI 产业的 “软硬协同闪电战”。

寒武纪在其芯片平台实现了 GLM-4.6 的 FP8+Int4 混合量化部署，这也是行业首个在国产芯片上投产的模型 - 芯片一体化解决方案。该方案并非简单技术叠加，而是基于模型模块差异的精准分配策略：占内存 60%-80% 的核心参数用 Int4 量化，将权重体积压缩至 FP16 的 1/4，大幅缓解显存压力；数值敏感的关键模块则用 FP8 守住精度底线，将语义损失控制在轻微范围。这种 “该省则省、该保则保” 的设计，在维持模型精度不变的前提下，将推理成本压至新低，为千亿参数大模型的本地化运行打通了关键路径。

在图形处理器领域，摩尔线程基于 vLLM 推理框架完成适配，其新一代 GPU 可以原生 FP8 精度稳定运行 GLM-4.6。这一成果不仅验证了 MUSA 架构的技术成熟度，更凸显国产 GPU 在生态兼容性上的突破 —— 以往 “硬件等算法” 的割裂局面被打破，转而实现与前沿大模型的同步迭代。正如业界观察所言，这种快速响应能力背后，是芯片厂商与模型团队在技术层面的深度预埋与协同研发。

此次 “模型发布 + 芯片适配” 的同步推进，标志着国产 AI 技术栈首次在训练推理环节形成完整闭环。搭载寒武纪与摩尔线程芯片的 GLM-4.6 解决方案，即将通过智谱 MaaS 平台（bigmodel.cn）向公众与企业开放，从技术突破走向产业落地。

其产业价值远超单点技术升级：从供给侧看，FP8+Int4 混合量化、原生 FP8 运行等技术创新，降低了国产算力的应用门槛；从需求侧讲，低成本、高精度的本地化解决方案，将加速 AI 在智能制造、智慧金融等关键领域的渗透。更重要的是，这种 “自主模型 + 自主芯片” 的协同模式，摆脱了对外部供应链的依赖，为全球 AI 竞争中的 “中国方案” 筑牢根基。

当 GLM-4.6 的代码在寒武纪芯片与摩尔线程 GPU 上顺畅运行时，国产 AI 产业正在告别 “单点突破” 的零散阶段，迈入 “软硬协同” 的规模化发展新时期。这不仅是一次技术迭代的宣告，更是自主可控 AI 生态走向成熟的重要里程碑。