AI数学天花板来了？DeepSeek新模型低调开源-人工智能的专栏

AI数学天花板来了？DeepSeek新模型低调开源

2025-05-01 10:36:43栏目：默认栏目 IP属地：IP未知

来源: 华尔街见闻官方

就在所有人都在期待DeepSeek官宣R2大模型之际，公司却出其不意地在"五一"前夕投下了另一枚技术炸弹。

4月30日，DeepSeek在Hugging Face平台上悄然开源了其最新模型——DeepSeek-Prover-V2-671B，一个专注于数学定理证明的大语言模型，专门针对形式化数学证明任务进行优化。

DeepSeek-Prover-V2-671B使用了DeepSeek-V3架构，参数高达6710亿，采用MoE（混合专家）模式，具有61层Transformer层，7168维隐藏层。

模型使用了更高效的safetensors文件格式，同时支持BF16、FP8、F32等多种计算精度，这使得模型可以更快、更省资源地进行训练和部署。据OSCHINA分析，该模型分为163个分片，每个分片大小约为4.3GB，充分证明了其规模之庞大。

值得注意的是，3月发布的V3-0324版本已被业内视为未来R2的基础模型。这一版本通过6850亿参数的MoE架构升级，代码能力获得相比显著增强。

数学AI的重磅升级：DeepSeek再开源6710亿参数模型

从技术层面来看，DeepSeek-Prover-V2-671B使用了DeepSeek-V3架构，采用MoE（混合专家）模式，具有61层Transformer层，7168维隐藏层。更令人惊叹的是，其最大位置嵌入达到了16.38万，这意味着它能够处理极其复杂的数学证明问题。

DeepSeek-Prover是DeepSeek团队开发的一系列专注于数学定理证明的开源大语言模型，通过大规模合成数据训练并结合强化学习（RL）与蒙特卡洛树搜索（MCTS）等优化技术，在形式化定理证明领域取得了显著进展。

DeepSeek-Prover通过创新的训练框架与高效的推理策略，在形式化数学证明领域树立了新标杆。其结合合成数据、强化学习与树搜索的技术路径，不仅提升了模型性能，也为AI在严谨数学推理中的应用开辟了新方向。

OSCHINA分析称，新模型具有以下特点：

模型规模巨大：参数量约为 671B（6710 亿参数），这从模型分片数量（163 个）和每个分片大小（约 4.3GB）可以看出
使用了 DeepSeek-V3 的架构：采用 MoE（混合专家）模式，具有 61 层 Transformer 层，7168 维隐藏层
专为数学定理证明优化：从名称 "Prover"（证明者）可以看出，这是一个专注于数学推理和定理证明的专业模型
支持超长上下文：最大位置嵌入达 163840，使其能处理复杂的数学证明
采用 FP8 量化：通过量化技术减小模型大小，提高推理效率

DeepSeekR2 还会远吗？

DeepSeek创始人梁文锋曾表示：“中国也要逐步成为创新贡献者，而不是一直搭便车。” 他将探索通用人工智能的本质作为核心使命。

根据《中国企业家》的报道，DeepSeek创始人梁文锋带领的AI团队一直保持着与国际巨头同步的产品迭代节奏——2024年9月推出V2.5版本，12月发布V3基础架构，次年3月升级至V3-0324版本，形成每季度重大更新的开发范式。

值得注意的是，3月发布的V3-0324版本已被业内视为未来R2的基础模型。这一版本通过6850亿参数的MoE架构升级，代码能力获得显著增强。

如此稳健而高效的产品迭代节奏，不禁让人思考：传言已久的DeepSeek R2大模型还会远吗？这款新的数学模型是否只是DeepSeek即将发布更大规模通用模型的前奏？