DeepSeek R2 发布：国产大模型的性能跃迁 — AI Info

DeepSeek 于 7 月初正式发布了新一代推理模型 DeepSeek R2，采用创新的 Hybrid MoE 3.0 架构，总参数量达到 1.2 万亿。在数学推理、代码生成和多模态理解等多项基准测试中，R2 的表现已接近甚至超越 OpenAI GPT-5 系列，成为国产大模型的重要里程碑。

架构创新：Hybrid MoE 3.0

DeepSeek R2 最核心的技术突破在于其 Hybrid MoE（混合专家）3.0 架构。与传统的稀疏 MoE 不同，R2 引入了一种动态分流系统：

这意味着 R2 虽然拥有 1.2 万亿的总参数，但每次推理只需激活不到十分之一的参数，在保持顶级性能的同时将算力成本降至原来的 1/10。

R2 引入了全新的 递归认知格（Recursive Cognitive Grid） 技术，支持 8-10 轮动态迭代推理。中间结果被保存在网格结构中，模型可以在推理过程中反复回溯和修正自己的思路，大幅提升了复杂逻辑推理和长文本处理的能力。

配合改进的 MLA（Multi-head Latent Attention） 技术，KV 缓存压缩率达到 93.3%，这使得 R2 在处理 128K+ tokens 的超长上下文时仍能保持高效推理。

R2 支持一次预测 4-8 个 token，相比传统的逐 token 预测，推理吞吐量提升了 5%-8%。这一技术的引入使得 R2 在代码生成、长文本续写等场景下响应速度显著提升。

根据 DeepSeek 官方公布的基准测试数据：

基准测试	DeepSeek R2	GPT-5.5 Instant	说明
AIME 2025	92.7%	81.2%	数学竞赛推理
SWE-Bench	91.0%	82.0%	软件工程任务
GPQA Diamond	85.6%	78.5%	博士级科学问答
MMMU-Pro	76.0%	69.2%	多模态理解
HumanEval	94.8%	89.5%	代码生成

注：GPT-5.5 Instant 数据来自 OpenAI 官方于 2026 年 6 月发布的结果。

在 AIME 2025（数学竞赛） 中，R2 以 92.7% 的成绩接近 GPT-5 的 93.1%，超越了 Claude 4.6 的 91.8%。在 SWE-Bench（软件工程） 上，R2 的 91.0% 大幅领先 GPT-5 的 82%，展现出在真实编程任务上的强大能力。

DeepSeek R2 在推理成本上具有显著优势：

模型	输入成本（每百万 Token）	输出成本（每百万 Token）	相对成本
DeepSeek R2	$0.07	$0.27	1×
GPT-4 Turbo	$10.00+	$30.00+	~100×
GPT-5.5 Instant	$5.00	$30.00	~60×

R2 的推理成本仅为 GPT-4 Turbo 的 2.6%，即使对比最新的 GPT-5.5 Instant，成本优势也在 60 倍以上。这使得大规模 AI 应用的成本门槛大幅降低。

DeepSeek R2 采用 MIT 许可证 完全开源，这意味着：

R2 已获得主流推理框架的原生支持，包括 vLLM、TensorRT-LLM、SGLang，同时 Ollama 也已支持一键部署。

DeepSeek R2 的发布标志着国产大模型从“追赶”进入“并跑”阶段。1.2 万亿参数的 Hybrid MoE 架构、递归认知格、极低的推理成本——这些技术创新组合在一起，不仅证明了 DeepSeek 在 AI 基础研究上的实力，也为整个行业提供了高质量、低成本的选择。

随着 R2 开源生态的逐步完善，我们可以期待在不久的将来看到基于 R2 的各种应用和垂直领域微调模型涌现。

来源：DeepSeek 官方、OpenAI 官方