《DeepSeek-V3:人工智能大语言模型》

news/2025/2/21 2:55:30

《DeepSeek-V3:人工智能大语言模型》

1. 引言

我们介绍了 DeepSeek-V3,这是一个强大的专家混合 (MoE) 语言模型,总共有 671B 个参数,每个令牌激活了 37B。 为了实现高效的推理和具有成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了全面验证。 此外,DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略,并设定了多标记预测训练目标以获得更强的性能。 我们在 14.8 万亿个多样化和高质量的代币上对 DeepSeek-V3 进行预训练,然后是监督微调和强化学习阶段,以充分利用其功能。 综合评估表明,DeepSeek-V3 的性能优于其他开源模型,并实现了与领先的闭源模型相当的性能。 尽管性能出色,但 DeepSeek-V3 只需要 2.788M H800 GPU 小时即可进行完整训练。 此外,它的训练过程非常稳定。 在整个训练过程中,我们没有遇到任何无法恢复的损失峰值或执行任何回滚。

2. 模型概述


架构:创新的负载均衡策略和训练目标

  • 除了 DeepSeek-V2 的高效架构之外,我们还开创了一种用于负载均衡的辅助无损策略,该策略可以最大限度地减少因鼓励负载均衡而引起的性能下降。
  • 我们研究了多标记预测 (MTP) 目标,并证明它对模型性能有益。 它还可用于推理加速的推测解码。

训练前:迈向终极训练效率

  • 我们设计了一个 FP8 混合精度训练框架,并首次在超大规模模型上验证了 FP8 训练的可行性和有效性。
  • 通过算法、框架和硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了完全的计算-通信重叠。
    这显著提高了我们的训练效率并降低了训练成本,使我们能够在不增加开销的情况下进一步扩大模型大小。
  • 我们以仅 2.664M H800 GPU 小时的经济成本,在 14.8T 令牌上完成了 DeepSeek-V3 的预训练,生成了目前最强的开源基础模型。预训练后的后续训练阶段只需要 0.1M GPU 小时。

培训后:DeepSeek-R1 的知识提炼

  • 我们引入了一种创新方法,将长链思维 (CoT) 模型的推理能力,特别是 DeepSeek R1 系列模型之一的推理能力提炼到标准 LLM 中,特别是 DeepSeek-V3。我们的 pipeline 将 R1 的验证和反射模式优雅地整合到 DeepSeek-V3 中,并显著提高了它的推理性能。同时,我们还保持对 DeepSeek-V3 的输出样式和长度的控制。

3. 模型下载

#Total Params #Activated Params 上下文长度 下载
DeepSeek-V3-基础 671B 系列 编号 37B 128K 🤗 拥抱脸
深度搜索-V3 671B 系列 编号 37B 128K 🤗 拥抱脸

注意

Hugging Face 上 DeepSeek-V3 模型的总大小为 685B,其中包括 671B 的主模型权重和 14B 的多标记预测 (MTP) 模块权重。

为了确保最佳性能和灵活性,我们与开源社区和硬件供应商合作,提供了多种在本地运行模型的方法。有关分步指南,请查看第 6 节:How_to Run_Locally。

对于希望深入了解的开发人员,我们建议探索 README_WEIGHTS.md 以了解有关主模型权重和多标记预测 (MTP) 模块的详细信息。请注意,MTP 支持目前在社区内正在积极开发中,我们欢迎您的贡献和反馈。

4. 评估结果

基本模型

标准基准
基准 (度量) # 镜头 深度搜索-V2 Qwen2.5 72B LLaMA3.1 405B 深度搜索-V3
建筑 - 教育部 教育部
# 激活的 Params - 21B 72B 系列 405B 系列 编号 37B
# 总参数 - 编号 236B 72B 系列 405B 系列 671B 系列
英语 桩测试 (BPB) - 0.606 0.638 0.542 0.548
BBH (EM) 3 镜头 78.8 79.8 82.9 87.5
MMLU (Acc.) 5 镜头 78.4 85.0 84.4 87.1
MMLU-Redux (Acc.) 5 镜头 75.6 83.2 81.3 86.2
MMLU-Pro (附件) 5 镜头 51.4 58.3 52.8 64.4
DROP (F1) 3 镜头 80.4 80.6 86.0 89.0
ARC-Easy (累积) 25 发 97.6 98.4 98.4 98.9
ARC-Challenge (累积) 25 发 92.2 94.5 95.3 95.3
HellaSwag (累积) 10 次拍摄 87.1 84.8 89.2 88.9
PIQA (累积) 0 次射击 83.9 82.6 85.9 84.7

http://www.niftyadmin.cn/n/5860131.html

相关文章

Spring Boot中API响应结构的最佳实践

在Spring Boot应用程序中,设计一个清晰、一致的API响应结构是确保代码可维护性和可扩展性的关键。本文将探讨如何在Spring Boot中构建最佳的API响应结构,以便于前端开发人员理解和使用,同时为后端开发人员提供灵活的扩展能力。 1. 标准化的响…

java网络编程02 - HTTP、HTTPS详解

HTTP、HTTPS详解 文章目录 HTTP、HTTPS详解一:HTTP超文本传输协议1:HTTP协议的工作流程2:URI和URL2.1:DNS域名解析 3:HTTP报文的组成结构3.1:请求报文3.2:响应报文3.3:HTTP报文字段3…

高德地图android sdk(备忘)

依赖 // 权限请求框架:https://github.com/getActivity/XXPermissions implementation com.github.getActivity:XXPermissions:20.0 // https://mvnrepository.com/artifact/com.amap.api/navi-3dmap-location-search implementation com.amap.api:navi-3dmap-loca…

当Qt遇见IOCP:用C++打造高并发服务器

一、为什么选择IOCP技术? 在Windows平台开发高并发网络服务时,许多开发者都会遇到这样的困境:当需要同时处理成千上万的客户端连接时,传统的select模型或普通线程池方案会遭遇性能瓶颈。这正是IOCP(Input/Output Comp…

从猜想终结到算法革新,弹性哈希开启数据存储新篇章

目录 哈希表的前世今生基本原理从传统到现代:哈希表的演变历程 安德鲁 克拉皮文及其团队的创作历程弹性哈希详解基本原理优点技术细节 漏斗哈希解析基本原理优点技术细节 新算法的实际应用案例电子商务推荐系统金融交易监控系统社交媒体内容过滤物联网设备管理 结论…

RT-Thread+STM32L475VET6实现红外遥控实验

文章目录 前言一、板载资源介绍二、具体步骤1. 确定红外接收头引脚编号2. 下载infrared软件包3. 配置infrared软件包4. 打开STM32CubeMX进行相关配置4.1 使用外部高速时钟,并修改时钟树4.2 打开定时器16(定时器根据自己需求调整)4.3 打开串口4.4 生成工程 5. 打开HW…

【数据分析】2.数据分析业务全流程

业务流程方法论:3阶段6步骤 一、课程核心内容结构 1. 方法论概述 目标:系统性地解决商业中的关键问题框架:分为三个阶段,每个阶段包含两个步骤适用场景:适用于数据分析师、业务经理等需要通过数据分析支持决策的从业…

Excel核心函数VLOOKUP全解析:从入门到精通

一、函数概述 VLOOKUP是Excel中最重要且使用频率最高的查找函数之一,全称为Vertical Lookup(垂直查找)。该函数主要用于在数据表的首列查找特定值,并返回该行中指定列的对应值。根据微软官方统计,超过80%的Excel用户在…