> 数据图表

咨询大家2.2、DeepSeek:早期确立AI战略,模型家族涵盖标准语言模型/推理模型/多模态模型

2025-4-1
咨询大家2.2、DeepSeek:早期确立AI战略,模型家族涵盖标准语言模型/推理模型/多模态模型
2.2、DeepSeek:早期确立AI战略,模型家族涵盖标准语言模型/推理模型/多模态模型DeepSeek是一家于2023年成立的中国初创企业,创始人是AI驱动量化对冲基金幻方量化的掌门人梁文锋。 2021年,幻方量化的资产管理规模突破千亿大关,跻身国内量化私募领域的“四大天王”之列。2023年梁文锋宣布正式进军通用人工智能领域,创办DeepSeek,专注于做真正人类级别的人工智能。 DeepSeek团队以年轻化为主,具备深厚技术底蕴。创始人梁文锋曾在36氪的采访中,给出了DeepSeek的员工画像:“都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。”自2023年5月诞生以来,DeepSeek始终维持约150人的精英团队,推行无职级界限、高度扁平化的文化,以此激发研究灵感,高效调配资源。2023年5月DeepSeek正式成立时,团队已汇聚近百名卓越工程师。如今,即便不计杭州的基础设施团队,北京团队亦拥有百名工程师。模型类别日期名称内容对标模型包括 1B,7B,33B 多种尺寸,开源内容包含 Base 模型和指令调优模型。 Meta的CodeLlama是业内标杆,但DeepSeek Coder展示出多方位领先的架势。步上线,价格依旧是「1元/百万输入,2元/百万输出」。2023年11月2日 DeepSeek Coder2024年6月17日 DeepSeek Coder V2 代码大模型,提供了 236B 和 16B 两种版本。DeepSeek Coder V2 的 API 服务也同2023年11月29日 DeepSeek LLM 67B 首款通用大语言模型,且同步开源了 7B 和 67B 两种不同规模的模型,甚至将模型训练过程中产生的 9 个 checkpoints 也一并公开,多模态 AI 技术上的初步尝试,尺寸为 7B 与1.3B,模型和技术论文同步开源。2024年3月11日 DeepSeek-VL通用 MoE 大模型的开源发布,DeepSeek-V2 使用了 MLA(多头潜在注意力机DeepSeek-V2制),将模型的显存占用率降低至传统 MHA 的 5%-13%Chat模型聚焦通用对话能力,Code模型聚焦代码处理能力合二为一,更好的对齐了人类偏好,2024年5月2024年9月6日 DeepSeek-V2.5 融合2024年12月10日 DeepSeek-V2.5-1210 DeepSeek V2 系列收官之作,全面提升了包括数学、代码、写作、角色扮演等在2024年12月26日 DeepSeek-V32024年2月5日 DeepSeekMat2024年8月16日 DeepSeek-Prover-V1.5 数学定理证明模型2024年11月20日 DeepSeek-R1-Lite2025年1月20日 DeepSeek-R1内的多方能力。开源发布,训练成本估算只有 550 万美金数学推理模型,仅有 7B 参数2023年12月18日 DreamCraft3D2024年12月13日 DeepSeek-VL22025年1月27日 DeepSeek Janus-Pro 开源发布的多模态模型。推理模型,为之后 V3 的后训练,提供了足量的合成数据。发布并开源,开放了思维链输出功能,将模型开源 License 统一变更为 MIT 许可证,并明确用户协议允许 “模型蒸馏”。文生 3D 模型,可从一句话生成高质量的三维模型,实现了 AIGC 从 2D 平面到 3D 立体空间的跨越。多模态大模型,采用了 MoE 架构,视觉能力得到了显著提升,有 3B、16B 和 27B 三种尺寸,在各项指标上极具优势。能力超越了当时最先进的闭源模型 GPT-4-Turbo。Meta的同级别模型 LLaMA2 70B,并在近20个中英文的公开评测榜单上表现更佳。对标 GPT-4-Turbo,而 API 价格只有后者的 1/70性能上全面对标海外领军闭源模型,生成速度也大幅提升。数学推理能力上直逼 GPT-4在高中和大学数学定理证明测试中,均超越了多款知名的开源模型。媲美 o1-preview在性能上全面对齐 OpenAI o1 正式版模型LLM推理模型多模态模型资料来源:新浪人工智能,国海证券研究所请务必阅读报告附注中的风险提示和免责声明 21