想问下各位网友.智谱 AutoGLM 深思的模型架构

> 数据图表

想问下各位网友.智谱 AutoGLM 深思的模型架构

2025-7-0

算法：深度推理、AI Agent、多模态、世界模型等新范式持续迭代大模型算法持续迭代，国产模型厂商实现从追赶到并跑。纵观过去一年左右在 AI 大模型领域的迭代，从 2024 年下半年豆包模型的升级，到 2025 年初 DeepSeekV3R1 的开源，以及智谱的手机端 Agent 功能，再到 Qwen、Kimi K2 等开源模型的持续升级，国产模型无论在深度推理、Agent 应用还是多模态等各方面的能力，已经逐步实现从追赶到并跑，甚至部分领域的引领。此次 WAIC 展会上，国产模型厂商在技术演示上，也逐步聚焦到了大模型迭代的未来范式：1）Pre-training 阶段强调多模态能力：当前大模型已经从过去的 LLM 逐步向端到端的多模态模型演进，除了文本能力，在基座模型方面，对图像、视频、语音等能力的训练成为发展的重点。对比人类感知世界的维度，除了文字的理解，也需要视觉、听觉等多维度的感知，因此通用基座模型需要持续拓展多模态能力。2）Post-training 阶段融入深度推理和思考能力：为了实现 Scaling law 的持续迭代，除了在基座模型方面融入更多模态和对应的数据，另一方面的技术迭代在于 Post-training 阶段融入 CoT 实现深度推理和思考能力，从而让模型具备了快思考和慢思考的多种模式，适配不同的应用场景和任务。3）模型应用突出 Agent 和交互：大模型本身只是“大脑”的角色，而需要实现 AGI 和具身智能，还需要进一步为大模型装上“手”和“脚”，从而才能真正实现模型的自主处理能力。因此，大模型逐步向 Agent智能体演进，包括 OpenAI 在内的全球模型厂商都在逐步支持模型对外部工具的调用和交互，向真正的 AI 助手迈进。4）物理 AI 和世界模型逐步兴起：物理 AI 的目标是让智能体可以理解真实世界的运行规律，并进行有效交互，通常该模型封装在机器人和无人驾驶车中，利用物理 AI，系统能够自主地感知、理解并执行复杂操作。世界模型是理解现实世界动态（包括其物理和空间属性）的生成式 AI 模型，使用文本、图像、视频和运动等输入数据来生成视频。通过学习，在理解现实环境物理特性的前提下，对运动以及感知数据中的空间关系等动态进行表征和预测。物理 AI 和世界基础模型（WFM）是具身智能的关键基础设施。讯飞星火 X1 升级版正式发布。7 月 25 日，基于全国产算力训练的深度推理大模型讯飞星火 X1 升级版正式上线。1）综合能力大幅提升，整体效果对标 OpenAI o3 等国内外一流大模型最新版本效果，在翻译、推理、文本生成、数学等方面保持领先2）幻觉治理取得显著进步。幻觉问题是掣肘大模型落地应用的关键问题，升级后的星火 X1 在幻觉治理方面领先业界主流模型3）教育、医疗、企业应用、代码、科研等行业大模型和智能体也取得了新的进步，在复杂行业场景任务上进一步解决用户关键刚需。商汤科技发布日日新 V6.5 模型。商汤科技此次在展会上发布了日日新多模态大模型 V6.5 版本，一是智能体能力升级，对复杂指令泛化能力增强二是 OCR 识别强化，图像识别更精准三是 Omni 交互抗噪，有效问题精准聚焦四是快慢协同机制，兼顾深度与速度。

国投证券综合其他