> 数据图表

如何了解2.5 Pro Deep Think在数学、代码和多模态推理能力上表现突出

2025-5-0
如何了解2.5 Pro Deep Think在数学、代码和多模态推理能力上表现突出
Gemini 2.5 Pro: 3 月份谷歌发布了 Gemini 2.5 Pro,是谷歌迄今为止最智能的型号,IO 大会谷歌上分享了 Gemini 2.5 型号系列的更多更新: 除了在学术基准测试方面的出色表现外,新的 2.5 Pro 现在以 1415 的 ELO 分数领先于流行的编码排行榜 WebDev Arena。它还在 LMArena 的所有排行榜上处于领先地位,LMArena 在各个维度评估人类的偏好。而且,凭借其 100 万个 token 的上下文窗口,2.5 Pro 具有先进的长上下文和视频理解性能。 深度思考:谷歌开始测试一种称为 Deep Think 的增强推理模式,该模式使用新的研究技术,使模型能够在响应之前考虑多个假设。2.5 Pro Deep Think 在 2025 USAMO 上获得了令人印象深刻的分数,这是目前最难的数学基准测试之一。它还在 LiveCodeBench(比赛级编码的困难基准测试)上领先,在测试多模态推理的 MMMU 上得分为 84.0%。