一起讨论下2.5 Pro Deep Think在数学、代码和多模态推理能力上表现突出

> 数据图表

一起讨论下2.5 Pro Deep Think在数学、代码和多模态推理能力上表现突出

2025-5-0

Gemini 2.5 Pro： 3 月份谷歌发布了 Gemini 2.5 Pro，是谷歌迄今为止最智能的型号，IO 大会谷歌上分享了 Gemini 2.5 型号系列的更多更新：除了在学术基准测试方面的出色表现外，新的 2.5 Pro 现在以 1415 的 ELO 分数领先于流行的编码排行榜 WebDev Arena。它还在 LMArena 的所有排行榜上处于领先地位，LMArena 在各个维度评估人类的偏好。而且，凭借其 100 万个 token 的上下文窗口，2.5 Pro 具有先进的长上下文和视频理解性能。深度思考：谷歌开始测试一种称为 Deep Think 的增强推理模式，该模式使用新的研究技术，使模型能够在响应之前考虑多个假设。2.5 Pro Deep Think 在 2025 USAMO 上获得了令人印象深刻的分数，这是目前最难的数学基准测试之一。它还在 LiveCodeBench（比赛级编码的困难基准测试）上领先，在测试多模态推理的 MMMU 上得分为 84.0%。

国盛证券综合其他