> 数据图表

如何了解Kimi K2在自主编程、工具调用和数学推理的基准性能测试中取得优秀表现

2025-7-0
如何了解Kimi K2在自主编程、工具调用和数学推理的基准性能测试中取得优秀表现
AI Coding 已成为大模型应用落地最快的方向之一。各大科技厂商大厂近期都有相关发布,相关创业公司商业化进展也非常迅速: 微软在 2025 年 4 月 30 日宣布当前拥有超过 1500 万 GitHub Copilot 用户,同比增长了4 倍多。 AI 编程助手开发商 Anysphere 凭借 Cursor 产品已吸引超 3 万家企业客户。Anysphere于今年 6 月完成 9 亿美元新一轮融资,公司估值飙升至 99 亿美元,正式跻身全球顶级AI 独角兽阵营。这已是该公司近一年内的第三次融资,半年多前的 2024 年 12 月,其完成 100 万美元融资时估值仅为 25 亿美元,增长势头迅猛。截至 2025 年 6 月,其 ARR已突破 5 亿美元大关,相较于 4 月中旬披露的 3 亿美元,短短两个月内飙升了 60% 21 世纪经济报道,7 月 15 日,云计算巨头亚马逊旗下云服务 AWS 部门正式推出了名为Kiro 的 AI 编程工具,进一步加剧了本已白热化的 AI 编程工具市场竞争。相比起传统的AI 编程,Kiro 并不急于根据用户提示直接生成代码,而是强调在编码前建立完整的规范体系,解决软件开发中的设计一致性、需求冲突、技术债务等挑战。 基础模型在编码能力上也持续进步,2025 年 7 月 11 日,月之暗面开源 kimi K2 模型,Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,在SWE Bench Verified、Tau2、AceBench 等基准性能测试中,Kimi K2 均取得开源模型中的 SOTA 成绩,展现出在代码、Agent、数学推理任务上的领先能力。