> 数据图表如何解释Gym-Anything 支持的 CUA-World 任务与软件覆盖示意2026-4-0论文回顾认为,这一差距的重要原因并不只在模型能力本身,而在于复杂软件环境的安装、配置、数据准备与状态验证长期依赖大量人工劳动,导致环境生产成本高、复用性差,也难以形成可规模化扩展的训练和评测基础设施。换言之,当前制约 computer-use agent 进一步发展的,并不只是“模型会不会做”,还包括“环境能不能被大规模、稳定地构造出来”。 为解决上述问题,研究团队提出 Gym-Anything 框架,将“把任意软件转换为智能体可交互环境”本身建模为一个多代理任务。其核心流程是:由 Creation Agent 负责编写环境搭建脚本、下载和处理真实数据、完成软件配置,并提供截图、日志等环境可用性证据随后由独立的 Audit Agent 依据质量检查清单,对这些证据进行核验,判断软件是否真正处于可执行任务的初始状态。为了降低跨软件扩展的复杂度,团队还开发了 Gym-Anything 库,将不同环境统一抽象为少量脚本和配置文件,从而让模型主要处理软件特定逻辑,而不必每次都重新面对底层操作系统、数据库和网络配置差异。国泰海通科技传媒