如何解释Gym-Anything 支持的 CUA-World 任务与软件覆盖示意

> 数据图表

如何解释Gym-Anything 支持的 CUA-World 任务与软件覆盖示意

2026-4-0

论文回顾认为，这一差距的重要原因并不只在模型能力本身，而在于复杂软件环境的安装、配置、数据准备与状态验证长期依赖大量人工劳动，导致环境生产成本高、复用性差，也难以形成可规模化扩展的训练和评测基础设施。换言之，当前制约 computer-use agent 进一步发展的，并不只是“模型会不会做”，还包括“环境能不能被大规模、稳定地构造出来”。为解决上述问题，研究团队提出 Gym-Anything 框架，将“把任意软件转换为智能体可交互环境”本身建模为一个多代理任务。其核心流程是：由 Creation Agent 负责编写环境搭建脚本、下载和处理真实数据、完成软件配置，并提供截图、日志等环境可用性证据随后由独立的 Audit Agent 依据质量检查清单，对这些证据进行核验，判断软件是否真正处于可执行任务的初始状态。为了降低跨软件扩展的复杂度，团队还开发了 Gym-Anything 库，将不同环境统一抽象为少量脚本和配置文件，从而让模型主要处理软件特定逻辑，而不必每次都重新面对底层操作系统、数据库和网络配置差异。

国泰海通科技传媒