如果把话说得直接一点,Codex 的 computer use 没什么神秘的,说穿了就是:先看截图,再判断该点哪里、输入什么,然后把这些动作执行出去。
它并不是“理解了电脑内部的一切”,也不是像人一样真正会用软件。更接近的说法是:模型看到一张当前界面的图,然后根据目标猜下一步操作,再让外部程序去执行鼠标和键盘事件。
所以这个过程其实很简单,大概就是一个循环。
第一步,截屏。
系统把当前界面截图发给模型。模型能看到按钮、输入框、菜单、弹窗这些视觉元素,但它看到的本质上还是图,不是软件内部的结构化状态。
第二步,判断动作。
模型根据截图和用户目标,判断下一步该做什么。比如点击某个坐标、输入一段文字、按下某个键、滚动页面,或者等待界面加载。
第三步,执行动作。
外部执行器把这些动作真正变成鼠标和键盘事件。点一下、输一段、滚一下,然后再截一张新的图给模型。
第四步,重复上面的过程,直到任务完成或者走偏。
所以你说“它不就是基于截图做操作吗”,这个判断基本就是对的。它的核心不是什么特别新的计算机原理,而是把“看屏幕”和“点鼠标敲键盘”也包装成了 Agent 可以调用的一类工具。
这样做的价值在于,有些系统没有 API,也没有命令行入口,但人能手动操作界面。computer use 等于让 Agent 也能勉强去做这件事。
但它的短板也很明显。
首先,它慢。因为每一步都要重新看图、重新判断,而不是直接读结构化数据。
其次,它不稳定。按钮位置变了、页面弹窗挡住了、加载慢了一点、焦点丢了,都可能让它判断失误。
最后,它贵。因为截图理解和多轮交互本来就比直接调 API 或跑命令更耗上下文,也更耗 token。
所以这类能力当然有用,但更适合“没有更好接口时的替代方案”,而不是首选方案。只要有 API,就优先 API;只要能走 CLI,就优先 CLI;只有两者都没有时,截图驱动的 computer use 才真正体现价值。
参考:
- OpenAI Platform Docs: Computer Use ↗