Codex 的 Computer Use 功能是怎么工作的 • BemoDB 2.0

如果把话说得直接一点，Codex 的 computer use 没什么神秘的，说穿了就是：先看截图，再判断该点哪里、输入什么，然后把这些动作执行出去。

它并不是“理解了电脑内部的一切”，也不是像人一样真正会用软件。更接近的说法是：模型看到一张当前界面的图，然后根据目标猜下一步操作，再让外部程序去执行鼠标和键盘事件。

所以这个过程其实很简单，大概就是一个循环。

第一步，截屏。

系统把当前界面截图发给模型。模型能看到按钮、输入框、菜单、弹窗这些视觉元素，但它看到的本质上还是图，不是软件内部的结构化状态。

第二步，判断动作。

模型根据截图和用户目标，判断下一步该做什么。比如点击某个坐标、输入一段文字、按下某个键、滚动页面，或者等待界面加载。

第三步，执行动作。

外部执行器把这些动作真正变成鼠标和键盘事件。点一下、输一段、滚一下，然后再截一张新的图给模型。

第四步，重复上面的过程，直到任务完成或者走偏。

所以你说“它不就是基于截图做操作吗”，这个判断基本就是对的。它的核心不是什么特别新的计算机原理，而是把“看屏幕”和“点鼠标敲键盘”也包装成了 Agent 可以调用的一类工具。

这样做的价值在于，有些系统没有 API，也没有命令行入口，但人能手动操作界面。computer use 等于让 Agent 也能勉强去做这件事。

但它的短板也很明显。

首先，它慢。因为每一步都要重新看图、重新判断，而不是直接读结构化数据。

其次，它不稳定。按钮位置变了、页面弹窗挡住了、加载慢了一点、焦点丢了，都可能让它判断失误。

最后，它贵。因为截图理解和多轮交互本来就比直接调 API 或跑命令更耗上下文，也更耗 token。

所以这类能力当然有用，但更适合“没有更好接口时的替代方案”，而不是首选方案。只要有 API，就优先 API；只要能走 CLI，就优先 CLI；只有两者都没有时，截图驱动的 computer use 才真正体现价值。

参考：