网页里住了个 AI,你说话它就动
今天刷 GitHub Trending 看到个阿里开源的项目,叫 page-agent。
标题是“用自然语言控制网页”。
我第一反应是,又来。这类项目见过不少,说得天花乱坠,实际跑起来跟玩具差不多。
但这个有点不一样。
它不截图,不需要装 Python,不需要无头浏览器,就一段 JavaScript 扔进网页里。然后你跟它说话,它帮你操作页面。
原理其实不复杂。它把页面上所有能点、能填的东西,转成一段文字描述,发给 AI。AI 看完说“点这个、填那个”,然后它照做。
不需要眼睛,只需要认字。
我想到的第一个用法是我自己的 CRM。现在每次更新客户状态,得点进去,找到那个下拉框,选,保存。一个客户还好,十个就烦了。
如果能直接说“把 Ashleigh 的状态改成跟进中”,它自己去弄——那还挺香的。
当然我还没试。
阿里的东西,工程上做得不错,但能不能真正用起来,还得自己跑一遍才知道。先收藏着,下次折腾 CRM 的时候想起来再说。