网页里住了个 AI,你说话它就动

今天刷 GitHub Trending 看到个阿里开源的项目,叫 page-agent。 标题是“用自然语言控制网页”。 我第一反应是,又来。这类项目见过不少,说得天花乱坠,实际跑起来跟玩具差不多。 但这个有点不一样。 它不截图,不需要装 Python,不需要无头浏览器,就一段 JavaScript 扔进网页里。然后你跟它说话,它帮你操作页面。 原理其实不复杂。它把页面上所有能点、能填的东西,转成一段文字描述,发给 AI。AI 看完说“点这个、填那个”,然后它照做。 不需要眼睛,只需要认字。 我想到的第一个用法是我自己的 CRM。现在每次更新客户状态,得点进去,找到那个下拉框,选,保存。一个客户还好,十个就烦了。 如果能直接说“把 Ashleigh 的状态改成跟进中”,它自己去弄—

别再点按钮了——我怎么把 5 小时的手工操作压到 2 分钟

起因很简单:我需要在一个没有 API 的平台上重复操作 30 次。 每次手动点进去、填表、提交,10 分钟一个。30 个就是 5 小时。 我不想干这件事。 ## 第一反应:写个脚本模拟点击 Selenium、Playwright,让脚本代替人去点按钮。 听起来合理,实际上是个坑。 现在的网站大多用 React 或 Vue 之类的框架搭建,它们有自己的一套事件系统。你的脚本发出去的点击,它不认。上传文件的按钮点不动,页面跳转之后元素找不到了,网站一更新 UI 脚本就废了。 我在这条路上浪费了一些时间,然后换了个思路。 ## 真正有用的思路:不管前端,只管请求 不管界面多复杂,用户点了什么按钮,最终都会变成一个 HTTP 请求发给服务器。 那个请求才是真正做事的地方。 所以我改变策略:不模拟人的操作,而是录下操作背后的请求。

【零成本】OpenClaw-Zero-Token:白嫖全网大模型的终极神器

## 项目简介 OpenClaw-Zero-Token 是 OpenClaw 的一个增强分支,其核心使命是:**通过浏览器自动化技术捕获会话凭证,彻底消除 API Token 成本,实现主流 AI 平台的免费接入。** ### 核心优势 1. **真正零成本**:免去按量计费的 API 开支,无需绑定信用卡。 2. **全模型覆盖**:支持 ChatGPT、Claude 3.5、Gemini、DeepSeek (R1/Reasoner)、豆包、通义千问、Kimi、智谱 GLM、Grok 甚至 Manus。 3. **原生工具调用 (Tool Calling)**:支持 exec、read_file、browser 等本地工具调用,

告别复制粘贴:xiaohongshu-cli 让小红书数据流自动化成为可能

工具简介 对于做外贸和跨境电商的我们来说,小红书是一个巨大的流量池,但手动抓取数据和监控评论简直是噩梦。最近发现的 xiaohongshu-cli 彻底改变了这种局面。ps作者的其他几个项目也非常优秀。 核心优势 * AI Agent 友好:原生支持 YAML/JSON 输出,方便 AI 直接读取并分析市场趋势。 * 硬核防封控:内置高斯随机延迟和 macOS Chrome 指纹模拟,极大降低了被封号的风险。 * 功能全覆盖:支持关键词搜索、笔记阅读、评论抓取,甚至可以发布图文笔记。 * 无缝认证:自动提取浏览器 Cookie,省去了复杂的抓包过程。 实战场景 你可以利用它每天自动抓取产品关键词下的热门评论,分析客户痛点,甚至自动化发现爆款款式,直接喂给你的 CRM 询盘池。 项目地址 https://github.com/jackwener/xiaohongshu-cli

不再手工录入:我的外贸 AI 三段式自动化流程

最近我把外贸日常流程做成了一个“AI 三段式自动化”系统。核心目标很简单:不再手工录入,不再漏消息,让人只做关键决策。 ① 线索接入(WhatsApp / Alibaba) 客户发来的询盘、样品需求、付款沟通,先统一进入同一个入口: * WhatsApp 消息 * Alibaba 站内消息 系统自动抓取会话,不需要再手动复制粘贴到表格里。 ② AI 结构化处理(去“录入”化) 消息进入后,AI 自动提取并标准化关键信息: * 客户名 * 国家 * 日期 * 意向产品 * 渠道 * 跟进状态 并自动做优先级判断: * VIP * 待付款 * 样品中 * 潜在 同时给出跟进建议,减少“靠记忆管理客户”的风险。 ③ CRM 全量沉淀(可追踪) 最终数据统一沉淀到 CRM 全量库,