Skip to content

AI 浏览器

AI 浏览器让 Halo 的 Agent 能够直接操作网页——自动打开页面、搜索信息、填写表单、点击按钮,就像一个能看、能点、能输入的自动化助手。

如何开启

点击输入框左下角的 🌐 图标,图标高亮即代表已开启。

开启后,AI 将在对话过程中自动决定是否需要打开浏览器,无需每次手动触发。


AI 能做什么

  • 自动打开网页、导航到指定 URL
  • 截图识别页面内容(需要多模态模型,如 Claude 4.5)
  • 自动填写表单、点击按钮
  • 提取页面信息,结构化返回给你

人机协作

当 AI 正在操作浏览器时,界面会显示「AI 正在操作此浏览器」提示和 Live 指示灯。

你也可以随时接管:直接在浏览器中输入地址、点击导航,和 AI 同时操作互不冲突。


典型用例

电商购物

帮我在京东上搜索机械键盘,筛选价格在 300-600 元之间、评分最高的几款,告诉我各自的优缺点。

信息采集

打开 Hacker News,汇总今天评论最多的 5 条内容,给我一个摘要。

表单自动填写

打开内网工单系统,帮我填写今天的日报,内容是:完成了用户登录模块的单元测试。

注意事项

多模态模型要求

页面截图识别功能需要支持视觉能力的模型,如 Claude 4.5、GPT-4o 等。使用纯文本模型时,AI 只能通过 DOM 结构理解页面,无法识别图片内容。

该功能仍在持续完善中

AI 浏览器在复杂交互场景下可能出现不稳定情况。遇到问题请在 GitHub Issues 反馈。