第六章:让 AI 帮你操作网页——AI 浏览器
在前面几章里,你学会了和 AI 对话、让 AI 发邮件、让数字人自动运行。但 AI 的能力还有一个「杀手锏」:它能直接操作网页——打开网站、点击按钮、填写表单、翻阅页面,就像你亲自在操作电脑上的浏览器一样,只不过动手的是 AI。
想象一下这样的场景:你跟 AI 说「帮我去公司内部系统查一下本月的报销进度」,AI 就会自动打开浏览器、登录系统、找到对应页面、读取信息,然后把结果告诉你。这就是 AI 浏览器的功能。
6.1 AI 浏览器是什么
AI 浏览器,顾名思义,就是一个「AI 能控制的浏览器」。
用生活中的例子来理解:
- 普通浏览器(Chrome、Edge):你自己打字、点击、翻页——所有操作都得自己动手
- AI 浏览器:你只需要告诉 AI「我要做什么」,AI 代替你动手——打开页面、点击按钮、填写表格、截图阅读
就像你有一个坐在电脑前的助手,你口头说「帮我查一下那个网站上的信息」,助手就会自己操作鼠标键盘帮你完成。
本手册后面说到「AI 浏览器」,就是指这个让 AI 操作网页的功能。
⚠️ 注意:AI 浏览器是 Halo 桌面客户端(安装在你电脑上的软件)独有的功能。如果你通过手机或其他设备远程访问 Halo,这个功能不可用。
6.2 在哪里开启 AI 浏览器
AI 浏览器的开关在聊天界面的输入框下方。让我们一步步找到它。
第一步:进入聊天界面
按照第四章的方法,进入任意一个空间的聊天界面。你会看到屏幕下方有一个输入框,这是你跟 AI 对话的地方。
第二步:找到输入框下方的工具栏
在输入框的下方,有一排小按钮组成的工具栏。从左到右依次是:
┌─────────────────────────────────────────────────────────────┐
│ 在这里输入消息... │
│ │
│ [+] [🌐 Web Control] [⚛ Deep Thinking] [发送] │
└─────────────────────────────────────────────────────────────┘
↑ ↑ ↑
附件按钮 AI 浏览器开关 深度思考开关在工具栏中间偏右的位置,找到一个带有 地球图标 🌐 和文字 「Web Control」 的按钮。
第三步:点击开启
把鼠标移到「Web Control」按钮上,按下鼠标左键单击一次。
- 开启状态:按钮变成蓝色(高亮),按钮右上角出现一个小蓝点。这表示 AI 浏览器已经开启
- 关闭状态:按钮是灰色的,没有小蓝点。这表示 AI 浏览器已经关闭
关闭状态: [🌐 Web Control] ← 灰色,无标记
开启状态: [🌐 Web Control]• ← 蓝色高亮,右上角有小蓝点💡 提示:AI 浏览器默认是开启的——也就是说,你第一次使用 Halo 时,这个按钮通常已经是蓝色的了。如果你不需要 AI 操作网页,可以点击关闭它。
做完后你会看到什么:按钮颜色在蓝色和灰色之间切换,确认开关状态已改变。开启时,AI 在对话过程中会自动判断是否需要打开浏览器——你不需要每次手动告诉它「请使用浏览器」。
6.3 让 AI 帮你做第一个网页任务
开启 AI 浏览器后,你只需要在聊天框里用普通话告诉 AI 你想做什么,AI 会自动判断是否需要打开浏览器。
示例:让 AI 搜索信息
在输入框里输入以下内容,然后按发送:
帮我去百度搜索"2026年银行间市场利率走势",把搜索结果前五条的标题和链接整理给我。发送后,你会看到 AI 的回复区域出现一个特殊的卡片——这就是 浏览器操作卡片。
6.4 认识浏览器操作卡片
当 AI 开始操作网页时,聊天界面会出现一个特殊的卡片,让你实时看到 AI 在做什么。
┌─────────────────────────────────────────────────┐
│ 🌐 AI 正在操作浏览器 3/5 步 │
├─────────────────────────────────────────────────┤
│ ✓ 导航 https://www.baidu.com │
│ ✓ 填写 "2026年银行间市场利率走势" │
│ ◎ 点击 元素 search-button │
│ ○ 截图 可见区域 │
│ ○ 分析页面 获取页面结构 │
├─────────────────────────────────────────────────┤
│ www.baidu.com [👁 View live feed] │
└─────────────────────────────────────────────────┘卡片各部分含义:
顶部标题栏
- 左侧:🌐 地球图标 + 绿色小圆点(表示正在运行),文字显示「AI is operating the browser」(AI 正在操作浏览器)
- 右侧:步骤计数,比如「3/5 steps」表示 5 个步骤已完成 3 个
中间步骤列表
每一行代表 AI 的一个操作步骤,每行开头的符号表示状态:
- ✓(绿色对勾):这一步已完成
- ◎(蓝色转圈):这一步正在执行
- ○(灰色圆点):这一步还在等待
常见的操作类型:
| 操作名称 | 含义 | 图标 |
|---|---|---|
| Navigate(导航) | 打开一个网址 | 🧭 导航箭头 |
| Click(点击) | 在页面上点击某个按钮或链接 | 🖱 鼠标指针 |
| Fill(填写) | 在输入框里填入文字 | ⌨️ 键盘 |
| Screenshot(截图) | 对页面截屏以便 AI 阅读内容 | 📷 相机 |
| Analyze page(分析页面) | 获取页面结构信息 | 👁 眼睛 |
| Scroll(滚动) | 上下滚动页面 | 📜 滚动条 |
| Type(打字) | 逐字输入文字 | ⌨️ 键盘 |
| Press key(按键) | 按下键盘上的某个键(如回车) | ⌨️ 键盘 |
| Select(选择) | 从下拉菜单中选择一项 | 📋 列表 |
| Hover(悬停) | 把鼠标移到某个元素上 | 🖱 鼠标指针 |
底部操作栏
- 左侧显示当前操作的网站域名(如 www.baidu.com)
- 右侧有一个 「View live feed」(查看实时画面)按钮——点击这个按钮可以看到 AI 正在操作的浏览器画面(下一节详细说明)
💡 提示:如果步骤太多(超过 3 个),卡片右上角会出现 「Expand」(展开)/ 「Collapse」(收起)按钮,你可以点击查看或隐藏全部步骤。
6.5 实时观看 AI 操作——View Live Feed
这是 AI 浏览器最有趣的功能之一:你可以实时看到 AI 在浏览器上做了什么,就像在看直播一样。
第一步:找到「View live feed」按钮
在浏览器操作卡片的右下角,有一个蓝色按钮,上面写着 「View live feed」(查看实时画面),旁边有一个眼睛图标 👁。
第二步:点击按钮
把鼠标移到「View live feed」按钮上,按下鼠标左键单击一次。
做完后你会看到什么:屏幕右侧会弹出一个新的面板,这个面板叫做 「画布」(Canvas)。画布里嵌入了一个完整的浏览器窗口,你可以看到 AI 正在操作的网页。
┌───────────────────┬────────────────────────────┐
│ │ ← → ↻ 🏠 [www.baidu.com] │
│ 聊天对话区域 │ │
│ │ AI 正在操作的 │
│ ┌──────────────┐ │ 网页画面 │
│ │ 浏览器操作卡片 │ │ │
│ └──────────────┘ │ │
│ │ │
│ ┌──────────────┐ │ │
│ │ 输入框 │ │ │
│ └──────────────┘ │ │
└───────────────────┴────────────────────────────┘
左侧:聊天 右侧:浏览器画布画布顶部的浏览器工具栏
画布顶部有一排控制按钮,从左到右依次是:
| 按钮 | 图标 | 作用 |
|---|---|---|
| 后退 | ← 左箭头 | 回到上一个页面(像浏览器的后退键) |
| 前进 | → 右箭头 | 回到下一个页面 |
| 刷新/停止 | ↻ 旋转箭头 / ✕ 叉号 | 刷新页面 / 页面加载中时变成停止按钮 |
| 首页 | 🏠 房子 | 回到浏览器首页(默认是 Bing 搜索) |
| 地址栏 | 输入框 | 显示当前网址,你也可以在这里输入新网址或搜索内容 |
| 设备模式 | 🖥 显示器 / 📱 手机 | 在电脑版和手机版页面之间切换 |
| 在外部打开 | ↗ 外链图标 | 用你电脑上的默认浏览器(如 Chrome)打开当前网页 |
| 更多选项 | ⋮ 三个点 | 菜单:截图、缩放、开发者工具 |
AI 操作指示条
如果 AI 当前正在操作这个浏览器,页面最顶部会出现一条蓝色提示条:
┌─────────────────────────────────────────────────┐
│ 🤖 AI is operating this browser ● Live │
├─────────────────────────────────────────────────┤
│ ← → ↻ 🏠 [.......地址栏.......] 🖥 ↗ ⋮ │
├─────────────────────────────────────────────────┤
│ │
│ 网页内容显示区域 │
│ │
└─────────────────────────────────────────────────┘- 左侧:🤖 机器人图标 + 绿色小圆点 + 文字「AI is operating this browser」
- 右侧:绿色圆点 + 「Live」,表示正在实时操作中
💡 提示:即使 AI 正在操作浏览器,你也可以在画布里自己操作——直接在地址栏输入网址、点击页面上的链接等。AI 和你的操作互不冲突。
6.6 你可以跟 AI 一起操作
AI 浏览器支持人机协作——AI 在操作的同时,你也可以随时接管或辅助。
你能做的事情:
- 在地址栏输入网址:把鼠标移到画布顶部的地址栏,点击一下,输入你想去的网址,按回车键
- 点击页面上的链接或按钮:直接在画布里的网页上操作,和普通浏览器一样
- 帮 AI 完成它做不了的步骤:比如 AI 遇到验证码(那种让你选图片的安全验证),你可以自己完成验证,然后告诉 AI「验证码我已经通过了,请继续」
- 切换设备模式:如果某个网站只有手机版好用,点击工具栏上的 显示器/手机 切换图标即可
切换设备模式的详细操作:
在浏览器工具栏右侧,找到一个看起来像 电脑显示器 🖥 的图标。
- 点击一次:切换到手机模式(图标变成 📱 手机形状,页面变窄,模拟手机屏幕)
- 再点击一次:切回电脑模式(图标变回 🖥 显示器形状,页面恢复正常宽度)
💡 提示:手机模式对于一些移动端优先的网站(如微信公众号文章链接)特别有用。
6.7 AI 浏览器能做什么——实用场景
以下是金融行业工作中 AI 浏览器可以帮你做的事情。你只需要在聊天框里用日常语言描述你的需求即可。
场景一:信息搜索和汇总
帮我打开中国人民银行官网,查看今天发布的最新公告,整理成表格给我,包含公告标题、发布日期和简要内容。AI 会自动打开网站、浏览页面、提取信息,然后在聊天里回复你一个整理好的表格。
场景二:填写网页表单
打开公司内部的考勤系统(网址是 hr.company.com),帮我填写今天的加班申请,
加班时间是 18:00-21:00,加班事由是"季度报告数据核对"。AI 会打开网页、找到表单、逐个填写字段。但通常 AI 不会自动提交——它会在填完后停下来,让你检查确认。
场景三:网页数据采集
打开上海证券交易所公告页面,找到最近 5 条关于"可转债"的公告,
把公告标题、发布时间和简介整理成表格。场景四:竞品和市场调研
帮我搜索最近一周关于"数字人民币"的新闻报道,从至少 3 个不同的新闻网站(如新浪财经、21世纪经济报道、金融时报)采集,
每条新闻给我标题、来源、日期和核心要点。场景五:辅助网页操作
打开 Hacker News(news.ycombinator.com),找到今天讨论最多的 5 篇文章,
给我每篇的标题、链接、评论数和一句话摘要。⚠️ 注意:AI 操作网页时可能会遇到以下限制:
- 需要登录的网站:AI 无法帮你输入密码登录。你需要先自己在画布中登录,然后让 AI 继续操作
- 验证码:图片验证码、滑块验证等安全验证需要你自己完成
- 非常复杂的交互:某些使用大量 JavaScript 动态加载的复杂页面,AI 可能无法正确识别所有元素
6.8 关于 AI 模型的要求
AI 浏览器有两种「看网页」的方式:
- 截图识别:AI 对页面截一张图,然后「看」这张图来理解页面内容(就像你看到网页截图一样)
- 结构分析:AI 读取页面的代码结构(DOM),通过分析代码来理解页面
关键区别:截图识别需要 AI 具有「看图」的能力,叫做 多模态(multi-modal)。并不是所有 AI 模型都有这个能力。
| AI 模型 | 能看截图吗 | 效果 |
|---|---|---|
| Claude Sonnet 4 及以上 | ✓ 能 | 能看截图 + 分析结构,效果最好 |
| GPT-4o | ✓ 能 | 能看截图 + 分析结构,效果好 |
| 不支持图片的模型 | ✗ 不能 | 只能分析结构,无法理解图片内容 |
如果你使用的模型不支持看图,AI 浏览器仍然可以工作——只是它「看」网页的方式从「看截图」变成了「看代码」,在某些复杂页面上可能不太准确。
💡 提示:如何知道你的模型是否支持看图?回到第四章 4.3 节,选择模型时优先选择标注了「多模态」或「Vision」的模型。如果不确定,直接用就行——AI 会自动选择它能用的方式。
6.9 给数字人开启 AI 浏览器
除了在聊天界面手动使用 AI 浏览器,你还可以让数字人(第二章)自动使用浏览器完成定时任务。
使用场景:比如让数字人每天早上 9 点自动去某个网站采集数据、生成报告。
第一步:打开数字人的设置页面
按第二章 2.6 节的方法,找到你要设置的数字人,点击进入后切换到 Settings(设置)标签页。
第二步:找到 AI Browser 开关
在设置页面中往下翻,找到 「AI Browser」 这一项。它的样子是:
┌─────────────────────────────────────────────────┐
│ 🌐 AI Browser [开关] │
│ Enable browser tools for web automation │
│ (启用浏览器工具,用于网页自动化) │
└─────────────────────────────────────────────────┘- 左侧:🌐 地球图标 + 文字「AI Browser」 + 说明文字
- 右侧:一个开关按钮
第三步:打开开关
把鼠标移到右侧的开关按钮上,按下鼠标左键单击一次。开关变成蓝色(开启状态)。
做完后你会看到什么:开关从灰色变成蓝色,表示这个数字人现在可以使用浏览器了。
⚠️ 注意:如果某个数字人的应用本身要求使用 AI 浏览器(由应用开发者设定),但你把这个开关关了,下方会出现一条黄色警告:
⚠ This app may require AI Browser to work properly (这个应用可能需要 AI 浏览器才能正常工作)
看到这条警告,建议你把开关打开。
6.10 需要登录的网站——Browser Login
有些数字人需要操作需要登录的网站(比如公司内部系统、特定的网络服务)。由于 AI 无法替你输入密码,Halo 提供了一个解决方案:Browser Login(浏览器登录)。
原理:你先在 Halo 内置的浏览器里登录一次,Halo 会记住登录状态(Cookie),之后数字人操作这个网站时就不需要再次登录了。
在数字人设置页面里,如果应用需要登录某些网站,你会看到一个 「Required Logins」(需要登录的网站)区域:
┌─────────────────────────────────────────────────┐
│ Required Logins │
│ ┌─────────────────────────────────────────────┐ │
│ │ 🌐 公司内部系统 ↗ │ │
│ └─────────────────────────────────────────────┘ │
│ ┌─────────────────────────────────────────────┐ │
│ │ 🌐 客户管理平台 ↗ │ │
│ └─────────────────────────────────────────────┘ │
│ Click to open the website and log in via │
│ the Halo browser. │
└─────────────────────────────────────────────────┘操作方法:
- 点击某个网站条目(比如「公司内部系统」),Halo 会打开一个浏览器窗口
- 在这个浏览器窗口里,像平常一样输入用户名和密码,完成登录
- 登录成功后关闭窗口
之后数字人在自动运行时,就可以访问这个已登录的网站了。
⚠️ 注意:登录状态可能会过期(就像你长时间不用某个网站会被自动退出一样)。如果数字人在运行时报告无法访问某个网站,回到这里重新登录一次即可。
6.11 AI 浏览器的地址栏
画布中的浏览器地址栏不仅能输入网址,还能当作搜索框使用。
输入网址:直接输入完整网址(如 www.baidu.com),按回车键,浏览器会打开该网站。地址栏左侧会显示一个 🔒 锁图标(表示 HTTPS 安全连接)或 🔓 开锁图标(表示 HTTP 非加密连接)。
搜索内容:在地址栏里输入任意文字(如「央行利率」),按回车键,浏览器会自动用 Bing 搜索引擎搜索这些文字。地址栏左侧会变成一个 🔍 搜索图标,提示你这是一次搜索而非直接访问网址。
输入网址时: 🔒 https://www.baidu.com
输入搜索时: 🔍 央行利率
空白时: 🌐 Enter URL or search Bing...💡 提示:你不需要输入
https://,直接输入baidu.com就行,Halo 会自动补全。
6.12 更多选项菜单
在浏览器工具栏最右侧,有一个 三个点 ⋮ 的按钮。点击后会弹出一个菜单,提供以下功能:
- 截图(Screenshot):对当前网页截图并保存
- 缩放(Zoom):放大或缩小网页显示比例,适合看小字或查看全貌
- 开发者工具(Developer Tools):技术人员调试用,普通用户不需要使用
6.13 页面被限制访问
在某些情况下,你可能会看到浏览器画面显示一个 「Access Restricted」(访问受限)页面,中间有一个红色的锁图标。
┌─────────────────────────────────────────────────┐
│ │
│ 🔒 │
│ Access Restricted │
│ │
│ This page has been blocked by policy. │
│ (此页面已被策略阻止) │
│ │
└─────────────────────────────────────────────────┘这说明你的组织或 Halo 管理员设置了浏览器策略,禁止访问某些网站。这通常是出于安全考虑。如果你需要访问被阻止的网站,请联系你的 IT 管理员。
常见问题
Q1:我在聊天里让 AI 去看一个网页,但 AI 说它没有浏览器功能,怎么回事?
检查输入框下方的 「Web Control」 按钮是否是蓝色(开启状态)。如果是灰色的,点击一下开启它,然后重新发送消息。
Q2:AI 操作网页的过程中卡住了,怎么办?
你可以在聊天框里输入补充说明帮助 AI 继续。比如:
页面已经加载好了,请继续查看搜索结果。如果 AI 实在无法继续,你可以自己在画布里手动操作,然后告诉 AI 你做了什么。
Q3:AI 能帮我登录网站吗?
出于安全考虑,不建议把密码告诉 AI。正确做法是:
- 先在画布的浏览器里自己登录
- 登录成功后,告诉 AI「我已经登录了,请继续操作」
对于数字人,使用 6.10 节介绍的 Browser Login 功能提前登录。
Q4:AI 浏览器和我电脑上的 Chrome/Edge 是同一个东西吗?
不是同一个东西,但技术上非常接近。Halo 的 AI 浏览器基于 Chromium(Chrome 的开源基础),所以网页的显示效果和你在 Chrome 里看到的几乎一样。区别在于 AI 浏览器运行在 Halo 内部,AI 可以控制它。
Q5:AI 操作浏览器时,我的网站登录信息安全吗?
AI 浏览器运行在你自己的电脑上,Cookie 和登录信息存储在本地,不会上传到云端。但 AI 在操作过程中可能会「看到」页面上显示的信息(因为它需要截图或分析页面内容来完成任务),所以:
- 不要让 AI 操作包含高度敏感信息(如银行转账确认页面)的网页
- 对于敏感操作,建议你自己在画布中手动完成关键步骤
Q6:数字人的 AI Browser 开关和聊天界面的 Web Control 有什么关系?
它们是两个独立的开关,分别控制不同场景:
- Web Control(聊天界面):控制你在聊天对话中是否允许 AI 使用浏览器
- AI Browser(数字人设置):控制某个数字人在自动运行时是否可以使用浏览器
两个开关互不影响。你可以开着聊天的 Web Control,同时关闭某个数字人的 AI Browser,或者反过来。
Q7:我想让数字人自动帮我每天签到一个网站,可以吗?
可以,步骤如下:
- 按第二章创建一个数字人,在 System Prompt 里写清楚签到网站的网址和操作步骤
- 按 6.9 节开启该数字人的 AI Browser 开关
- 如果网站需要登录,按 6.10 节完成 Browser Login
- 设置运行计划(如每天早上 9:00 运行一次)
- 注意:登录状态可能过期,需要定期检查
Q8:操作卡片上的步骤全都显示红色叉号,说明什么?
红色叉号 ✗ 表示这一步执行失败了。常见原因:
- 网页加载超时(网络慢或网站无响应)
- 页面结构发生了变化(AI 找不到要点击的按钮)
- 网站返回了错误页面
你可以在聊天框里告诉 AI 出了什么问题,让它重试或换一种方式操作。