Skip to content

第六章:让 AI 帮你操作网页——AI 浏览器

在前面几章里,你学会了和 AI 对话、让 AI 发邮件、让数字人自动运行。但 AI 的能力还有一个「杀手锏」:它能直接操作网页——打开网站、点击按钮、填写表单、翻阅页面,就像你亲自在操作电脑上的浏览器一样,只不过动手的是 AI。

想象一下这样的场景:你跟 AI 说「帮我去公司内部系统查一下本月的报销进度」,AI 就会自动打开浏览器、登录系统、找到对应页面、读取信息,然后把结果告诉你。这就是 AI 浏览器的功能。


6.1 AI 浏览器是什么

AI 浏览器,顾名思义,就是一个「AI 能控制的浏览器」。

用生活中的例子来理解:

  • 普通浏览器(Chrome、Edge):你自己打字、点击、翻页——所有操作都得自己动手
  • AI 浏览器:你只需要告诉 AI「我要做什么」,AI 代替你动手——打开页面、点击按钮、填写表格、截图阅读

就像你有一个坐在电脑前的助手,你口头说「帮我查一下那个网站上的信息」,助手就会自己操作鼠标键盘帮你完成。

本手册后面说到「AI 浏览器」,就是指这个让 AI 操作网页的功能。

⚠️ 注意:AI 浏览器是 Halo 桌面客户端(安装在你电脑上的软件)独有的功能。如果你通过手机或其他设备远程访问 Halo,这个功能不可用。


6.2 在哪里开启 AI 浏览器

AI 浏览器的开关在聊天界面的输入框下方。让我们一步步找到它。

第一步:进入聊天界面

按照第四章的方法,进入任意一个空间的聊天界面。你会看到屏幕下方有一个输入框,这是你跟 AI 对话的地方。

第二步:找到输入框下方的工具栏

在输入框的下方,有一排小按钮组成的工具栏。从左到右依次是:

┌─────────────────────────────────────────────────────────────┐
│  在这里输入消息...                                            │
│                                                             │
│ [+]              [🌐 Web Control] [⚛ Deep Thinking]  [发送] │
└─────────────────────────────────────────────────────────────┘
  ↑                      ↑                ↑
  附件按钮            AI 浏览器开关    深度思考开关

在工具栏中间偏右的位置,找到一个带有 地球图标 🌐 和文字 「Web Control」 的按钮。

第三步:点击开启

把鼠标移到「Web Control」按钮上,按下鼠标左键单击一次。

  • 开启状态:按钮变成蓝色(高亮),按钮右上角出现一个小蓝点。这表示 AI 浏览器已经开启
  • 关闭状态:按钮是灰色的,没有小蓝点。这表示 AI 浏览器已经关闭
 关闭状态:     [🌐 Web Control]     ← 灰色,无标记
 开启状态:     [🌐 Web Control]•    ← 蓝色高亮,右上角有小蓝点

💡 提示:AI 浏览器默认是开启的——也就是说,你第一次使用 Halo 时,这个按钮通常已经是蓝色的了。如果你不需要 AI 操作网页,可以点击关闭它。

做完后你会看到什么:按钮颜色在蓝色和灰色之间切换,确认开关状态已改变。开启时,AI 在对话过程中会自动判断是否需要打开浏览器——你不需要每次手动告诉它「请使用浏览器」。


6.3 让 AI 帮你做第一个网页任务

开启 AI 浏览器后,你只需要在聊天框里用普通话告诉 AI 你想做什么,AI 会自动判断是否需要打开浏览器。

示例:让 AI 搜索信息

在输入框里输入以下内容,然后按发送:

帮我去百度搜索"2026年银行间市场利率走势",把搜索结果前五条的标题和链接整理给我。

发送后,你会看到 AI 的回复区域出现一个特殊的卡片——这就是 浏览器操作卡片


6.4 认识浏览器操作卡片

当 AI 开始操作网页时,聊天界面会出现一个特殊的卡片,让你实时看到 AI 在做什么。

┌─────────────────────────────────────────────────┐
│  🌐 AI 正在操作浏览器                  3/5 步   │
├─────────────────────────────────────────────────┤
│  ✓ 导航    https://www.baidu.com                │
│  ✓ 填写    "2026年银行间市场利率走势"             │
│  ◎ 点击    元素 search-button                   │
│  ○ 截图    可见区域                              │
│  ○ 分析页面  获取页面结构                         │
├─────────────────────────────────────────────────┤
│  www.baidu.com              [👁 View live feed]  │
└─────────────────────────────────────────────────┘

卡片各部分含义:

顶部标题栏

  • 左侧:🌐 地球图标 + 绿色小圆点(表示正在运行),文字显示「AI is operating the browser」(AI 正在操作浏览器)
  • 右侧:步骤计数,比如「3/5 steps」表示 5 个步骤已完成 3 个

中间步骤列表

每一行代表 AI 的一个操作步骤,每行开头的符号表示状态:

  • ✓(绿色对勾):这一步已完成
  • ◎(蓝色转圈):这一步正在执行
  • ○(灰色圆点):这一步还在等待

常见的操作类型:

操作名称含义图标
Navigate(导航)打开一个网址🧭 导航箭头
Click(点击)在页面上点击某个按钮或链接🖱 鼠标指针
Fill(填写)在输入框里填入文字⌨️ 键盘
Screenshot(截图)对页面截屏以便 AI 阅读内容📷 相机
Analyze page(分析页面)获取页面结构信息👁 眼睛
Scroll(滚动)上下滚动页面📜 滚动条
Type(打字)逐字输入文字⌨️ 键盘
Press key(按键)按下键盘上的某个键(如回车)⌨️ 键盘
Select(选择)从下拉菜单中选择一项📋 列表
Hover(悬停)把鼠标移到某个元素上🖱 鼠标指针

底部操作栏

  • 左侧显示当前操作的网站域名(如 www.baidu.com)
  • 右侧有一个 「View live feed」(查看实时画面)按钮——点击这个按钮可以看到 AI 正在操作的浏览器画面(下一节详细说明)

💡 提示:如果步骤太多(超过 3 个),卡片右上角会出现 「Expand」(展开)/ 「Collapse」(收起)按钮,你可以点击查看或隐藏全部步骤。


6.5 实时观看 AI 操作——View Live Feed

这是 AI 浏览器最有趣的功能之一:你可以实时看到 AI 在浏览器上做了什么,就像在看直播一样。

第一步:找到「View live feed」按钮

在浏览器操作卡片的右下角,有一个蓝色按钮,上面写着 「View live feed」(查看实时画面),旁边有一个眼睛图标 👁。

第二步:点击按钮

把鼠标移到「View live feed」按钮上,按下鼠标左键单击一次。

做完后你会看到什么:屏幕右侧会弹出一个新的面板,这个面板叫做 「画布」(Canvas)。画布里嵌入了一个完整的浏览器窗口,你可以看到 AI 正在操作的网页。

┌───────────────────┬────────────────────────────┐
│                   │  ← → ↻ 🏠  [www.baidu.com] │
│   聊天对话区域      │                            │
│                   │     AI 正在操作的           │
│  ┌──────────────┐ │     网页画面                │
│  │ 浏览器操作卡片 │ │                            │
│  └──────────────┘ │                            │
│                   │                            │
│  ┌──────────────┐ │                            │
│  │ 输入框        │ │                            │
│  └──────────────┘ │                            │
└───────────────────┴────────────────────────────┘
       左侧:聊天                右侧:浏览器画布

画布顶部的浏览器工具栏

画布顶部有一排控制按钮,从左到右依次是:

按钮图标作用
后退← 左箭头回到上一个页面(像浏览器的后退键)
前进→ 右箭头回到下一个页面
刷新/停止↻ 旋转箭头 / ✕ 叉号刷新页面 / 页面加载中时变成停止按钮
首页🏠 房子回到浏览器首页(默认是 Bing 搜索)
地址栏输入框显示当前网址,你也可以在这里输入新网址或搜索内容
设备模式🖥 显示器 / 📱 手机在电脑版和手机版页面之间切换
在外部打开↗ 外链图标用你电脑上的默认浏览器(如 Chrome)打开当前网页
更多选项⋮ 三个点菜单:截图、缩放、开发者工具

AI 操作指示条

如果 AI 当前正在操作这个浏览器,页面最顶部会出现一条蓝色提示条:

┌─────────────────────────────────────────────────┐
│  🤖  AI is operating this browser     ● Live    │
├─────────────────────────────────────────────────┤
│  ← → ↻ 🏠  [.......地址栏.......]  🖥 ↗ ⋮     │
├─────────────────────────────────────────────────┤
│                                                 │
│            网页内容显示区域                        │
│                                                 │
└─────────────────────────────────────────────────┘
  • 左侧:🤖 机器人图标 + 绿色小圆点 + 文字「AI is operating this browser」
  • 右侧:绿色圆点 + 「Live」,表示正在实时操作中

💡 提示:即使 AI 正在操作浏览器,你也可以在画布里自己操作——直接在地址栏输入网址、点击页面上的链接等。AI 和你的操作互不冲突。


6.6 你可以跟 AI 一起操作

AI 浏览器支持人机协作——AI 在操作的同时,你也可以随时接管或辅助。

你能做的事情:

  1. 在地址栏输入网址:把鼠标移到画布顶部的地址栏,点击一下,输入你想去的网址,按回车键
  2. 点击页面上的链接或按钮:直接在画布里的网页上操作,和普通浏览器一样
  3. 帮 AI 完成它做不了的步骤:比如 AI 遇到验证码(那种让你选图片的安全验证),你可以自己完成验证,然后告诉 AI「验证码我已经通过了,请继续」
  4. 切换设备模式:如果某个网站只有手机版好用,点击工具栏上的 显示器/手机 切换图标即可

切换设备模式的详细操作:

在浏览器工具栏右侧,找到一个看起来像 电脑显示器 🖥 的图标。

  • 点击一次:切换到手机模式(图标变成 📱 手机形状,页面变窄,模拟手机屏幕)
  • 再点击一次:切回电脑模式(图标变回 🖥 显示器形状,页面恢复正常宽度)

💡 提示:手机模式对于一些移动端优先的网站(如微信公众号文章链接)特别有用。


6.7 AI 浏览器能做什么——实用场景

以下是金融行业工作中 AI 浏览器可以帮你做的事情。你只需要在聊天框里用日常语言描述你的需求即可。

场景一:信息搜索和汇总

帮我打开中国人民银行官网,查看今天发布的最新公告,整理成表格给我,包含公告标题、发布日期和简要内容。

AI 会自动打开网站、浏览页面、提取信息,然后在聊天里回复你一个整理好的表格。

场景二:填写网页表单

打开公司内部的考勤系统(网址是 hr.company.com),帮我填写今天的加班申请,
加班时间是 18:00-21:00,加班事由是"季度报告数据核对"。

AI 会打开网页、找到表单、逐个填写字段。但通常 AI 不会自动提交——它会在填完后停下来,让你检查确认。

场景三:网页数据采集

打开上海证券交易所公告页面,找到最近 5 条关于"可转债"的公告,
把公告标题、发布时间和简介整理成表格。

场景四:竞品和市场调研

帮我搜索最近一周关于"数字人民币"的新闻报道,从至少 3 个不同的新闻网站(如新浪财经、21世纪经济报道、金融时报)采集,
每条新闻给我标题、来源、日期和核心要点。

场景五:辅助网页操作

打开 Hacker News(news.ycombinator.com),找到今天讨论最多的 5 篇文章,
给我每篇的标题、链接、评论数和一句话摘要。

⚠️ 注意:AI 操作网页时可能会遇到以下限制:

  • 需要登录的网站:AI 无法帮你输入密码登录。你需要先自己在画布中登录,然后让 AI 继续操作
  • 验证码:图片验证码、滑块验证等安全验证需要你自己完成
  • 非常复杂的交互:某些使用大量 JavaScript 动态加载的复杂页面,AI 可能无法正确识别所有元素

6.8 关于 AI 模型的要求

AI 浏览器有两种「看网页」的方式:

  1. 截图识别:AI 对页面截一张图,然后「看」这张图来理解页面内容(就像你看到网页截图一样)
  2. 结构分析:AI 读取页面的代码结构(DOM),通过分析代码来理解页面

关键区别:截图识别需要 AI 具有「看图」的能力,叫做 多模态(multi-modal)。并不是所有 AI 模型都有这个能力。

AI 模型能看截图吗效果
Claude Sonnet 4 及以上✓ 能能看截图 + 分析结构,效果最好
GPT-4o✓ 能能看截图 + 分析结构,效果好
不支持图片的模型✗ 不能只能分析结构,无法理解图片内容

如果你使用的模型不支持看图,AI 浏览器仍然可以工作——只是它「看」网页的方式从「看截图」变成了「看代码」,在某些复杂页面上可能不太准确。

💡 提示:如何知道你的模型是否支持看图?回到第四章 4.3 节,选择模型时优先选择标注了「多模态」或「Vision」的模型。如果不确定,直接用就行——AI 会自动选择它能用的方式。


6.9 给数字人开启 AI 浏览器

除了在聊天界面手动使用 AI 浏览器,你还可以让数字人(第二章)自动使用浏览器完成定时任务。

使用场景:比如让数字人每天早上 9 点自动去某个网站采集数据、生成报告。

第一步:打开数字人的设置页面

按第二章 2.6 节的方法,找到你要设置的数字人,点击进入后切换到 Settings(设置)标签页。

第二步:找到 AI Browser 开关

在设置页面中往下翻,找到 「AI Browser」 这一项。它的样子是:

┌─────────────────────────────────────────────────┐
│  🌐 AI Browser                           [开关] │
│  Enable browser tools for web automation         │
│  (启用浏览器工具,用于网页自动化)                  │
└─────────────────────────────────────────────────┘
  • 左侧:🌐 地球图标 + 文字「AI Browser」 + 说明文字
  • 右侧:一个开关按钮

第三步:打开开关

把鼠标移到右侧的开关按钮上,按下鼠标左键单击一次。开关变成蓝色(开启状态)。

做完后你会看到什么:开关从灰色变成蓝色,表示这个数字人现在可以使用浏览器了。

⚠️ 注意:如果某个数字人的应用本身要求使用 AI 浏览器(由应用开发者设定),但你把这个开关关了,下方会出现一条黄色警告

⚠ This app may require AI Browser to work properly (这个应用可能需要 AI 浏览器才能正常工作)

看到这条警告,建议你把开关打开。


6.10 需要登录的网站——Browser Login

有些数字人需要操作需要登录的网站(比如公司内部系统、特定的网络服务)。由于 AI 无法替你输入密码,Halo 提供了一个解决方案:Browser Login(浏览器登录)。

原理:你先在 Halo 内置的浏览器里登录一次,Halo 会记住登录状态(Cookie),之后数字人操作这个网站时就不需要再次登录了。

在数字人设置页面里,如果应用需要登录某些网站,你会看到一个 「Required Logins」(需要登录的网站)区域:

┌─────────────────────────────────────────────────┐
│  Required Logins                                 │
│  ┌─────────────────────────────────────────────┐ │
│  │ 🌐 公司内部系统                          ↗  │ │
│  └─────────────────────────────────────────────┘ │
│  ┌─────────────────────────────────────────────┐ │
│  │ 🌐 客户管理平台                          ↗  │ │
│  └─────────────────────────────────────────────┘ │
│  Click to open the website and log in via        │
│  the Halo browser.                               │
└─────────────────────────────────────────────────┘

操作方法:

  1. 点击某个网站条目(比如「公司内部系统」),Halo 会打开一个浏览器窗口
  2. 在这个浏览器窗口里,像平常一样输入用户名和密码,完成登录
  3. 登录成功后关闭窗口

之后数字人在自动运行时,就可以访问这个已登录的网站了。

⚠️ 注意:登录状态可能会过期(就像你长时间不用某个网站会被自动退出一样)。如果数字人在运行时报告无法访问某个网站,回到这里重新登录一次即可。


6.11 AI 浏览器的地址栏

画布中的浏览器地址栏不仅能输入网址,还能当作搜索框使用。

输入网址:直接输入完整网址(如 www.baidu.com),按回车键,浏览器会打开该网站。地址栏左侧会显示一个 🔒 锁图标(表示 HTTPS 安全连接)或 🔓 开锁图标(表示 HTTP 非加密连接)。

搜索内容:在地址栏里输入任意文字(如「央行利率」),按回车键,浏览器会自动用 Bing 搜索引擎搜索这些文字。地址栏左侧会变成一个 🔍 搜索图标,提示你这是一次搜索而非直接访问网址。

 输入网址时:  🔒 https://www.baidu.com
 输入搜索时:  🔍 央行利率
 空白时:      🌐 Enter URL or search Bing...

💡 提示:你不需要输入 https://,直接输入 baidu.com 就行,Halo 会自动补全。


6.12 更多选项菜单

在浏览器工具栏最右侧,有一个 三个点 ⋮ 的按钮。点击后会弹出一个菜单,提供以下功能:

  • 截图(Screenshot):对当前网页截图并保存
  • 缩放(Zoom):放大或缩小网页显示比例,适合看小字或查看全貌
  • 开发者工具(Developer Tools):技术人员调试用,普通用户不需要使用

6.13 页面被限制访问

在某些情况下,你可能会看到浏览器画面显示一个 「Access Restricted」(访问受限)页面,中间有一个红色的锁图标。

┌─────────────────────────────────────────────────┐
│                                                 │
│                   🔒                            │
│            Access Restricted                    │
│                                                 │
│    This page has been blocked by policy.         │
│    (此页面已被策略阻止)                          │
│                                                 │
└─────────────────────────────────────────────────┘

这说明你的组织或 Halo 管理员设置了浏览器策略,禁止访问某些网站。这通常是出于安全考虑。如果你需要访问被阻止的网站,请联系你的 IT 管理员。


常见问题

Q1:我在聊天里让 AI 去看一个网页,但 AI 说它没有浏览器功能,怎么回事?

检查输入框下方的 「Web Control」 按钮是否是蓝色(开启状态)。如果是灰色的,点击一下开启它,然后重新发送消息。

Q2:AI 操作网页的过程中卡住了,怎么办?

你可以在聊天框里输入补充说明帮助 AI 继续。比如:

页面已经加载好了,请继续查看搜索结果。

如果 AI 实在无法继续,你可以自己在画布里手动操作,然后告诉 AI 你做了什么。

Q3:AI 能帮我登录网站吗?

出于安全考虑,不建议把密码告诉 AI。正确做法是:

  1. 先在画布的浏览器里自己登录
  2. 登录成功后,告诉 AI「我已经登录了,请继续操作」

对于数字人,使用 6.10 节介绍的 Browser Login 功能提前登录。

Q4:AI 浏览器和我电脑上的 Chrome/Edge 是同一个东西吗?

不是同一个东西,但技术上非常接近。Halo 的 AI 浏览器基于 Chromium(Chrome 的开源基础),所以网页的显示效果和你在 Chrome 里看到的几乎一样。区别在于 AI 浏览器运行在 Halo 内部,AI 可以控制它。

Q5:AI 操作浏览器时,我的网站登录信息安全吗?

AI 浏览器运行在你自己的电脑上,Cookie 和登录信息存储在本地,不会上传到云端。但 AI 在操作过程中可能会「看到」页面上显示的信息(因为它需要截图或分析页面内容来完成任务),所以:

  • 不要让 AI 操作包含高度敏感信息(如银行转账确认页面)的网页
  • 对于敏感操作,建议你自己在画布中手动完成关键步骤

Q6:数字人的 AI Browser 开关和聊天界面的 Web Control 有什么关系?

它们是两个独立的开关,分别控制不同场景:

  • Web Control(聊天界面):控制你在聊天对话中是否允许 AI 使用浏览器
  • AI Browser(数字人设置):控制某个数字人在自动运行时是否可以使用浏览器

两个开关互不影响。你可以开着聊天的 Web Control,同时关闭某个数字人的 AI Browser,或者反过来。

Q7:我想让数字人自动帮我每天签到一个网站,可以吗?

可以,步骤如下:

  1. 按第二章创建一个数字人,在 System Prompt 里写清楚签到网站的网址和操作步骤
  2. 按 6.9 节开启该数字人的 AI Browser 开关
  3. 如果网站需要登录,按 6.10 节完成 Browser Login
  4. 设置运行计划(如每天早上 9:00 运行一次)
  5. 注意:登录状态可能过期,需要定期检查

Q8:操作卡片上的步骤全都显示红色叉号,说明什么?

红色叉号 ✗ 表示这一步执行失败了。常见原因:

  • 网页加载超时(网络慢或网站无响应)
  • 页面结构发生了变化(AI 找不到要点击的按钮)
  • 网站返回了错误页面

你可以在聊天框里告诉 AI 出了什么问题,让它重试或换一种方式操作。