通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  少尉

注册:2007-10-294
跳转到指定楼层
1#
发表于 2024-12-31 14:07:42 |只看该作者 |倒序浏览

对手机厂商来说,AI已经变得越来越重要。

2024年,大多数的手机厂商推出各类AI助手,可以实现一键问屏(手机直接识别屏幕内容)、圈搜(圈出图片中的部分内容并精准搜索)、AI回邮件、AI写会议纪要、AI便签、AI日程管理等功能。

其中, 用AI助手点咖啡是今年较为出圈的功能。

10月14日,荣耀CEO赵明在直播中对着手机中的智能语音助手说:“点三杯美式咖啡”,荣耀手机就自动完成了搜索、下单的操作。周鸿祎坐在一旁直呼:“这个太可怕了。”

同样在10月,vivo也推出了手机智能体“PhoneGPT”,他们向消费者展示的AI功能也是买咖啡。

在这些视频演示中,用户点咖啡一共只需要操作两步:第一是打开手机系统自带的助手,通过语音和文字下达指令;第二是付费下单(输入密码)。

中间的跳转App和下单的过程,并非是AI直接在后台操作。而是AI模拟人类操作手机的全部过程,并在屏幕上显示出每个操作步骤。



在11月,大模型明星创业公司智谱AI推出AutoGLM,智谱AI CEO张鹏现场用它发了一个总金额2w的红包,也是只有“下达指令”和“支付红包金额”两个步骤。

发红包和点咖啡一样,都是应用了“大模型视觉理解”的能力,通过识别并手机屏幕上显示的内容来完成操作,就好像模拟人类用户的“点按”操作,而非调用App的API。也就是说,AI完成这些动作并不需要获得第三方App的同意。

因此,AI甚至可以变成一个“虚拟数字用户”,人类用户能做什么,它就能做什么。

这似乎能带来无限的想象空间,但也引发了我们的好奇:

1、AI究竟是如何做到仅通过识别屏幕,就可以操作手机的?

2、如果在一个普通手机上装一个第三方的大模型App,是不是这个手机就秒变为AI手机?

3、如果AI调用App不需要获得App的同意,移动互联网生态将会发生什么改变?

1

2024年,科技大厂都在努力

让AI“看懂”屏幕

先来梳理一下现阶段用AI点咖啡和发红包的流程:

1、自然语言理解:用户通过语音或文字向手机助手发出指令;

2、读懂手机界面:手机智能体通过识别手机界面,模拟人类进行点按操作。

3、跨应用协调执行:手机智能体能够在不同应用之间跳转,以完成复杂的多步骤任务。

张鹏在介绍Auto GLM时曾说,“它的应用展现了大模型从对话(Chat)走向操作(Act),从生成式AI(GenAI)迈向代理式AI(Agentic AI)的演进趋势。”

这些操作的背后,具体应用了什么关键技术?

2023年12月,智谱AI曾发表过一篇论文,名为CogAgent: A Visual Language Model for GUI Agents(《CogAgent:GUI 代理的可视化语言模型》)。

这篇论文提出了CogAgent模型,这是一种专注于GUI理解和导航的180亿参数视觉语言模型。它希望解决的问题是如何让大型视觉语言模型(VLM)更好地理解和导航图形用户界面(GUI),从而提高自动化水平。

可以说,Auto GLM是基于这项研究的产品化体现,让手机、PC等端侧设备,通过视觉语言模型,读懂手机界面,实现多步骤的连续和跨App的操作。

2024年2月,阿里巴巴也曾发布过一篇主题为Mobile- Agent的论文。主要解决如何在移动设备上实现自主的多模态代理,能够通过视觉感知和语义理解完成复杂的操作任务,并自主完成多步任务,且可以跨越多个App。



图:举例Mobile Agent自主打开天气预报软件,并跨越App,完成天气分析报告的过程


国外科技巨头也发布过类似的研究成果。2024年4月,苹果发表了一篇论文Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs(《Ferret-UI: 基于多模态LLMs的移动UI理解模型》),其中介绍了名叫Ferret UI的模型。

Ferret UI其实是建立在苹果于2023年10月就已经发布的Ferret模型之上,这个模型仅有7B和13B两个大小,是一个多模态模型。

和动辄上千亿参数规模的主流多模态大模型相比,他们实在是太小了,但是他们的专长是识别图像具体区域和定位点,这项能力甚至超过了当时最强大的多模态大模型GPT-4V。



苹果 AI / ML 研究科学家 Zhe Gan,当时在X上发布了一条推文称,Ferret可以“在一个图像中的任何地方、任何粒度上引用和定位任何事物”,它还可以使用图像中任何形状的区域来实现这一点。



图:苹果 AI / ML 研究科学家 Zhe Gan的推文


通俗来讲,这意味着Ferret模型能够识别图像中指定区域的元素,并将其精确框选。

例如,如果用户在图像中圈出一个物体并询问其种类,Ferret不仅能够识别出该物种,还能理解用户所指的特定动物或植物。讲到这里,是不是立刻就能联想到今年各大手机厂商纷纷推出的“圈搜”功能。

用户可以通过圈选屏幕上的内容,快速获取相关信息,支持跨应用服务,方便用户直接跳转到所需的应用或功能,比如荣耀手机支持“一圈即搜”功能的YOYO智能体;vivo提供了“小V圈搜”功能;OPPO的“小布助手”也具备相似的圈选功能。



而Ferret UI模型,就是将Ferret模型的能力应用在手机、PC等端侧交互界面,用户用自然语言下达命令,模型能够直接“读懂”屏幕上的内容——包括App图标、屏幕上的文字。Bechmark测试表明,在iPhone环境下,Ferret UI在初级UI任务中超越了GPT4-V,在包含高级任务的全任务平均得分非常相近,在安卓环境下表现略差。



图:在iPhone环境下,Ferret UI在初级UI任务中超越了GPT4-V,在包含高级任务的全任务平均得分非常相近,在安卓环境下表现略差


在2024年10月,苹果又发布了新的Ferret- UI 2模型,这次的升级点主要是跨平台的用户界面(UI)理解,实验结果表明,无论是在iPhone、Android、iPad、Webpage还是AppleTV上,Ferret-UI 2都能有效地理解和响应用户意图,处理高分辨率的UI截图,并在多样化的设备生态系统中无缝扩展。

而苹果在操作系统上的最大对手谷歌,甚者更早就曾发布过相关的研究成果。2023年2月24日,谷歌的一篇论文主要提出了Spotlight——一种基于视觉语言的移动端UI理解方法。

它是一个纯视觉的移动UI理解模型,不依赖于视图层次结构数据,而是直接从原始像素中理解UI屏幕。采用了焦点区域抽取器(Focus Region Extractor)和区域总结器(Region Summarizer),使模型能够聚焦于屏幕上的特定区域,并生成基于ViT编码的屏幕区域的潜在表征。



图:谷歌Spotlight模型架构和用户界面任务示例的说明图


在3月19日,谷歌又发布了一个新的模型Screen AI,模型的大小还不到5B。它能够识别和理解UI元素和信息图表的内容,包括它们的类型、位置和相互之间的关系,并能生成与屏幕UI元素相关的文本,如问题回答、UI导航指令和内容摘要。

Spotlight+Screen AI拼出了谷歌在端侧AI上的技术路线。

Screen AI用来理解屏幕上的按钮和文字,而Spotlight专注于屏幕上特定区域的细节,即使只给它看一小部分屏幕截图,也能告诉你那部分是干什么用的。



图:谷歌Screen AI范例——一张带有生成注释的移动应用截图,这些注释包括用户界面元素及其描述,例如,文本(TEXT)元素也包含来自光学字符识别(OCR)的文本内容,图像(IMAGE)元素包含图片说明,列表项(LIST_ITEM)包含它们所有的子元素。


2023年10月,谷歌在自己的pixel 8系列手机上也推出了circle to search功能。同时,作为深度绑定的合作伙伴,“圈搜”功能也成为了三星手机AI功能的主打宣传点。

从荣耀、Vivo、智谱AI、阿里,到苹果和谷歌,端侧AI在现阶段的实现路径上似乎达成了一个共识,那就是基于视觉理解大模型的技术基础,让手机直接“看懂”屏幕上的内容,并做出后续的类似于手机智能体的动作。

2

AI手机,不是把大模型App

装到手机上而已

听起来,想在手机上实现AI功能并不复杂。那么实操过程中,用户体验如何?

腾讯科技深度体验了多个手机“智能体”产品点咖啡或圈搜等功能,基本都是采取以上的技术方案,通过视觉理解大模型的支持,实现多步骤的操作。

现阶段,它们大部分不仅反应速度慢,而在连续执行的过程中经常表现得很像早期的自动驾驶,常常需要人类接管,有时还得重复下指令才能跌跌撞撞地完成任务。

对于一个新手用户而言,体验确实不太友好。

显然,这也无法驱动用户们用真金白银为「AI手机」的概念买单。

另外,即使没有内置AI功能的手机,安装大模型App后也能实现AI相关功能,通过App也能跨应用完成复杂的多步骤任务。

腾讯科技向某个安装了大模型App的普通手机提出了相关需求,它在操作过程中,和内置了大模型App的手机体验差别并不大。

它可以完成比如:帮忙点附近最便宜的全家桶、给某个群里所有人的第一条朋友圈点赞、打开线上会议,加入会议,在会议完成后把纪要发给老板、总结某某公司财报后形成分析报告并通过微信发送给老板等需求。

那么,如果此类大模型应用都可以解决自主操作的问题,那AI手机的优势在哪?目前来看,AI手机时代,「数据」依然是最深的护城河。

手机拥有用户使用手机的本地化数据,具有天然的优势。

腾讯科技沟通了多位从业者,不考虑隐私协议,仅从理论层面手机品牌厂商可以获得的用户数据有以下几类:

设备信息:型号、系统、硬件配置(CPU、内存、分辨率)和状态(电量、信号、网络)。

应用信息:名称、版本、开发者;安装和更新详情;使用情况(启动次数、时长、功能)。

用户行为:操作记录(点击、滑动、输入);浏览、搜索、下载历史;个人设置(主题、字体、语言)。

位置信息:当前和历史位置;位置服务使用(导航、地图、搜索)。

通信记录:通话、短信、邮件。

网络使用:连接详情(Wi-Fi、蓝牙);流量使用(上网时间、消耗)。

传感器和环境:传感器数据(加速度计、陀螺仪、摄像头);环境信息(温度、湿度、光线)。

账户信息:注册、登录信息;账户关联(邮箱、电话、社交账号)。

这意味着对于一台手机来说,几乎所有的操作、细致到屏幕上任何一个文字和按钮,都可以被“原子化”写入到AI理解的范围内。

当这些原子化的数据成规模地出现在手机AI的学习范围内时,它就能够形成一个最初的用户个人知识库。

但是,只以本地化的用户行为数据作为学习范围显然是不够的,智能手机更多的功能延续,要通过各种不同的第三方App实现,这些第三方的数据才能告诉AI智能体,用户到底是爱吃牛肉汉堡还是鸡肉汉堡、喜欢喝冰美式还是热美式。

所以想要做到真正的意图识别,让手机成为每个人的AI智能体,终究绕不过从需要底层理解用户行为,这需要整个生态的配合。

但是,第三方应用数据的缺失,让手机厂商们没有办法通过API调用去解决AI自主操作的问题,不得已选择屏幕识别这样的技术路线绕过这条数据护城河。手机厂商在用阻力最小的方式先做到让手机变得“更智能”,先让手机上有一个AI,现阶段,它可以帮助用户操作手机且不需要App们同意,算是迈出了第一步。

腾讯科技咨询了一位手机行业资深产品经理,他表示,当下AI手机绕过数据交换确实是不得已而为之的行为。

“这个问题的关键是看手机厂商究竟想解决什么问题。如果要解决‘简单调用’的问题,通过 API是可行的,但是这在目前的手机生态中是很难实现的,因为没有App有足够的动力向手机厂商开放API。但是,模拟点击不需要,只要手机在系统级别支持就好了,而手机的操作系统是有动力的,因为大家都想让自己的操作系统变得更智能。”

3

理想的AI手机体验,是无形的服务

理想的“AI手机”体验,应该是帮助用户于无形之中。今年行业内用一个词来描述这种体验,叫做“意图识别”。

简单来讲,就是手机、PC等端侧设备能够最穿透用户意识的“迷雾”,做到比用户自己更懂自己的“意图”,手机的Agent(智能体)接收个性化的意图指令,自动帮忙去执行一系列任务。

手机厂商目前通过屏幕识别,“连续点按”App的操作,已经完成了类似于RPA(机器人流程自动化)的过程,但是缺少“记忆”,就是用户散落在各个第三方App中的第三方应用的行为偏好数据。

这并不能从根本上解决数据互通的问题,只是形式上的智能,不是根本的智能。手机还是无法判断用户在具体场景中真正的喜好。

数据的壁垒和生态的难题,真的完全无解吗?

某资深从业者告诉腾讯科技,“目前行业内初步形成了一个比较有共识的解决方案,未来,可能每个手机App都会拥有一个独立的Agent,大家所做的是手机系统级别的Agent和应用的各个第三方的Agent握手通信,本地的Agent负责理解用户意图,将脱敏之后的数据转递给第三方的Agent,对方完成之后再返回给手机,以完成用户的需求。”

就好像每个App派出一个Agent代表,去接收别的App及系统发出的请求——“只反馈请求,不交出数据”,这看起来确实是不错的解决方案。

雏形已成,但是,还有几个问题需要解决:

1、Agent和Agent之间、手机操作系统和Agent之间,如果没有统一的通信协议和标准,如何真正的“握手”交互和流转?

2、大模型采用明文传输,在Agent互相握手传递需求的时候,是不是真的有切实有效的方式保护敏感的个人数据?

3、一个系统级别Agent,理应和手机操作系统深度融合,甚至是手机操作系统的一部分,现有的手机操作系统的底层架构,是否能够完美支持这样一个强大的Agent?

从表面上看,AI助手让手机操作变得更加便捷;但深入来看,Agent间的通信协议、数据安全传输、系统架构重构等问题,都需要整个行业达成共识。就像互联网需要HTTP协议一样,AI时代的手机生态同样需要建立新的“游戏规则”。

在这场无声的变革中,一个问题值得我们思考:让AI真正走入手机生态,我们是否准备好了?

参考资料:

https://x.com/zhegan4/status/1712345137983201716

Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型

https://research.google/blog/screenai-a-visual-language-model-for-ui-and-visually-situated-language-understanding/

https://arxiv.org/pdf/2410.18967v1

https://arxiv.org/pdf/2209.14927

[2312.08914] CogAgent: A Visual Language Model for GUI Agents


来源:36kr

举报本楼

本帖有 2 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-1-22 12:51 , Processed in 0.292113 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部