新一代个人ai助理之战,终于打响了。

9月,三家公司发布了重要预告,标志着这个节点的到来。这三家公司分别是亚马逊、微软和openai。

亚马逊在21日的秋季硬件发布会上宣布,“老牌”语音助理alexa终于要升级,融入大语言模型。新alexa延迟更低,能理解上下文、记忆此前的对话、无需来回唤醒,而且还会越用越个性化。

同样是在9月21日,微软在美国纽约召开秋季发布会,宣布自26日起将逐步给windows11用户推送系列更新,其中一个重要更新是人工智能助手copilot。copilot,正如其名“副驾驶”,要成为用户的数字管家,将出现在windows11的侧边栏,可以语音对话,允许用户通过其控制pc上的设置、启动应用程序,或是回答问题等。驱动copilot的是openai目前*进的大语言模型gpt-4。

除了这三家正式宣布相关产品升级之外,谷歌在上个月被科技媒体axios爆料,内部邮件显示,谷歌将利用最新的大语言模型技术对谷歌助手进行全新改造。苹果也被爆料已经搭建好大语言模型的框架,在对地图、siri在内的功能进行改造。

科技巨头在个人助理的战场上厮杀,上一次出现这样的场景还是在8年前:alexa首次发布于2014年,搭载在亚马逊智能音箱echo产品中。也是在那一年,微软也随windows系统推出语音助理cortana,在中国大陆被称为“小娜”;谷歌随安卓4.1推出语音助理google now,也就是后来的谷歌助手google assistant。那是继2011年苹果随iphone 4s推出siri之后,紧跟的三款来自科技巨头的语音助理竞品,拉开了上一代语音助理混战的序幕。

然而,最初引起大众极大兴趣的语音助理,近几年已经变成了智能终端必备、但人见人嫌的“人工智障”。随着去年11月底openai发布chatgpt,流畅的对话让上一代个人助理更加相形见绌。在chatgpt发布前不久,alexa被传出亏损、裁员的消息,而在chatgpt发布之后,微软“杀死”了cortana,在今年8月将其下线。

上一代个人助理之战告一段落,新一代个人助理的战争已经奏响号角。有了大语言模型技术的加持,这一次的故事会有不同吗?

01

先让我们官方给出的例子,看看亚马逊alexa、微软cortana和openai的多模态chatgpt是怎样的存在。

接入大语言模型的alexa,“机器人”味少了。用户可以说得不直白,如“alexa,我很冷”来让alexa开空调,也可以很抽象,比如“让这个房间看起来像xx球队的颜色”。用户还可以一次说多个指令,如“alexa,打开喷头,打开车库门,关闭外部灯光”,alexa就会识别并执行这些任务。

此外,现在,用户可以对alexa说“alexa,让我们聊天吧”,接下来的对话中都不需要再叫alexa的名字。并且alexa会记住用户的一些信息和偏好,不必每次都对ta做自我介绍。

在一条演示广告中,用户和alexa进入聊天模式。用户想要举办一场派对,让alexa推荐派对主题,然后再依据主题推荐合适的场地。当用户和alexa商量好一切之后,用户要求“给我的朋友发送下周五晚上8点的邀请邮件吗,神秘一些”,alexa便欣然答应,并阅读以“你准备好度过一个难忘的夜晚了吗”开头的邮件给用户确认。

比起过去每句话都要叫一声“alexa”、前后不能有连续、指令必须清晰明确的语音助手体验,新alexa的确“更像人”了。相信每一个使用智能家居的用户,都受够了变着法地试探怎么说才能让“小x”和“精灵”们听懂指令。

已经被杀死的微软cortana,也就是我们熟悉的“小娜”,基本上和iphone的siri差不多。为你打开某个应用、播放一首歌曲,或者回答你的问题。

和升级后的alexa一样,copilot的对话体验也更偏“人类”,你可以直接让copilot“播放让我集中精力的歌”,它就会找到spotify上的对应歌单。

至于openai的chatgpt,也在转向多模态之后变得更贴近生活。前文已经提到,你可以打开冰箱拍张照,和chatgpt讨论晚上吃什么。

在官方给出的另一个例子中,用户给chatgpt发送了一张自行车的照片,问它如何调低座椅。chatgpt提醒用户查看车的型号,确认是有快拆杆还是用螺栓固定,并给出详细步骤。用户还是不明白,拍摄了座椅连接处的照片并圈出某部位,问这是不是快拆杆。chatgpt识别出这是螺栓,并建议用内六角扳手。用户接着发难,拍摄了一张工具箱的照片,询问chatgpt哪一个是内六角扳手,它也成功识别了出来。

除了日常生活中的问题解决外,由于具备语音功能,可以“说”的chatgpt还可以给孩子讲睡前故事。更有意思的是,当你与人吵架,也可以把能听会说的chatgpt摆上来,帮你们梳理思路,解决争论。

02

不过,不管是新alexa,还是copilot和多模态chatgpt,都有一定的使用门槛。

windows11操作系统内置的copilot目前没有收费的消息,应该是免费向用户开放的,但是要等更新逐步推送。而在办公套件microsoft 365上,copilot属于高级订阅功能,每月收费30美元。

openai的多模态chatgpt仅向高级订阅用户开放,也就是chatgpt plus,每月20美元。

而新alexa未来可能会收费。在亚马逊秋季发布会之后,彭博社采访了即将离任的亚马逊设备和服务部门副总裁大卫·林普,他表示亚马逊“*”在考虑alexa的订阅模式。

林普拒绝讨论alexa若收费的话定价会是多少,并表示“你今天所熟悉和喜爱的alexa将保持免费”,但为ai聊天机器人提供动力并不便宜,他承认“在云端进行模型推理的成本是巨大的。”

刚开始打仗就想着怎么收费,这看似急功近利,实际上都是上一代个人助理之战的血泪教训。

个人助理产品早就有,其中的代表是微软在1995年就推出的微软鲍勃,彼时比尔·盖茨(bill gates)还是微软的ceo,在那一年首次登上《福布斯》全球富翁榜榜首。但现在回头看,鲍勃显得很臃肿:软件显示一座虚拟的房间,就像一间个人办公室,角落里蹲着卡通狗助手,亲切地问你需要什么帮助。

这条路没有走通,仅一年,微软就用clippy代替了鲍勃,就是那个浓眉大眼的曲别针,热心肠地想帮你做这做那,也不成功,是大家批评嘲笑的对象。

到了2011年,一切都改变了,苹果推出iphone 4s,“附赠”的还有siri——一个没有实体形象,可以长按home键呼出的语音助理,可以帮你打开应用,还能回答问题,甚至可以俏皮地给你讲笑话,在当时颇具“未来感”。

科技巨头们闻风而动。在2014年,语音助理大爆发,占据安卓的谷歌推出了google now,占据pc操作系统的微软推出了cortana,而亚马逊干脆研发智能音箱设备,将alexa塞了进去。

电影《她》上映了,电影中男主人公和电脑操作系统的语音助手谈恋爱,后者的配音是好莱坞著名演员“寡姐”斯嘉丽·约翰逊,而语音助手的界面像极了cortana。电影上映后,《连线》杂志甚至报道有一些iphone用户认为siri似乎开始拥有“自我意识”。

到了2019年之前,各家陆续在更多端口搭载语音助手,谷歌、苹果、微软都推出了智能音箱设备,alexa和cortana还搞起了合作,可以在自家语音助手那里呼出对方,以实现更多功能。在国内,手机智能语音助手和智能音箱也开始涌现,小度、小爱、天猫精灵等悉数登场。

然而,也是在这个阶段,语音助手越来越普及,大众对其的评价却慢慢从充满幻想,变为了感到失望。在国内,这些语音助手喜提“人工智障”称号。人们在网上发帖询问“cortana老自己弹出来,怎么关掉啊”,或是分享智能音箱怎么都听不懂“关掉客厅的灯”的简单指令的短视频。

以siri为例,2018年vetro analytics的数据显示,siri的使用率为19.6%,依赖度仅为11%,每位用户每月平均使用时长只有短短14分钟。

03

体验差,直接影响着语音助手产品的商业前景。

就在chatgpt推出之前,2022年11月,媒体business insider报道,根据其获得的内部数据,一季度亚马逊worldwide digital部门运营亏损超过30亿美元。这个部门包括从echo智能音箱、alexa语音技术到流媒体服务的所有内容。而熟悉该部门的人士表示,这一亏损是亚马逊所有业务部门中*的,而且其中大部分损失都要归咎于alexa。报道估计,2022年该部门的亏损甚至会达到100亿美元。

alexa的开局并不差,*代echo设备的销量超过500万台。但是其商业模式一直是个问题,所有的语音助手其实都有这个问题:提供了服务,然后呢?2018年,亚马逊预计2021你那每台设备都将亏损5美元。

上一代语音助手并没有很好的货币化举措,再加上交互的体验并不好,alexa期望可以将亚马逊的电商服务融合进去,但糟糕的体验无法支撑这个愿景,而频繁地询问用户要不要买东西本身又在损害体验。用户到头来和语音助手间的大部分对话琐碎而日常,如今天的天气、日期、打开某个应用等,而这并不能让亚马逊赚钱。

在裁员、亏损的消息传出后,亚马逊表示还是会大力发展alexa,但是外界看不到什么新的可能。

chatgpt的出现,让一切都不同了。

一方面是危机,chatgpt基于大语言模型的出色对话能力,让大众几乎在*时间就将之与上一代语音助手进行对比,结论就是“太差了”。问题改变,上一代语音助手不思进取、不上大模型,就有可能落后挨打,即便是苹果和谷歌也得忌惮这种可能性。

除了谷歌在今年8月被传出要用大语言模型升级谷歌助手以外,苹果也有类似的传闻。今年7月,名记马克·古尔曼爆料,苹果已经完成了其大语言模型的基础框架,被称为“ajax”,定位为支持对话式ai系统,并已经将其应用在地图、siri等功能上,做人工智能改进。

而在科技巨头动作之前,早就有各种整合了大模型的个人助理第三方应用出现。如今年6月,就有人“复活”了微软鲍勃,使用的是gpt-3.5模型,在微软商店上架。

另一方面是机遇。以亚马逊alexa为代表的智能生态想象,如今在5g加持、大模型支撑之下,实现的可能性前所未有得大。

本次秋季发布会,亚马逊在宣布alexa将全面升级之时,也已经勾勒出了广阔的前景:亚马逊将大语言模型注入200多个智能家居api,为alexa提供更主动无缝管理智能家居所需的背景信息。同时,亚马逊要推出工具,允许alexa控制第三方产品的某些功能,后者无需在智能家居生态系统的工具包中。亚马逊表示,已经和通用电气、飞利浦、小米、irobot等合作开发这些功能。

但现在要面临的新挑战也是10年前所没有的,ai对于个人隐私和数据安全的威胁正在被重视。不管是新alexa、copilot还是多模态chatgpt,在向个性化助理的方向进发时,将不可避免地触及这一问题。目前,新alexa发布,亚马逊将利用用户与alexa的语音交互来训练模型的消息已经在被讨论。

“谁赢得了个人代理,那就是一件大事。因为你将再也不会去搜索网站或去生产力网站,你再也不会去亚马逊。”在今年5月的一场活动上,比尔·盖茨如是预测。

问题是,究竟会是谁赢下这场战争呢?亦或是像上一代语音助手之战一样,轰轰烈烈之后没有赢家。

参考资料:

1、it之家:《“大眼夹”重生,变身 chatgpt 聊天机器人》

2、智东西:《昨夜微软与亚马逊“联姻” 还抛出5道ai杀手锏》

3、金融界:《从“全村的希望”到“大裁员”,亚马逊是如何摧毁alexa 的?》

4、钛媒体:《智能手机之争的下半场:语音助手之战》