智东西(公众号:zhidxcom)
作者 | 三北
编辑 | 漠影
拥有一款“鼻尖上的GPT”是一种什么体验?
近期,杭州李未可科技公司推出了首款AI眼镜Chat,支持用户通过语音与眼镜中的智能助手进行交互,比如答疑解惑、日程安排、语音导航、英语翻译等,都不在话下。
同时,这款AI眼镜背后的多模态AI大模型平台WAKE-AI也随之开放。据悉,这是国内首个面向AI眼镜等可穿戴设备的大模型平台,既支持李未可科技内部团队做开发,同时也为广大AI开发者伙伴提供技术共享。
当下,市面上已经有豆包、Kimi等多款支持大模型语音交互的平台,但它们大多以匹配PC、手机为主;WAKE-AI则率先切入AI眼镜这一新形态,试图为用户带来更自然的交互、更人性化的陪伴、更场景化的精准服务。
李未可科技创立于2021年10月,创立之初便聚焦“AI+AR”眼镜赛道,公司成立仅三个月便拿下字节跳动的融资,其创始人茹忆曾是阿里AI实验室智能终端负责人、天猫精灵硬件&产品总经理,也是这波大模型浪潮中最具代表性的创业者之一。
▲李未可科技创始人兼CEO茹忆
当下,随着Ai Pin、Rabbit R1等AI新硬件产品在国外崭露头角,掀起大模型智能终端的新风口,国内“天猫精灵之父”带队的新锐团队也交出了答卷,成为智能硬件产业关注的一个焦点。
AI智能眼镜是否会成为一种主流的AI新硬件?面向“AI+终端”的多模态AI大模型平台WAKE-AI有什么过人之处?通过对话李未可科技创始人兼CEO茹忆、AI首席架构师庄博宇,本文对此进行了深入探讨。
尽管豆包、Kimi等各种大模型App风靡手机端,但它们却迟迟未攻入智能眼镜等可穿戴设备。
背后的一大“拦路虎”是时延问题。庄博宇告诉智东西,用户在眼镜上对机器时延的容忍度比在手机上更低,1.8秒是一个容忍时间,如果超过这个时间点,用户就会感到交互不流畅自然。然而,包括豆包等市面上的多个大模型落地眼镜都需要5秒左右。
为此,李未可科技自研了WAKE-AI大模型平台,试图为用户打造一个随叫随到的“鼻尖上的GPT”陪伴助手。
据悉,该平台专门面向可穿戴设备等终端优化研发,能在500毫秒内快速精准地识别用户指令,且将大模型实时回答反馈控制在2秒左右,具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。
从体验来说,这意味着用户将可以在AI智能眼镜上享受到自然流畅的AI交互,比如让眼镜搜索新闻、导航目的地或增加日程,都不会太费功夫。AI智能眼镜可能取代手机的部分功能,让用户真正体验到AI融入生活。
“技术的一小步,用户体验的一大步。”茹忆说。从2016年3月阿尔法狗打败李世石到2022年的12月份ChatGPT 发布,中间经历了六年六个月时间,AI算法架构从CNN、BERT改进到Transformer,模型参数扩展带来智能涌现,茹忆对此感到很兴奋,认为这将为语音交互体验带来巨大提升。
与在上一波AI浪潮中押准智能音箱风口不同,这一次,茹忆认为,眼镜将成为AI落地的最佳载体之一。这与Meta首席科学家、图灵奖得主杨立昆的观点不谋而合,杨立昆在前不久也曾提到:“通过智能眼镜访问的AI助手是未来的趋势。”
面向这一趋势,李未可科技近期推出的AI智能眼镜Chat是其小试牛刀之作。
以低至699元的价格让用户低门槛地迈入AI体验大门,Chat可以说非常亲民。这款AI眼镜的外形与日常佩戴的眼镜几乎没有差异,但简约却不简单,一个贴身陪伴助手的雏形已经出现。
可以预测,大模型未来将重新定义智能眼镜等可穿戴设备。可穿戴设备将不再只是工具,而是好像有一个真人助理在用户旁边,或者一个虚拟人在用户鼻尖上的眼镜里,帮用户解决各种复杂的问题。
WAKE-AI大模型平台推出的意义,则是将大模型运用到AI硬件设备上的诸多畅想落地实际,不仅实现更自然的交互,还带来更人性化的陪伴,更精准的服务。
那么从技术角度来看,WAKE-AI大模型平台究竟有什么过人之处?
据悉,李未可科技通过三种方式提升WAKE-AI大模型平台的效果:
第一,使用定向优化的分发大模型,帮助AI助手能快速地分发用户的指令,打造更自然的交互。
第二,基于情感大模型,使用户和设备产生深度信任,让AI助手形成更有温度的陪伴。
第三,针对室外场景需要大量的数据,使用多模态的VQA(视觉问答)模型,让用户可以指哪问哪,获得更精准的服务。
1、分发大模型+Agent,让交互更自然
作为一款C端产品,AI智能眼镜的交互体验被李未可科技放在首位。WAKE-AI大模型平台能提供更丰富的交互功能,同时耗时比同行更低。
庄博宇谈道,比如当用户与豆包语音聊天,往往需要2秒才能完成语音交互,时间主要花在语音与文本相互转化及大模型推理上。但这一交互体验仅限于聊天,而不能执行网络搜索、导航等更复杂的任务。
但是,基于WAKE-AI大模型平台,用户在AI智能眼镜上调用大模型的时延大大降低,一般对话时延控制在1.8秒左右、2秒以内;同时,用户还可以体验主动搜索、语音导航、眼镜操控等多样化的功能,复杂的交互反应也能缩短至3-5秒。
背后,李未可科技团队使用分发大模型,通过语音输入来快速分发用户意图,为用户提供反馈;同时,大模型支持不同的AI Agent的能力,能快速执行用户的导航、买票、备忘录等可能存在的刚需意图。
此外,团队也在降噪技术、收音、ASR(自动语音识别)技术等方面也做了大量优化,从而使得用户能与智能助手更丝滑地进行交互。
2、情感大模型+超拟人TTS,让陪伴更人性化
茹忆和庄博宇都提到了《她》(Her)这部科幻电影,片中的机器人由于与主人公建立了情感连接,从而能进行更有深度的聊天和陪伴,这是李未可科技希望打造的智能助手的一个理想形态。
基于这样的愿景,李未可科技与市面上同行的一大差异化是做情感搭配。
为了让AI眼镜产品具备更拟人化的特征,李未可科技团队一是基于情感大模型研发了长记忆系统、情感类的Agent,二是打磨了拟人化的TTS(文本转语音)技术,以此打造用户能够天天使用AI智能眼镜的核心基础。
在情感大模型方面,对标国内外的Claude等相关模型,庄博宇及其团队发现了一个行业核心的问题:大模型的记忆力是有上限的,不利于长时间陪伴用户。
为此,李未可科技团队通过核心记忆和长期记忆,不断更新用户的画像,从而使得智能助手在对话中能够更充分地理解用户想要什么,更懂用户。
而在打造拟人化的语气方面,目前市面上能上线情感表述的文本转语音TTS能力的厂家并不多,因为它有一个延时的考量,AI抽取、理解和表述会耗费大量的时间,所以速度上面需要优化;第二是成本上的优化,比如豆包虽然在App上能够提供情感表达,但它并没有把这个API能力开放出来,智能终端厂商无法获取。
但是,李未可科技率先将超拟人TTS上线,把它轻量化到时延和成本都可承受的范围,然后开放出来,供自己的团队和合作伙伴使用。
3、多模态+LBS能力,让服务更精准
多模态大模型+LBS(基于位置的服务)会产生什么样的化学反应?
李未可科技已经找到了验证场景。Citywalk(城市漫步)是当下备受年轻人青睐的室外项目,多模态大模型可以让Citywalk的人做到“指哪儿问哪儿”,比如指着岳王庙里的碑问“碑上写的到底是什么”,一套精准的智能导览服务就诞生了。
据悉,李未可科技已经打造了“旅游助手+城市漫游系统”,核心是数据内容,以景区作为核心供给,现在大概有2000多个景区数据。
结合这些景区数据,团队已经打造了景点游玩导览、自动巡航系统、地点弹幕等多个服务,而多模态大模型的加持则让“指哪儿问哪儿”、自动生成路线、自动生成游记等更多丰富功能涌现,从而为用户提供更精准的服务。
庄博宇告诉智东西,大模型使得原本碎片化的场景走向大一统,从而使精准服务的成本大大降低。一方面,WAKE-AI大模型可以更好地理解和消化海量的景区数据,另一方面,Agent可以对数据进行更加自动化地处理,这使得团队能够在精准度和信息数量基础上提供更好的服务。
可以看到,通过从模型了解意图、搜索资料、转化风格、分析情绪、转化声音的各个环节去做优化,李未可科技试图打造交互更自然、陪伴更人性化和服务更精准的AI眼镜设备,从而交出其大模型应用创业的“答卷”。
当下,已经有不少大厂盯上了“AI+AR”眼镜赛道。比如Meta与雷朋合作的AI智能眼镜已经在测试多模态大模型,并在近期宣布将推出首副“AI+AR”眼镜;苹果近期也传出正研究端侧大模型,可能将落地Vision Pro……
与此同时,也有一些知名企业似乎在抽火。比如近期OPPO被传出了暂停XR探索,相关人员将转向AI设备方向的开发,或许意味着其“AI+XR”眼镜业务踩下了刹车。
对此,茹忆认为这是由于产业发展仍处于初级阶段,大家还未形成共识。这就考验创业者对事情的认知,以及如何与自身优势做结合。
站在李未可科技的角度来看,“AI+AR”眼镜的发展已经处于一个临界点,即将突破用户体验差,为此团队进行了积极布局。
李未可科技打法的一大特点是不强行创造出一种产品形态,而是在已存在的产品上进行AI升级,从而在存量市场基础上拓展出新的增量市场。根据知名数据分析机构Statista数据,2023年全球眼镜市场总规模超1400亿美元,2015-2025年全球眼镜市场规模从1183 亿美元提升至1552亿美元。
“未来我们的眼镜都会智能化,就像手表智能化一样。”茹忆说,“它的标志是体验成本大大降低,用户买一副AI智能眼镜和买一副传统眼镜价格也差不多,那为什么不买一个AI智能眼镜?现在手表就是这样。”
AI智能眼镜市场的发展壮大需要生态共融。目前,李未可科技已经将WAKE-AI大模型平台面向伙伴开放,与伙伴一起来建设AR眼镜+AI能力、在室外等多个场景的生态。
当下,大模型加速落地端侧,我们可以看到AI PC、AI手机、AI智能眼镜以及各色的AI新硬件如雨后春笋般冒了出来。凭借便携、可扩展等多重优势,眼镜或许成为大模型在室外落地的一大最佳载体。
现阶段大模型在端侧落地应用仍处于初级阶段。可以预测,未来云边端异构架构将发展得更加庞杂,同时多模态交互变得更加丰富,这对速度、性能和成本的平衡会提出新的要求,也将成为AI硬件赛道玩家需要直面的新挑战。
https://zhidx.com/p/424737.html
Created by Tan KW | Nov 17, 2024
Created by Tan KW | Nov 16, 2024
Created by Tan KW | Nov 16, 2024
Created by Tan KW | Nov 16, 2024
Created by Tan KW | Nov 16, 2024
Created by Tan KW | Nov 16, 2024
Created by Tan KW | Nov 16, 2024