搭载摄像头的耳机:VueBuds能否取代智能眼镜?
从智能手机摄像头到智能眼镜,视觉AI的触角在不断延伸。你见过让耳机也能“看”世界的尝试吗?华盛顿大学的研究人员最近带来了一个有点意思的答案:一款名为VueBuds的耳机原型,每只耳机里都塞进了一枚小型低分辨率摄像头。这就意味着,它也能像Ray-Ban Meta智能眼镜那样,帮你翻译路牌、辅助低视力用户、或者在户外徒步时识别植物种类。

话说回来,智能眼镜虽然听起来酷,但它的短板也是明摆着的:隐私问题和佩戴舒适度。摄像头可能在别人不知情的情况下偷拍,采集的敏感数据流向哪里也不清楚,这些已经引发了批评和法律诉讼。更重要的是,不是人人都习惯戴眼镜,甚至有人为了避嫌而选择隐形眼镜。主导这项研究的华盛顿大学教授Shyam Gollakota本身就是个例子,他直言不讳:“几乎人人都会佩戴的主流可穿戴设备,就是耳机。”他的团队正是看准了这一点,把耳机定位成智能眼镜的一个低侵入性、更隐私的替代方案。
不过,这项研究的出发点,是验证这种小巧的耳戴式形态到底行不行得通。Gollakota说得直白:“传统耳机一直困在音频交互界面里。我们的研究证明,完全可以在这种形态下搭建一套系统,通过运行视觉语言模型,拿到丰富的智能信息。”成果已在巴塞罗那的ACM人机交互大会上发布。
多模态耳机的设计思路
Gollakota和他的同事们很清楚,VueBuds不会是视觉AI的唯一形态。实验室的博士生Maruchi Kim说得挺有道理:“可穿戴设备是非常私人化的选择。”有人偏爱眼镜或手表,有人钟情戒指,所以不太可能有一款设备“通吃”所有人。“我们只是希望引入一个新的品类,证明智能眼镜能做的事,耳机也能做。”
但耳机确实有个隐形的优势:它已经普及得不能再普及了,用户接受门槛很低。Kim还指出了一个小细节:“耳机放回收纳盒,这本身已经是一种约定俗成的社会行为。”智能眼镜可能配有度数镜片,很多时候一整天都摘不下来;但耳机不一样,“你想确认摄像头有没有在录,把它收起来就行了,让人放心得多。”
另外,用户感兴趣的很多AI功能,本质上都是“情景式”的——比如翻译路牌、查食品成分,根本不需要持续盯着屏幕看。这正好给耳戴式形态留出了发挥空间。
三大核心技术挑战
要实现具备视觉能力的耳机,光有想法可不够。Gollakota总结出了三个硬骨头:在极小的尺寸、功耗和重量限制内集成摄像头;搞定数据传输;以及在耳甲腔的姿态下重建出完整的视觉场景。
功耗是头号难题。“耳机电池的容量大概只有智能眼镜的十分之一,”Kim说。视觉数据对带宽的需求远高于音频,智能眼镜录视频通常靠Wi-Fi传到云端处理。Wi-Fi带宽足,但功耗也大。VueBuds却反其道而行之,选择了通过蓝牙传输低分辨率灰度图像。这背后的思路很有趣:不是尽可能多地传数据,而是去找视觉语言模型提取有效信息所需的最低分辨率。结果发现,324×324像素的图像传感器就够用了。
视野覆盖也是个麻烦。把摄像头放在耳部,会导致两侧各有一个盲区。团队把摄像头向外偏转了5到10度,再通过图像拼接技术,成功重建出视野更宽的完整场景。不过,正前方大约20厘米以内的区域,还是存在一个小盲区。
这不由得让人思考:耳机的“看”法,真的能和眼镜一样可靠吗?
识别准确率与未来规划
研究团队用四种视觉语言模型对VueBuds做了测试。在表现最好的Qwen2.5-VL模型下,综合准确率达到了87%:物体识别约82%,字符识别94%,翻译准确率84%。更关键的是,在17项任务上,VueBuds的表现和Ray-Ban Meta眼镜不相上下。可以说,这套系统已经具备了初步的实用价值。
未来,团队计划加入彩色图像支持。Kim还在研究怎么通过引入设备端JPEG编码器来提升可传输的图像分辨率,这样就能大幅压缩待处理文件的体积,让耳机“看得”更清楚。
隐私问题的再审视
话说回来,隐私这根刺,谁也绕不开。很多用户对智能眼镜的监控功能提心吊胆,而相关公司可能存在的数据滥用案例,更是在给这个焦虑火上浇油。在这个节骨眼上,给耳机再加个摄像头,是不是有点自找麻烦?
华盛顿大学的研究人员倒不这么看。他们觉得,VueBuds经过精简的图像采集方式,在隐私保护方面更有优势。首先,系统是设计成在智能手机或其他本地设备上运行的,数据根本不上传云端。其次,VueBuds只采集静态图像——而Meta智能眼镜的主要用途之一已经是视频录制了。Gollakota一句点破:“低分辨率的灰度视频,本来就没多少人愿意看。”
还有一点:VueBuds是靠语音指令激活的。“音频启动意味着你周围的所有人都能知道你正在做什么。”而智能眼镜只需轻触按钮就能开始录制。这本身就是一层透明度保障。
Gollakota还指出,大多数人已经习惯了几乎所有设备都自带麦克风,因为语音指令带来的价值是实实在在的。就像苹果在AirPods等设备上积累的用户信任一样。视觉智能能不能走出类似的路,还需要技术与用户信任度的共同磨合。
值得注意的是,苹果据说也在研发新一代集成红外摄像头的AirPods,用来支持手势识别和改善空间音频。这和普通摄像头的视觉能力不同,但至少说明:业界对打破耳机纯音频交互局限的兴趣,已经升温了。
“耳机是我们目前最成功的可穿戴设备,但它现在仍然困在音频交互界面里,”Gollakota总结道,“引入视觉智能,将让耳机成为一个比现在丰富得多的交互平台。”
Q&A
Q1:VueBuds耳机和普通智能眼镜比,实际优势在哪?
A:核心在于隐私保护和使用习惯。它只靠语音指令激活拍摄,周围人都能感知;数据只在本地处理,不上传云端;不用时放回收纳盒就能确认摄像头已停止——这些都比智能眼镜的一键录制和不透明数据处理方式让人更放心。而且,耳机本来就更普及,用户接受门槛低得多。
Q2:VueBuds的图像识别准确率怎么样,能用吗?
A:在表现最好的视觉语言模型Qwen2.5-VL支持下,综合准确率达87%。其中字符识别94%,翻译准确率84%,物体识别约82%。在17项测试任务中,表现和Ray-Ban Meta智能眼镜相当。能看出已初步具备实用价值,但目前仍是原型研究阶段,还没商业化。
Q3:VueBuds怎么解决耳机电池续航小的问题?
A:耳机电池容量大约是智能眼镜的十分之一,所以功耗控制是硬伤。VueBuds的解法是:放弃Wi-Fi,改用更省电的蓝牙传输;同时只传324×324像素的低分辨率灰度静态图像,而不是连续视频流。这样就把功耗和带宽需求压到最低,同时保证AI可用性。