输入法成AI新风口,微信/豆包/千问聚齐,用嘴打字时代来临
《读佳》上周独家报道了一则消息:阿里千问团队即将推出一款手机输入法。和之前集成在千问PC端的桌面输入法组件不同,这次是独立的手机APP。
这样一来,BAT(字节跳动、阿里巴巴、腾讯)算是凑齐了。
微信输入法早在两年前就开始拥抱AI,今年更是围绕AI语音输入搞了好几轮大更新。豆包输入法去年底率先在手机端上线,核心也是语音输入,半年后又顺势推出了桌面端。至于千问,上个月刚在PC端上线AI语音输入法,现在推出手机端也在情理之中——明眼人都看得出来,产品核心还是“语音输入”。

图片来源:千问
互联网巨头——准确说是AI巨头——对输入法,尤其是对语音输入的重视,已经算是司马昭之心了。
很多人可能会疑惑:输入法不是早就成熟到不能再成熟了吗?九键、26键、双拼、五笔、手写,该有的都有,搜狗、讯飞、百度这些老玩家也经营多年。大厂真有重新做一遍的必要吗?
答案当然是有。
两年前,雷科技写过一篇《纷纷接入大模型,输入法讲起了AI新故事》。那会儿各大输入法都在接入大模型,塞入各种Chatbot上已有的AI功能,简单粗暴得很。说白了,那些功能大多是在FOMO情绪下盲目上马。从身边朋友的反馈来看,用户并不想用一个塞满功能的输入法,不论在桌面还是手机上。

图片来源:雷科技
但这一波“语音输入”更有点返璞归真的意思——不再折腾花里胡哨的功能,而是回到“输入”方式和体验本身,用AI把输入法重新做一遍。
AI语音输入全面进步,用嘴打字时代来了
一年前,我很少用语音输入。
不是不想用,毕竟说话比打字轻松得多,尤其是在手机上。但问题出在识别效果:说一句话错几个字;普通话不标准、碰到专有名词或中英文混说,结果更容易跑偏。本来想着少打几个字,最后却要盯着屏幕逐句检查、移动光标修改。嘴上省下来的力气,又被手动纠错拿回去了,这种体验特别劝退人。
语音输入只要错得够频繁,用户就会重新拿起键盘——打字虽然慢,至少结果相对可控。
但现在情况变了。一方面是AI技术进步,语音识别和语言模型的提升,很多豆包APP用户应该早就体会到:语音输入已经完全能满足AI交互的输入要求了。
不只是豆包输入法。最常用的手机/桌面输入法还是微信输入法,原因先按下不表。重点是从去年底iOS/Android端3.0.0更新开始,微信输入法基本都在围绕“语音输入”做优化迭代——全面升级语音输入大模型、提升识别能力、优化使用体验。最近一轮更新中,全平台版本再次升级了语音输入大模型,支持自动去掉口语中的口水词、智能加标点和分段。

图片来源:微信
雷科技之前也有一篇《语音输入法大横评:豆包/千问/搜狗/Typeless谁才是最强嘴替?》,对四款桌面端AI语音输入工具做了横评。测试中,豆包采用实时转写,基本做到边说边出字,前面识别错误的内容还会随着后文补充被修正。千问的输出速度慢一些,短文本往往需要等3-4秒,长文本会增加到5-6秒,但准确率、自然断句和口语规整表现不错。无论是哪一款,整体语音输入准确性都有了大幅进步,覆盖桌面端和手机端。

图片来源:雷科技
效果也很明显。过去半年,语音输入在室外和家里的使用频率明显上升。即便普通话不够标准,大部分内容依然能准确识别。偶尔有错误需要修改,但频率已经低到不会打断思路。
总结下来,大模型补齐了关键的一环。以前的语音输入更像听写员——目标是把声音转成文字。现在的AI输入法开始理解整句话,会根据上下文纠正同音字、自动补标点、分段,去掉“嗯”“啊”“那个”等口头语,还能处理说话时的重复和自我修正。用户说出来的是一团带着口癖的原始想法,屏幕上出现的已经是一段可以直接发送的文字。这一下,差距就出来了。
另一方面,在AI技术进步的基础上,语音输入的优势太诱人了——最直接的就是降低输入负担。回想日常打字,需要看键盘、选字、处理错别字,脑子里的想法要经过手指才能落到屏幕上。相比之下,说话更接近日常交流,想到哪就能说到哪。尤其在户外走路时,这种差距会被迅速放大——可以看着前面的路继续输入,不需要一直低头盯屏幕。

图片来源:雷科技
效率优势也早有研究验证。斯坦福大学、百度等研究团队2016年在实验室条件下做过对比:手机语音和键盘输入,普通话语音录入速度约为每分钟123个词,拼音键盘约为43个词,前者接近后者的2.9倍。实验室里的短文本不能直接代表真实环境,但它至少说明了语音输入的天然上限——只要识别足够准,人说话通常比在手机上敲字快得多。
此外,语音输入(文字)比纯语音对接收端更“友好”——不管是微信好友、备忘录回看、各种APP和网站,还是AI交互的输入。特别是相对复杂的输入,往往需要停下来思考、基于前文继续输入,纯语音的效率和体验远不如语音输入这种交互形式。退一步说,即便偶尔有错误,修改起来也比较方便。
能力可以很多,交互必须很轻
虽然豆包很多时候被调侃只剩下情绪价值,但不可否认,它在中文语音输入、输出上的优势非常大,在BAT三家中也更早将这种优势转化到输入法的“语音输入”上——去年11月就推出了豆包输入法。
不过具体到“手机输入法”的产品体验,豆包输入法作为新兵还是有不少改进空间。对比微信输入法这类成熟产品,豆包输入法的基础功能、设置选项虽然大差不差——都有联想词推荐、剪贴板、验证码填充,甚至支持双拼,也推出了桌面和手机双端——但缺少了跨设备粘贴同步(包括个人词库、图片),也没有换机助手等功能。需要注意的是,豆包输入法既没有微信输入法的匹配码机制,也没有其他主流输入法的账号体系。
再加上微信输入法本身也很出色的语音输入表现,所以仍然主用微信输入法。
AI不是也不应该成为选择产品的唯一因素。反过来,也希望看到接下来上线的千问输入法APP能带来很好的产品体验。一方面,千问在电脑端已经证明它在语音输入上有很强优势,如果这些能力原样来到手机,至少会有一张不错的入场券。
但一款每天被调用数百次的手机输入法,不能只靠模型秀肌肉。手机和电脑的词库、常用语、剪贴板能否同步?语音启动能不能足够快?是否支持实时转写?长文本整理的力度能否让用户选择,避免AI过度改写原意?弱网和离线状态下还能不能稳定工作?在AI语音输入之外,这些也在很大程度上影响着输入法的体验。就像乔布斯说过的那句:“你必须先从用户出发,再反推需要什么技术。”技术可以提供可能性,但最终的用户体验,还是要回到产品设计和细节上。
前几年的输入法AI化恰恰相反——很多产品从技术出发,把问答、翻译、写作、搜索和智能体一股脑地塞进键盘。但输入法的使用逻辑和AI聊天工具不同,用户每一次唤起键盘,大多只想快速写完一句话。能力可以很多,交互必须很轻。否则,“全能”很容易变成一种臃肿。输入法终究是一件基础工具,在有用和好用之间,还隔着很多设计和细节。
输入法依然是离用户意图最近的入口应用
字节、阿里、腾讯为什么都来做输入法?从用户的角度看并不难理解。对我们每个人来说,输入法都太近了——无论在微信聊天、淘宝搜索、钉钉办公、浏览器搜索、小红书评论,还是文档写作,只要需要把想法交给手机,输入法就有机会出现。它不属于某一个 APP,却能跨过几乎所有APP,是调用频率最高的系统入口之一。
大模型的加入,让输入法能够处理更靠近意图的一层:用户想说什么、该怎么说、这句话是否需要翻译、润色、总结。语音的表达形式,更让这个入口获得了更多原始信息——能接触到语速、停顿。
对于字节,豆包输入法可以把豆包的模型能力带出豆包APP,进入聊天、搜索和办公等更多场景。对于腾讯,微信输入法连接微信社交、搜狗输入法积累和混元模型,既有现成用户,也有最丰富的中文交流场景。而对于阿里,千问输入法有机会穿过电商、支付、地图、办公和内容创作,把千问从一个需要主动打开的AI助手,变成随时可以调用的底层能力。
从实际使用来看,语音输入已经跨过了“偶尔应急”的阶段,但它还替代不了所有键盘场景——办公室里不方便开口,密码和精确编辑仍然更适合手动操作。至于在走路、快速回复和整理想法时,我越来越不愿意“古法手打”。