首页 > 教程攻略 > ai资讯 >输入法成AI新风口，微信/豆包/千问聚齐，用嘴打字时代来临

输入法成AI新风口，微信/豆包/千问聚齐，用嘴打字时代来临

来源：互联网时间：2026-06-24 22:59:29

《读佳》上周独家报道了一则消息：阿里千问团队即将推出一款手机输入法。和之前集成在千问PC端的桌面输入法组件不同，这次是独立的手机APP。

这样一来，BAT（字节跳动、阿里巴巴、腾讯）算是凑齐了。

微信输入法早在两年前就开始拥抱AI，今年更是围绕AI语音输入搞了好几轮大更新。豆包输入法去年底率先在手机端上线，核心也是语音输入，半年后又顺势推出了桌面端。至于千问，上个月刚在PC端上线AI语音输入法，现在推出手机端也在情理之中——明眼人都看得出来，产品核心还是“语音输入”。

图片来源：千问

互联网巨头——准确说是AI巨头——对输入法，尤其是对语音输入的重视，已经算是司马昭之心了。

很多人可能会疑惑：输入法不是早就成熟到不能再成熟了吗？九键、26键、双拼、五笔、手写，该有的都有，搜狗、讯飞、百度这些老玩家也经营多年。大厂真有重新做一遍的必要吗？

答案当然是有。

两年前，雷科技写过一篇《纷纷接入大模型，输入法讲起了AI新故事》。那会儿各大输入法都在接入大模型，塞入各种Chatbot上已有的AI功能，简单粗暴得很。说白了，那些功能大多是在FOMO情绪下盲目上马。从身边朋友的反馈来看，用户并不想用一个塞满功能的输入法，不论在桌面还是手机上。

图片来源：雷科技

但这一波“语音输入”更有点返璞归真的意思——不再折腾花里胡哨的功能，而是回到“输入”方式和体验本身，用AI把输入法重新做一遍。

AI语音输入全面进步，用嘴打字时代来了

一年前，我很少用语音输入。

不是不想用，毕竟说话比打字轻松得多，尤其是在手机上。但问题出在识别效果：说一句话错几个字；普通话不标准、碰到专有名词或中英文混说，结果更容易跑偏。本来想着少打几个字，最后却要盯着屏幕逐句检查、移动光标修改。嘴上省下来的力气，又被手动纠错拿回去了，这种体验特别劝退人。

语音输入只要错得够频繁，用户就会重新拿起键盘——打字虽然慢，至少结果相对可控。

但现在情况变了。一方面是AI技术进步，语音识别和语言模型的提升，很多豆包APP用户应该早就体会到：语音输入已经完全能满足AI交互的输入要求了。

不只是豆包输入法。最常用的手机/桌面输入法还是微信输入法，原因先按下不表。重点是从去年底iOS/Android端3.0.0更新开始，微信输入法基本都在围绕“语音输入”做优化迭代——全面升级语音输入大模型、提升识别能力、优化使用体验。最近一轮更新中，全平台版本再次升级了语音输入大模型，支持自动去掉口语中的口水词、智能加标点和分段。

图片来源：微信

雷科技之前也有一篇《语音输入法大横评：豆包/千问/搜狗/Typeless谁才是最强嘴替？》，对四款桌面端AI语音输入工具做了横评。测试中，豆包采用实时转写，基本做到边说边出字，前面识别错误的内容还会随着后文补充被修正。千问的输出速度慢一些，短文本往往需要等3-4秒，长文本会增加到5-6秒，但准确率、自然断句和口语规整表现不错。无论是哪一款，整体语音输入准确性都有了大幅进步，覆盖桌面端和手机端。

图片来源：雷科技

效果也很明显。过去半年，语音输入在室外和家里的使用频率明显上升。即便普通话不够标准，大部分内容依然能准确识别。偶尔有错误需要修改，但频率已经低到不会打断思路。

总结下来，大模型补齐了关键的一环。以前的语音输入更像听写员——目标是把声音转成文字。现在的AI输入法开始理解整句话，会根据上下文纠正同音字、自动补标点、分段，去掉“嗯”“啊”“那个”等口头语，还能处理说话时的重复和自我修正。用户说出来的是一团带着口癖的原始想法，屏幕上出现的已经是一段可以直接发送的文字。这一下，差距就出来了。

另一方面，在AI技术进步的基础上，语音输入的优势太诱人了——最直接的就是降低输入负担。回想日常打字，需要看键盘、选字、处理错别字，脑子里的想法要经过手指才能落到屏幕上。相比之下，说话更接近日常交流，想到哪就能说到哪。尤其在户外走路时，这种差距会被迅速放大——可以看着前面的路继续输入，不需要一直低头盯屏幕。

图片来源：雷科技

效率优势也早有研究验证。斯坦福大学、百度等研究团队2016年在实验室条件下做过对比：手机语音和键盘输入，普通话语音录入速度约为每分钟123个词，拼音键盘约为43个词，前者接近后者的2.9倍。实验室里的短文本不能直接代表真实环境，但它至少说明了语音输入的天然上限——只要识别足够准，人说话通常比在手机上敲字快得多。

此外，语音输入（文字）比纯语音对接收端更“友好”——不管是微信好友、备忘录回看、各种APP和网站，还是AI交互的输入。特别是相对复杂的输入，往往需要停下来思考、基于前文继续输入，纯语音的效率和体验远不如语音输入这种交互形式。退一步说，即便偶尔有错误，修改起来也比较方便。

能力可以很多，交互必须很轻

虽然豆包很多时候被调侃只剩下情绪价值，但不可否认，它在中文语音输入、输出上的优势非常大，在BAT三家中也更早将这种优势转化到输入法的“语音输入”上——去年11月就推出了豆包输入法。

不过具体到“手机输入法”的产品体验，豆包输入法作为新兵还是有不少改进空间。对比微信输入法这类成熟产品，豆包输入法的基础功能、设置选项虽然大差不差——都有联想词推荐、剪贴板、验证码填充，甚至支持双拼，也推出了桌面和手机双端——但缺少了跨设备粘贴同步（包括个人词库、图片），也没有换机助手等功能。需要注意的是，豆包输入法既没有微信输入法的匹配码机制，也没有其他主流输入法的账号体系。

再加上微信输入法本身也很出色的语音输入表现，所以仍然主用微信输入法。

AI不是也不应该成为选择产品的唯一因素。反过来，也希望看到接下来上线的千问输入法APP能带来很好的产品体验。一方面，千问在电脑端已经证明它在语音输入上有很强优势，如果这些能力原样来到手机，至少会有一张不错的入场券。

但一款每天被调用数百次的手机输入法，不能只靠模型秀肌肉。手机和电脑的词库、常用语、剪贴板能否同步？语音启动能不能足够快？是否支持实时转写？长文本整理的力度能否让用户选择，避免AI过度改写原意？弱网和离线状态下还能不能稳定工作？在AI语音输入之外，这些也在很大程度上影响着输入法的体验。就像乔布斯说过的那句：“你必须先从用户出发，再反推需要什么技术。”技术可以提供可能性，但最终的用户体验，还是要回到产品设计和细节上。

前几年的输入法AI化恰恰相反——很多产品从技术出发，把问答、翻译、写作、搜索和智能体一股脑地塞进键盘。但输入法的使用逻辑和AI聊天工具不同，用户每一次唤起键盘，大多只想快速写完一句话。能力可以很多，交互必须很轻。否则，“全能”很容易变成一种臃肿。输入法终究是一件基础工具，在有用和好用之间，还隔着很多设计和细节。

输入法依然是离用户意图最近的入口应用

字节、阿里、腾讯为什么都来做输入法？从用户的角度看并不难理解。对我们每个人来说，输入法都太近了——无论在微信聊天、淘宝搜索、钉钉办公、浏览器搜索、小红书评论，还是文档写作，只要需要把想法交给手机，输入法就有机会出现。它不属于某一个 APP，却能跨过几乎所有APP，是调用频率最高的系统入口之一。

大模型的加入，让输入法能够处理更靠近意图的一层：用户想说什么、该怎么说、这句话是否需要翻译、润色、总结。语音的表达形式，更让这个入口获得了更多原始信息——能接触到语速、停顿。

对于字节，豆包输入法可以把豆包的模型能力带出豆包APP，进入聊天、搜索和办公等更多场景。对于腾讯，微信输入法连接微信社交、搜狗输入法积累和混元模型，既有现成用户，也有最丰富的中文交流场景。而对于阿里，千问输入法有机会穿过电商、支付、地图、办公和内容创作，把千问从一个需要主动打开的AI助手，变成随时可以调用的底层能力。

从实际使用来看，语音输入已经跨过了“偶尔应急”的阶段，但它还替代不了所有键盘场景——办公室里不方便开口，密码和精确编辑仍然更适合手动操作。至于在走路、快速回复和整理想法时，我越来越不愿意“古法手打”。

输入法成AI新风口，微信/豆包/千问聚齐，用嘴打字时代来临

AI语音输入全面进步，用嘴打字时代来了

能力可以很多，交互必须很轻

输入法依然是离用户意图最近的入口应用

相关阅读

相关下载