开发日志10: 沟通“快”与“慢”

大概在几周前，微信的输入框里面突然多了一个麦克风的标志。它的用法也比较简单，就是把语音转换成文本。不过比起传统的微信自己带的输入法，它还多了一个其他的功能，那就是把口语化的文本稍微润色一下，输出偏正式一点的版本。或者说，也没有那么正式，只是去掉了口语化的一些用词。这也和我们平常用大模型语音识别 API 的时候拿到的效果

像以前，语音转换是孤立的，就是说它只是机械地把语音转换成文本，用某种算法。但是现在不同的是，转换完之后还会结合上下文的语义，利用大模型的能力对这段文本进行修饰，修正一些识别错误的地方，补充一些没有识别到的字词，让语句更加通顺。

微信能够做到这个功能，我觉着一方面，是它可以用免费的资源来不断优化自己的语音识别能力；另一方面，也确实是有微信这种全民沟通工具、大厂的担当。因为带大模型的语音识别，如果大量使用的话，价格还是不那么便宜。基本上按照火山引擎的价格来计算，一小时的语音识别大概 4 块 5 毛钱。微信如果按照自家的批发价肯定要便宜很多，但是你想中国有多少人在同时用微信？这样庞大的用户群体所产生的资源消耗也是非常庞大的。可见，微信近期为了拉拢用户、稳固自己在即时聊天软件这一行业的霸主地位，可谓是费尽了心思。

说起语音识别这么高的准确率，其实我刚开始的想法是，语音识别可能是我们人机交互的下一个范式。毕竟一来大家惯用平板、手机这些微型设备，带键盘的习惯本来就不多；二来语音识别的精度似乎已经弥补了键盘打字所带来的优势——而键盘打字本身，好多人因为并没有经过长时间的练习，受限于打字速度和精度，效率其实并不高。这也是为什么在受教育程度比较低的地区，大家用微信还是习惯于直接发语音，甚至直接发语音会话，而不是语音转文字。因为在一些方言地区，一来转文字识别率并不高，二来转得稀奇古怪，反而更容易造成误解。所以我一直在想，语音识别是不是要代替键盘了呢？而且在一些软件开发的场景，据说一些公司给程序员配置了麦克风，大家直接用语音跟 AI 交流，节省了打字时间。

但是据我的使用体验以及观察，我觉得日常生活场景里其实会出现两种分化。

一种是比较粗泛、比较日常的，就像我们平时随意聊天，主要为了表达意思。这种场景下语音输入会成为很常用的工具，而且用起来非常自然。以前是你得先在脑子里组织好语言，再用键盘打出来；现在直接说就可以——其实是一个从自然表达，到刻意转化，再回归自然的过程。不像现在屏幕上堆的各种信息，反而显得刻意。我们常说的“科技感”，反而像水和电一样融入生活，才会让人觉得舒服。

另一种是对规范性有要求的场景，像写代码、发邮件这类，就不太适用。这类场景对文字本身的情绪表达要求较少，但是对逻辑严谨性、表述准确性的要求很高。在我看来，恰恰是这种场景，键盘还具备自己的、甚至不可被替代的优势。

先说软件开发。这里我指的是特定语种，非英语语种。因为如果是英语，它的函数名、它的自然语言都是英文单词，这样比较容易表述；即使你把函数名读错了，或者识别的时候把本来连在一起的单词拆开了，也无所谓，大模型有这个容错能力。但是作为非英语母语的国家，我们在口述需求的时候，需要带上某些路径，需要带上某些函数的名称，需要带上某些文件名称，这时候这些由英文组成的单词、目录、文件名，虽然我们也可以去念英文，但是它的识别准确率、精度是非常低的。况且现在大模型所使用的 skill（也就是技能），是用斜杠和英文单词来开头的，这对于我们口述的时候调用技能也是一个不小的挑战。另一方面，软件开发的时候，好多专有的名词其实汉化得并不怎么好，大模型在理解的时候牵强附会，容易造成二义性。

另一个我觉着键盘具有优势的场景，是发邮件，或者说是职场交流。因为在职场交流的时候，我们都需要字斟句酌，要把握这句话发出去的效果到底是怎么样的，有没有感情过于强烈，或者说是忽视了某种自己本来不想表达、却隐含在句子里面的内容。尤其是在工作群里，你一句话脱口而出，对方看到之后产生的第一反应，是最贴近自然语境的，但这个回复有可能并不符合你想要在公司里塑造的个人形象，或者说你在邮件里回复的时候，想要扮演的那个职业角色，并不是你脱口而出的那个状态。

而口述的时候，我们往往表达的是脑子里面反应出来的第一想法、第一印象，是很难有深度思考的。就好像我们可以口述一篇连贯的长文，也可以表达得逻辑非常清楚，结构非常明确，但是我们还是需要逐字来读一遍，逐字改一遍，把它改成书面化的形式。也就是说，我们在表达一些正式的文本的时候，其实是不符合我们语言本身的表达习惯的，我们需要口述之后再去修改，这样反而增加了一层转化过程。所以这种场景，我们还是选择去用键盘来反复打字、反复修改。

所以大模型加语音识别，虽然取得了很高的准确率，但是并不适合每一种场景，或者说有些场景本身就会抑制大模型语音识别准确率的发挥。就比如说写代码，就比如说写邮件、在公司群里面回消息，我们可能更需要另一种表达节奏，或者说更需要慢一些，来塑造我们想要的那个形象、想要的那种效果。

其实说到底，交互场景的本质，是信息的传达。语音适合及时的“快”沟通，而键盘则适合字斟句酌的“慢”沟通。不是我们选择输入的方式，而是要衡量需要给说出去的“话”留下多长的缓冲地带。

开发日志10: 沟通“快”与“慢”

评论Comments

留下评论Leave a comment