开发日志10: 沟通“快”与“慢”

大概在几周前,微信的输入框里面突然多了一个麦克风的标志。它的用法也比较简单,就是把语音转换成文本。不过比起传统的微信自己带的输入法,它还多了一个其他的功能,那就是把口语化的文本稍微润色一下,输出偏正式一点的版本。或者说,也没有那么正式,只是去掉了口语化的一些用词。这也和我们平常用大模型语音识别 API 的时候拿到的效果

大概在几周前,微信的输入框里面突然多了一个麦克风的标志。它的用法也比较简单,就是把语音转换成文本。不过比起传统的微信自己带的输入法,它还多了一个其他的功能,那就是把口语化的文本稍微润色一下,输出偏正式一点的版本。或者说,也没有那么正式,只是去掉了口语化的一些用词。这也和我们平常用大模型语音识别 API 的时候拿到的效果比较类似。

像以前,语音转换是孤立的,就是说它只是机械地把语音转换成文本,用某种算法。但是现在不同的是,转换完之后还会结合上下文的语义,利用大模型的能力对这段文本进行修饰,修正一些识别错误的地方,补充一些没有识别到的字词,让语句更加通顺。

微信能够做到这个功能,我觉着一方面,是它可以用免费的资源来不断优化自己的语音识别能力;另一方面,也确实是有微信这种全民沟通工具、大厂的担当。因为带大模型的语音识别,如果大量使用的话,价格还是不那么便宜。基本上按照火山引擎的价格来计算,一小时的语音识别大概 4 块 5 毛钱。微信如果按照自家的批发价肯定要便宜很多,但是你想中国有多少人在同时用微信?这样庞大的用户群体所产生的资源消耗也是非常庞大的。可见,微信近期为了拉拢用户、稳固自己在即时聊天软件这一行业的霸主地位,可谓是费尽了心思。

说起语音识别这么高的准确率,其实我刚开始的想法是,语音识别可能是我们人机交互的下一个范式。毕竟一来大家惯用平板、手机这些微型设备,带键盘的习惯本来就不多;二来语音识别的精度似乎已经弥补了键盘打字所带来的优势——而键盘打字本身,好多人因为并没有经过长时间的练习,受限于打字速度和精度,效率其实并不高。这也是为什么在受教育程度比较低的地区,大家用微信还是习惯于直接发语音,甚至直接发语音会话,而不是语音转文字。因为在一些方言地区,一来转文字识别率并不高,二来转得稀奇古怪,反而更容易造成误解。所以我一直在想,语音识别是不是要代替键盘了呢?而且在一些软件开发的场景,据说一些公司给程序员配置了麦克风,大家直接用语音跟 AI 交流,节省了打字时间。

但是据我的使用体验以及观察,我觉得日常生活场景里其实会出现两种分化。

一种是比较粗泛、比较日常的,就像我们平时随意聊天,主要为了表达意思。这种场景下语音输入会成为很常用的工具,而且用起来非常自然。以前是你得先在脑子里组织好语言,再用键盘打出来;现在直接说就可以——其实是一个从自然表达,到刻意转化,再回归自然的过程。不像现在屏幕上堆的各种信息,反而显得刻意。我们常说的“科技感”,反而像水和电一样融入生活,才会让人觉得舒服。

另一种是对规范性有要求的场景,像写代码、发邮件这类,就不太适用。这类场景对文字本身的情绪表达要求较少,但是对逻辑严谨性、表述准确性的要求很高。在我看来,恰恰是这种场景,键盘还具备自己的、甚至不可被替代的优势。

先说软件开发。这里我指的是特定语种,非英语语种。因为如果是英语,它的函数名、它的自然语言都是英文单词,这样比较容易表述;即使你把函数名读错了,或者识别的时候把本来连在一起的单词拆开了,也无所谓,大模型有这个容错能力。但是作为非英语母语的国家,我们在口述需求的时候,需要带上某些路径,需要带上某些函数的名称,需要带上某些文件名称,这时候这些由英文组成的单词、目录、文件名,虽然我们也可以去念英文,但是它的识别准确率、精度是非常低的。况且现在大模型所使用的 skill(也就是技能),是用斜杠和英文单词来开头的,这对于我们口述的时候调用技能也是一个不小的挑战。另一方面,软件开发的时候,好多专有的名词其实汉化得并不怎么好,大模型在理解的时候牵强附会,容易造成二义性。

另一个我觉着键盘具有优势的场景,是发邮件,或者说是职场交流。因为在职场交流的时候,我们都需要字斟句酌,要把握这句话发出去的效果到底是怎么样的,有没有感情过于强烈,或者说是忽视了某种自己本来不想表达、却隐含在句子里面的内容。尤其是在工作群里,你一句话脱口而出,对方看到之后产生的第一反应,是最贴近自然语境的,但这个回复有可能并不符合你想要在公司里塑造的个人形象,或者说你在邮件里回复的时候,想要扮演的那个职业角色,并不是你脱口而出的那个状态。

而口述的时候,我们往往表达的是脑子里面反应出来的第一想法、第一印象,是很难有深度思考的。就好像我们可以口述一篇连贯的长文,也可以表达得逻辑非常清楚,结构非常明确,但是我们还是需要逐字来读一遍,逐字改一遍,把它改成书面化的形式。也就是说,我们在表达一些正式的文本的时候,其实是不符合我们语言本身的表达习惯的,我们需要口述之后再去修改,这样反而增加了一层转化过程。所以这种场景,我们还是选择去用键盘来反复打字、反复修改。

所以大模型加语音识别,虽然取得了很高的准确率,但是并不适合每一种场景,或者说有些场景本身就会抑制大模型语音识别准确率的发挥。就比如说写代码,就比如说写邮件、在公司群里面回消息,我们可能更需要另一种表达节奏,或者说更需要慢一些,来塑造我们想要的那个形象、想要的那种效果。

其实说到底,交互场景的本质,是信息的传达。语音适合及时的“快”沟通,而键盘则适合字斟句酌的“慢”沟通。不是我们选择输入的方式,而是要衡量需要给说出去的“话”留下多长的缓冲地带。

N
norvyn

独立 iOS 开发者,写字的人。在一座有海的城市,慢慢地做一些小而确定的东西。An independent iOS developer and writer — slowly making small, certain things in a city by the sea.

评论Comments

加载中…Loading…

留下评论Leave a comment