智能语音技术，为“声音”带来更多可能

让虚拟歌手为你唱响你想听的任何歌曲，让自己的声音录入车载导航为你指明一路方向……智能语音技术正在诠释我们对于声音的各种天马行空的构想。

11月2日，著名摇滚乐队披头士发布了一首创作于1970年代的“新单曲”，这首歌曲借助人工智能技术，将已故歌手约翰·列侬的声音从四十多年前模糊的录音中清晰分离出来，与乐队其他成员完成了一场“跨越时空”的相聚，引得乐迷大呼“感动”。智能语音技术在近年来不断发展，一步步融进我们的日常生活，未来还能够给我们带来怎样的期待？

从生活场景窥见智能语音魅力

在南京新街口熙熙攘攘的街道上，打开导航软件，“前方十字路口请直行。”与以往不同的是，这次耳边导航的声音不是系统语音，而是令人无比熟悉的自己的声音。从明星、虚拟人物都可以在你耳边伴你出行，再到录制自己的声音自制导航语音包，这可能是广大民众对于智能语音技术最具象化的体验之一。

打开“百度地图”app的“语音包”功能，可以选择用3-9句话在5分钟内快速生成个人语音包，也可以录制100句话，生成“现场级高品质语音包”，记者体验发现，录制的语句越多，生成的语音就更加符合本人的音色，也更加自然，减少了机械感。

“百度为实现语音定制，在ai技术领域独创了风格迁移技术meitron模型。”百度智能驾驶事业群市场总经理、首席品牌官王翀介绍，该模型能够根据一个人的声音特征，合成出不同的讲话风格、情感模式；甚至能够依靠3-9句话这样的少量样本语音，合成符合一个人讲话特征的音库，从而让个性化语音合成的定制门槛大大降低，用户使用起来操作非常简单、快捷。

从导航语音包到车载助手，随着技术变迁，智能语音给大众带来的新体验也层出不穷。“以前车内主要使用的交互形式是‘命令式交互’，就像是语音遥控器，用户通过语音给车机发出一道指令，它按照你的指令完成任务。但大模型上车后，人车交互的方式会从‘命令式’升级到‘对话式’，用户直接表达需求，系统根据它的分析和理解，调动应用资源进行需求满足。”王翀表示，现在，车辆搭载的智能语音可以帮助用户完成行程规划、景点推荐、娱乐陪伴等功能，从限定领域、限定意图的语音交互，发展成为非限定领域交互的通用人工智能。

在声音中“去芜存菁”或“无中生有”

伴随智能语音技术的发展，其应用场景正在不断丰富，除了在车载场景的应用，智能语音还在智能家居、智能教育、智能可穿戴设备、智能客服、游戏娱乐等多个领域大展拳脚。根据德勤数据2021年发布的行业报告，智能语音应用于日常生活和特定场景的需求比例正在不断扩张，预计2030年消费级应用场景超过710亿元，企业级场景将达到740亿规模。

上海交通大学计算机系教授、思必驰公司联合创始人俞凯介绍，目前智能语音技术有几种典型的落地场景，一是语音识别、语音转写为主的应用，比如会议转写系统，不仅能将语音记录下来，转写为文字，还能分辨出每一个讲者；二是偏语音合成类的应用，比如常见的短视频配音、车载系统、智能家居系统中的语音播报等；三是对话类机器人，是集合语音识别、自然语言理解、语音合成等技术的综合系统。

“近几年，智能语音明显出现大规模应用的场景，比如大型会议、电视节目上的实时字幕系统，同时，智能硬件的语音交互化成为发展趋势，在3-5米的远场场景控制电视、冰箱等智能家电也成为可能。”俞凯说。

在大众的传统认知中，会认为语音识别、语音合成等不同的技术路线象征着不同的技术含量。俞凯表示，不同的技术路线，其实各有需要攻坚克难的“坎儿”，在技术含量上难分伯仲。“以语音识别为例，语音识别是将声音转成文字，普通人说话都会包含文字信息，因此这项技术是提取话语中的共性信息。如果是在高噪音、高回声这样的复杂场景，语音识别就会变得很复杂。而语音合成，则是将文字转为声音，要做到‘无中生有’，这项技术的复杂度在于要做到逼真的、个性化的合成，会需要添加文字之外的‘弦外之音’，包括情感、说话的风格等等。”俞凯表示。

而学术界、产业界对于各项技术也有各自的判断标准，对于语音识别，主要看识别文字的错误率、说话人的识别的精准度；而对于语音合成，则依靠听者更为主观的判断，往往会小范围地组织一批测试人员进行主观听测打分，最终将分数平均下来，形成1-5分的mos（平均主观意见分）分，不仅判断声音的自然度，也会判断合成声音和采集目标人的相似度。

科研走向产业的爬坡过坎

随着我国智能语音产业进入规模化发展阶段，如何加快关键技术研发和产业化，成为业界的关注焦点。“从技术研发到产品落地的过程中，还面临着诸多挑战。”俞凯表示，“第一，在技术研发中，在技术测试时使用的固定场景，和真实使用的场景往往是差别巨大的，比如语音识别，在测试场景中，环境干扰较小，而真实场景中可能有多个人同时说话，且数据量更小，情况更加复杂。第二，我们要关注的不仅是模型或系统本身识别和合成的性能，更要关注它的效率，但如果一味追求效率，技术就会受到很多限制，要兼顾效率和性能，也是一种‘戴着镣铐跳舞’。第三，智能语音系统不仅要求单项技术做得好，更要求系统集成能力好，要让一个对话机器人‘听得懂又说得出’，要涉及语音识别、自然语言理解、语音合成等技术环节，需要连成一个完整的系统，实现平滑的功能输出，同时更要为将来的大规模应用，在效率和成本上探索更优解。”

促进智能语音技术与产业深度融合，离不开政策支持。近年来，我国系统布局人工智能科技创新，建设18个国家新一代人工智能创新发展试验区和32个开放创新平台，其中，“语言计算国家新一代人工智能开放创新平台”就由位于苏州的思必驰科技股份有限公司承建。江苏作为较早布局人工智能产业的省份，在人工智能基础设施建设方面也铸牢了坚实的基底，2022年，长三角首个国产技术算力中心——南京鲲鹏·昇腾人工智能计算中心落户江北新区，为人工智能企业和创新团队提供算力支持。

面临智能语音技术面临的研发和产业化挑战，建设良好的产业生态是至关重要的。“如果能将语音交互、合成识别、自然语言处理大模型等各种各样的应用场景进行推广，很多问题就能迎刃而解。”

俞凯表示，目前生活中还有很多场景没有实现人工智能的运用，但应用潜力巨大，“很多具体场景的落地，还需要政府的支持和推动。比如目前政务一网通办的热线电话，很多时候都需要等待，如果未来政务系统如果能够采用大模型配合语音识别、语音合成，技术就能更好、更快地服务千家万户。”另外，“如何在法律法规上做好准入，做到创新和安全的平衡，让创新环境变得更加平滑，未来也是大有可为。”

新华日报·交汇点记者张宣杨易臻

上观号作者：交汇点