问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

一文看懂语音合成:模拟人类语言,暗藏哪些商机?

发布网友 发布时间:2022-12-20 22:55

我来回答

1个回答

热心网友 时间:2023-05-28 09:34

语音合成技术给我们带来了很多惊喜,你知道自己每天都在与它们打交道吗?而开车时的导航就是语音合成的一种。虽然目前的"它们"只会相对机械的朗读文章,但可以肯定的是,语音合成技术已经走出实验室,开始商用,其潜在的巨大市场已露出曙光。

我们的身边总是人声鼎沸。


婴儿牙牙学语,男女互诉爱意。在肺部、气管和声带的共同作用下,声音出现,喉内肌肉协调作用下,我们说出能够代表自己想法的字符,再赋予其愤怒或喜悦或悲伤的 情感 ,人类的语音就此形成。


18世纪末,一个因土耳其行棋傀儡的*将在多年后臭名昭著的发明家沃尔夫冈·冯·肯佩伦,花费了人生最后20年的时间,试图模拟人类的语音。他做了一个布满孔洞的空箱,空箱连接着一个奇异形状的鼓风机,鼓风机被压动后将使得内置的簧片振动,这一过程模拟了人类的发声,也确实发出了声音,而这也成就了人类最早的语音合成机械之一。

让机器更像人类,是无数科学家的梦想。这样的梦想被多方位的推进,从机器的外形上、内核的思考运算上,以及对外表达的说话上。


如今,电子设备取代了空盒子,算法则比簧片更能够协调发声。在技术发展下,声音的波动被计算机捕捉、计算、指引,最终发出声音。这一项带着前人梦想的技术,不再单单出现在电影和小说里,也承载起了巨大的市场走进千家万户,这就是语音合成。


从Siri开始的热潮,语音合成潜力无限



同时,Siri的热潮也拉开了语音合成技术运用的大门。


2014年微软推出了"小娜"与"小冰",这是将Siri所拥有的语音识别技术及语音合成技术分开来,小娜负责理解复杂的口语指令并进行执行,而小冰主要能够和人类友好地聊天。

随后,这样的运用逐步增多:2014 年底,亚马逊发布了 Echo 智能音箱,语音助理 Alexa也随之亮相;一年半后,Google 也发布了第一代智能音箱 Google Home 和语音助手 Google Assistant。


国内的巨头也不遑多让,京东叮咚智能音箱、天猫精灵智能音箱、小爱系列智能音箱、小度智能音箱,也纷纷进入了国人的家居生活。


Siri的热潮同步开启的,不仅仅是语音合成技术在硬件上的应用,也包括一系列更具想象力的交互场景,带来了巨大的商机。


2015年春节,本就搭载了语音导航的高德地图与郭德纲合作,推出了高德地图欢笑版。用户打开高德地图,不仅能够听到导航播报,还能听到郭德纲的极具特色的段子。这一次尝试,让高德地图一度跃至苹果App Store榜单第2名。


在今年新冠肺炎疫情期间,"宅经济"大行其道,"听书"市场也快速爆发,有声阅读成为新的阅读潮流。

除此以外,短视频中的AI配音,让视频内容者省去大量配音时间;对已故知名艺人的声音采集,实现过去与现在的交互,圆了一代粉丝的梦想……


我们可以看到,语音合成技术的未来拥有巨大的想象空间,根据赛迪智库数据,预计到2021年智能语音市场规模将达195亿元。在这其中,智能语音就由语音识别技术(ASR)和语音合成技术(TTS)共同组成。


而这两项技术也正在被头部企业迅速推进,市场之下,语音合成已经不仅仅代表人类过去的梦想,更是代表着更"大一统"的 科技 格局,毕竟,这一技术改变着人类与机器的交互方式,也将改变未来人类的机器使用习惯,代表着全新的机会与入口。


从过去到现在,语音合成技术一览


1773年,*科学家、在哥本哈根生活的生理学教授克里斯蒂安·克拉特齐斯坦(Christian Kratzenstein)制造了一个特别的设备,通过共鸣管和风琴管的连接,几乎可以完美的发出 a、e、i、o、u 这五个元音。


十多年后,前文提到的沃尔夫冈·冯·肯佩伦也制造了一台类似的机械声学语音机器。随后,多位发明家基于这一机器进行改进,都是试图通过物理机模拟人说话发音。


这样的尝试已经令人难以想象,不过,即使这样的物理机发展得登峰造极,也无法模拟出我们说出的每一个音节、无法拥有人说话的音质,也无法停顿、无法带有情绪。


因此,另一种方式出现——拼接系统,让说话人录制语音存入系统,在合成语音时选择对应的片段进行拼接、合成。这样的拼接系统能够相比物理机极大地接近人声,虽然拼接处的瑕疵难以消除,但是随着如今大数据时代的来临,大语料库的出现,让拼接出的语音逐步真人化,直至如今依然有商业系统在使用。

基于参数的合成技术的诞生背景则是基于神经网络架构的深度学习方法的飞速进展。当时,对语音的识别不再是识别一个简单的词和短词组,而是基于统计的方法,运用声学模型帮助计算机认知每个音素单元的声学特征、运用语言模型帮助计算机实现对人类用词习惯的认知,最终给到用户最高可能性的连接。在这其中,典型的模型是隐含马尔可夫模型(HMM),用来描述如何在可变长的时序特征序列上打词标签。


2017年3月,行业的引领者Google 提出了一种新的端到端的语音合成系统:Tacotron。端到端语音合成是在参数合成技术上演进而来的,把两段式预测统一成了一个模型预测,即拼音流到语音特征流的直接转换,省去了主观的中间特征标注,克服了误差积累,也大幅度提高了语音合成的质量。


然而,为了实现真正像人一样的发音,语音合成系统必须学会语调、重音、节奏等表达因素,这一问题,Tacotron也并未解决。


谷歌曾共享了两篇新论文试图解决这一问题,第一篇论文《Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》介绍了"韵律学嵌入"(prosody embedding)的概念。论文中为 Tacotron 增加了一个韵律学编码器,该嵌入捕捉包括停顿、语调、语速等在内的音频特征可根据一个完全不同的说话者的声音生产语音。

第二篇论文《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》则在上一篇论文的架构上进一步展开,并且创新性地提出了一种建模潜在语音"因素"的无监督新方法。这一模型之下,学习的不再是时间对齐的精确的韵律学元素,而是较高层的说话风格模式,并且可以迁移于任意不同的短语之中。


如果论文提到的模型实现,那么我们便可以迫使 Tacotron 使用特定的说话风格,不需要参考语音片段,并能创造出语音长度多样化的不同语句,并带有情绪。


在不远的将来,或许我们就将听到,来自机器的人类声音。


国内:积极商用,进展瞩目


在语音合成的重要研究中,因为国内起步较晚,所以我们很少看到突破性的技术发展。但是,即便停留在艰难的 探索 初期,巨头们之于语音合成仍旧趋之若鹜。


我们也惊喜地看到,不少企业在近期通过语音合成的商用落地,展现出了自己的技术实力。


① 京东数科:AI主播"小妮"上岗


京东数科基于京东多年在人工智能、大数据、云计算等领域的技术沉淀,在2018年就开始组建机器人的团队,研究覆盖生命科学、传感器材料乃至运动力学与人机交互。


在全面的机器人开发体系下,今年5月,京东数科推出了令人瞩目的AI主播"小妮",这是京东数科自主研发的AI虚拟数字人产品首次亮相。

小妮的真实是全方位的,在听感、表情、头部动作乃至口型上,小妮都极像真人。从文字到语音,小妮通过自研的轻量级对抗语音合成技术进行转化;而小妮特色鲜明的声音及极具真实性的呼吸和停顿,则是来源于在多人数据上结合深度神经网络进行个性化建模……


更为重要的是,小妮的出现打通了语音、图像、视频,在语音生成视频的阶段,她的形象同样真实。因为京东数科AI实验室利用对抗生成网络来还原更真实的表情,通过3D模型运动追踪技术来确保AI主播在说话时口型准确、表情细腻、头部运动自然。



而除了主播领域以外,AI虚拟数字人还可以用智能客服及招聘领域。在未来,我们可以预见到,AI虚拟数字人在其他高重复性场景的更多运用可能性。而伴随着京东数科全面的机器人体系研发技术的进展,或许也将出现超乎我们想象的AI运用。


② 科大讯飞:为多家企业提供底层技术支持



早在之前,科大讯飞就推出了讯飞录音笔、智能鼠标、阿尔法蛋等涉及语音交互的产品。今年,来自科大讯飞地一款彩色墨水屏阅读器正式面世,一方面,阅读器可以进行常见的新闻播报、语音读书,满足用户的基础要求;另一方面,阅读器结内置了神秘AI主播,可以对话用户、助力用户解决问题。同时,科大讯飞也为多家企业提供底层技术支撑,覆盖智能手机、智能 汽车 等多个领域。


③ 腾讯云:语音累计音色种类达24种


而对于拥有国内最大流量池——微信、QQ的腾讯而言,这家企业则选择为内容创业者提供服务。


今年9月,腾讯云语音合成团队正式开放面向全量用户的合成音频平台,该平台能够帮助用户在零门槛的情况下实现语音合成技术的运用,用户只需要直语音合成控制台上生成和下载文本对应的音频文件即可。该功能的侧重点是帮助内容创作者在公众号、短视频、小视频等内容上更简单、快捷地插入对应所需的音频文件。同时,腾讯云还发布了全新地11种音色,其中甚至包括粤语这样的方言在内,目前累计音色种类达24种。


百度:百度大脑开放全栈语音引擎能力

作为将AI作为战略进行投入的百度,在语音合成上的推进也不容小觑。

去年,已经开放三年的百度发布了语音引擎。这是一套非常全面的系统,覆盖内容非常广泛,包括硬件模组、开发板以及语音交互场景解决方案等。在这其中,百度也专门围绕语音合成的成功进行了发布,推出了6个在线语音合成精品音库和5个离线语音合成精品音库。


未来语音合成将更接近人类的语言


立足现在,我们不禁畅想,未来的语音合成将是什么样,又将出现在哪些地方?


在技术上,毫无疑问,未来的语音合成将更接近人类的语言。一个理想的语音合成系统由三部分组成:文本分析、韵律生成和合成语音,而在这三方面,行业的发展都还有待提高。


在这其中,韵律生成是行业面临的共同问题,如何可以让语音合成更像人类?更具表达力?作为声学模型,还有大量个性化、 情感 化的变化因素需要学习。而值得一提的是,语音合成技术的复杂度也需要降低,从而实现更广度地运用。我们也相信,随着大量语料的有效使用,这一切问题也都将解决,未来,语音合成必将更加"传神"。

而随之而来的,我们的生活也将被改变。


一方面,在 科技 带来革新的同时,传统也将受到冲击。在上文中,小妮被运用与客服以及招聘的部分环节,那么很明显,在不远的未来,具有重复性的语音性质的工作将受到巨大影响。


而另一方面,更为智能的未来也将到来,在将来,人与机器的交互方式或许将被彻底改变,到那时,全新的商业机会也将藏于其中。


为了迎接这一时代,巨头趋之若鹜,而普通人也同样该砥砺前行。

#智能语音##语音合成#

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
临沂比较有名的男装品牌 呼伦贝尔市悦动网络科技有限公司怎么样? 呼伦贝尔中汇实业有限公司怎么样? 呼伦贝尔油玉不绝电子商务有限公司怎么样? 如何避免wps卡顿? 属鼠的男人找对象是属什么,属鼠的人和什么属相合 96年鼠的姻缘在哪年 属相相合年份运势提升 2024属鼠找对象属什么最佳 黑客攻击网站能报案吗 黑客攻击报案有用吗 如何很好的保存葡萄干 教你方法 宿命的拼音 请问《光蛋》这个词有几种解释?什么意思?说明白了加50!就50分了谢谢大家 穷光蛋,猜三个数字是什么 2跟4平方线接在一起应该用多大插针 小区的区怎么写 区组词拼音 求战队名字,马甲格式,游戏名字,要求霸气,大手那样的,不要土的 金字旁加巳念什么 “怒而兴师,喜而交兵,哀而发战。”下一句是什么? 弹弹堂情侣名字 要好看的 弹弹堂名字大全 适合游戏的名字 周围是什么结构的字,书写时应注意什么 周是什么结构 周的意思 普通鳾的生活习性 鳾的种类介绍 左“市”右“鸟”读什么? “邹”字有多音字吗 岭第七画的笔画名称 哪里的哪的笔顺 狗狗弓形虫病的症状(狗狗感染弓形虫的症状) 辕的意思与什么有关 云淡风清日,酌酒论江湖,淡淡忧,清风不解点点愁。请对下联 欲寄清风酌两杯下一句 清浅岁月下一句怎么对 中字旁的字 有哪些中字旁的字 政的拼音和部首 四人的声音采用的结构形式是什么 《南辕北辙》这则寓言按什么的结构 站长工具怎么用呀? 幽的基本解释 并的部首是什么有几画 院的同音字是什么 郂怎么组词 正字有几个多音字组词? 正字的笔顺 绞丝旁加宁的是什么字 纻丝名词解释 求“羃”字的解释 樗蒲的意思解释