一个一亿人用的语音识别APP,需要多少人开发
发布网友
发布时间:2022-05-11 07:18
我来回答
共3个回答
热心网友
时间:2023-10-08 17:35
优势的话,一是学习者心理压力小。可能很多人小时候都经历过,在街上碰到一个老外,爸爸妈妈就在一旁戳你:“快去和老外对个话”。其实对很多人来说,开口说外语的门心理障碍其实是很大的,而通过机器学口语就完全没有这种压力。其次是可以利用碎片化时间,学习更高效,而和真人对话的时间成本和门槛都比较高。
具体来说,目前的语音识别技术可以怎样帮助学习者提高口语呢?
秦龙:主要是两种方式,第一种的目的是帮助用户改善发音:软件给出一个句子,用户读句子,机器会通过语音识别技术来判断你发音对不对,给出一个评分。
第二种方式,目前的语言学习软件,包括 Duolingo 在内,做得都还不够好:理想状况下,在创建的场景下,学习者和电子设备应该可以实现自由对话,语音识别技术不但能够识别发音是否标准,还能进行语义理解,判断学习者的词汇句法是否正确,这和Siri的技术有些相似,但具体如何在 Duolingo 中实现,我们还在研究中。
目前 Duolingo 网页端已经可以做到的是:在创建的场景中,引导用户先用文字翻译句子,再把翻译后的外语读出来,机器会分别就文字翻译和口语发音两方面的水准进行打分。
Duolingo 目前提供超过40种语言课程,甚至包括克林贡语。语音识别技术支持其中多少种?
秦龙:目前已支持的语言有10种(英语、西班牙语、法语、德语、意大利语、葡萄牙语、荷兰语、丹麦语、瑞典语、土耳其语),已在开发中即将上线的还有乌克兰语和挪威语。Duolingo 在英语语音识别中投入最多,它的识别结果和打分也最准确,因为英语是目前 Duolingo 上学习人数最多的语言,占到全部流量的30-40%。
团队目前有多少人?每种语言的语音识别需不需要开发者本身懂这种语言?
秦龙:Duolingo 语音识别团队目前由我一个人负责。我本人只会中文和英文,所以刚开始接触的时候也有些忐忑。最后衡量语音识别效果的是客观评测,所以开发者其实并不必须掌握语言本身,但对每种语言的是深入理解对开发是有很大帮助的,在细节的处理上会更准确一些。
能不能给非技术背景的读者解释一下,多语种语音识别的难度究竟在哪里?Duolingo 每开发一种新语言的成本如何?
秦龙:难度主要来自三方面。一是数据非常庞杂:来自网页端、平板、手机端的语音质量都不相同;男女老少,甚至不同文化程度的人有不同的语言习惯;朗读和自然对话的语音数据不同;室内录音和室外录音也数据也不同......要将这些情况全部考虑进去,做出准确的识别结果,需要相当大的开发量。
二是不同语言有不同元素,比如中文的特点是有平仄声调,德语的特点是可以把不同词汇组在一起生成一个新词,因此词汇量异常的大,开发时需要根据每种语言的特点做相应调整。
三是多语种数据库本身有很大的维护成本。
目前世界上识别语言最多的技术应该来自Google,覆盖了40多种语言,Siri 和微软也都能识别20多种。
就 Duolingo 来说,开发英语识别这部分用了2-3个月,其他一些小语种(西、德、法、意)在数据到位的情况下,用2-3个星期就完成了。
Duolingo 作为一家创业型公司,整个公司负责语音识别技术的也只有你一个人,没有科技巨头们那么多的资源,又要开发多种语言,怎么应对这种压力呢?
秦龙:我们的诀窍主要是:利用一切可以利用的免费资源。比如,我们会利用公开的Google API 在Chrome 版本的 Duolingo 中使用,省去一部分开发资源;我们还会利用 Google Voice Search 的语音识别,不过因为我们识别需要服务于语言学习的目的,而不是搜索目的,所以使用时会在后端做一些调整;另外,我们还会抓取一些开源词典的发音,并根据 Duolingo 的需求做一些剪裁和修改。
热心网友
时间:2023-10-08 17:35
多少人使用与多少人开发并没有直接关系,功能就那样,人多开发可能快,人少可能开发慢
使用的人多可能是功能强大,适合大众使用,受用户欢迎
热心网友
时间:2023-10-08 17:36
盘点稚汗为人谒粟
云知声是如何拿到1亿元A轮融资的?
1999年刘庆峰创立了科大讯飞,同为中科大校友的梁家恩当时还没毕业,两年后梁家恩开始接触语音识别技术,并在国内最早进行语音识别的研究机构——中科院自动化所深造5年,现在,二人站到了同一个舞台上。在创立初期云知声获得了千万元级别的天使投资,2012年9月,云知声发布“云知声”语音识别公有云,成为国内...
智能语音机器人哪个好
语音机器人的核心是语音识别,现在各大厂家的识别率都差不多,主要看对行业的优化。朗深公司的人工智能机器人针对多个行业做了优化,支持听写模式和关键词模式,支持打断和非打断,在电销、房产、教育等行业应用广泛。朗深人工智能机器人与朗深...
chatGPT是什么意思?
ChatGPT是是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话,不仅上知天文下知地理,知识渊博,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,但ChatGPT不单是聊天机器人的简单,甚至能...
若琪音箱可以随身携带,随身携带怎么联网?
1.通过有线网口直接连接 WiFi音箱在背部的接口区域拥有RJ45网口,因此最简单直接的方法就是通过有线网络连接,但这样缺点也相当明显,使得音箱并不是真正的无线,摆放时会受限于网线的长度,不易和路由器离开较远的距离,对于居家面积很大的网友来说,这种有线连接方式显然不太适合。2.通过有线网口连接再...
手机上最好用的输入法是什么?
3、讯飞输入法 讯飞输入法的特点是它的语音输入。在语音识别方面,讯飞是最先布局的输入法,在网络环境顺畅的情况下,讯飞输入法的语音转换文字几乎没有停滞,十分及时。1分钟输入400字对于大多数人来说可能稍微困难一些,但一分钟两百字基本是没有问题的。4、QQ输入法 QQ输入法主要还是依托于腾讯的生态...
为什么全民K歌更新不了?
2019年声网针对客户除了RTC外的实时互动需求发布了云市场,首次提出构建实时互联网生态的概念,建立开发者生态,引入美颜、鉴黄、语音识别、互动白板等领域的上下游合作伙伴,其中不乏阿里云、小米、云知声、依图、商汤、搜狗、360AI等明星开发者,一起给客户提供完整的实时互动能力。 2020年声网推出了Agora云市场2.0版本,可将...
如何看待华为Mate 40系列国内发布会自有应用服务,有哪些亮点?
我觉得挺好的,就是可以吸引一些喜欢这类就是服务的那个个性化的和人不一样,手机的一群人,然后让人觉得就是用这款手机和别人不一样,然后完整好就让人可以有那种炫耀和那个羡慕 我觉得挺好的,就是可以吸引一些喜欢这类就是服务的那个个性化的和人不一样,手机的一群人,然后让人觉得就是用这款...
3g时代移动互联网将重点发展的业务包括什么
如余额宝、理财通等移动互联网金融理财产品风生水起,改变了普通百姓的金融消费习惯和理念,让指尖金融在年青人中广泛流传。 4、移动互联网驱动创新,引领产业融合发展 2013年,移动互联网驱动产业融合、创新,开启了一扇扇创新的大门。可穿戴设备、4G、云计算、大数据,以及语音识别技术等等都给相关行业的发展带来巨大的...
小米10和爱酷3哪个更值得入手?
IQOO 3和小米10哪个更好。事先说明,外观属于主观因素,每个人的眼光都不一样,因此不评价两台手机的外观。iQOO3和小米10对比评测:从上面的参数对比表格可以看出,iQOO 3和小米10配置比较接近,但是体验方面小米10更占上风。首先是屏幕,iQOO 3官网中没有说明具体的刷新率,那就意味着还是60Hz。对比...