展望21世纪,展望21世纪汤因比与池田大作

ysladmin 6 0

语音识别是什么?

语音识别就是手机自带的一种键盘功能。更加方便了我们现在的信息传递。如果有一些什么大量的文字需要我们传输的话,就可以使用语音识别功能,这样就大大的增加了办事效率。

所谓的语音识别技术,简单的说就可以用一句话来概括:将语音转化成文字的技术。

当然如果要展开说的话,可能说三天三夜都说不完。先说一说语音识别的典型应用都有什么。

展望21世纪,展望21世纪汤因比与池田大作-第1张图片-星梦范文网
(图片来源网络,侵删)

第一个最典型也是最常见的应用就是输入法,所谓的语音输入法。现在几乎所有的主流输入法都支持语音输入。比如说搜狗输入法,讯飞输入法,百度输入法等等。你在使用这些输入法的时候按住空格键,然后对着麦克风说话,输入法就会自动的把你说的每一句话,每一个词每一个字都转化成文字。如果你的普通话说的非常标准的话,你会发现你在手机上的打字效率变得非常之高,甚至超越了你在电脑上的打字速度。

第二个比较典型的应用,但是普通人平时见得比较少的,是在司法机构的速记,当然凡是需要速记的地方应该都会需要这种应用。过去有一种工作叫速记员,他们在有需要将谈话内容,会议内容记录下来的场合,发挥自己超强的打字天赋,将语音的内容通通的记录成文字。当然这对人的打字速度要求非常之高,于是语音识别技术就非常顺理成章地应用在了这个领域。有了这个技术,速记员只需要将已经被机器转化成的文字进行校对即可。

当然语音识别技术还有很多很多其他的更不太常见的应用,只要需要将语音转化成文字的地方都会用到。

展望21世纪,展望21世纪汤因比与池田大作-第2张图片-星梦范文网
(图片来源网络,侵删)

有的人会问,为什么需要将语音转化成文字呢?因为在计算机领域,语音是一种模拟信号,既不利于保存,也不利于进行分析,尤其是不利于进行分析。如果能够将语音这种模拟信号转化成文字,那么利用已经非常成熟的大数据技术,就可以进行更深度的挖掘和分析,甚至于进行下一步的相关的人工智能应用,比如自然语言理解方面的应用。

最后再说一下,现在的语音识别技术已经发展到什么程度了。建议每一个人都使用自己手机上的语音输入法试一下,看看精度如何。作为人工智能领域最成功的商业化案例之一,语音识别技术正在被却来越多的应用在日常生活当中的方方面面。

如果还有其他的有关人工智能的问题,请关注我并私信留言。我将为大家一一解答。

展望21世纪,展望21世纪汤因比与池田大作-第3张图片-星梦范文网
(图片来源网络,侵删)

语音识别技术,也被称为自动语音识别,目标是为了将人类语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人,而不是其中所包含的词汇内容。

语音识别系统一般分训练和解码两阶段。训练,就是通过大量标注的语音数据训练声学模型;解码,就是通过声学模型和语言模型将训练集外的语音数据识别成文字,训练的声学模型好坏直接影响识别的精度。

语音识别技术已经发展了几十年,直到2009年,Hinton把人工智能深度学习解决方案引入语音识别中,语音识别才取得了巨大突破。本质上是把传统的混合高斯模型(GMM)替换成了深度神经网络(DNN)模型,传统GMM提取语音特征(如下图一所示)经过多个过程,而DNN模型提取语音特征(如下图二所示)可以精简不少工作,不需要对语音数据分布进行假设,不需要切分成stream来分段拟合;DNN的输入可以将相邻语音帧拼接成包含时序结构信息的矢量,在帧层次利用更多的上下文信息,相对识别错误率一下降低20%多,这个改进幅度超过了过去很多年的总和。这里的关键是把原来模型中通过GMM建模的手工特征换成了通过DNN进行更加复杂的特征学习。

在此之后,在深度学习框架下,人们还在不断利用更好的模型,如RNN,LSTM和更多的训练数据进一步改进结果,深度学习使得语音识别的准确率能达到99%,足以在实验测试以外的实际场景中应用,并且被广泛商用。

目前所有的商用语音识别算法没有一个不是基于深度学习的,采用深度学习进行语音识别整个处理过程如下图所示。

标签: 展望21世纪