人机语音交互及其应用

作者: twd2 日期: 2017 年 03 月 23 日被围观 170 次发表评论 (2) 查看评论

今天，我的探究项目仍然是我们系开设的项目，题为人机语音交互及其应用。

首先，是基础知识的介绍，从多媒体开始。多媒体就是包括文本、音频和视频在内的媒体信息。这次课，我们主要关注音频，所以老师对音频的介绍就稍微详细一些。声音就是压强的波，分为人可以听见的和听不见的，听不见的部分又根据频率分为超声波和次声波，它们的概念早在中学就学习过，这里不再赘述了。音频则分为语音（也叫做言语）和非语音的部分（包括其他声音、音效）。进一步区分，非语音的部分可以再分成乐音（音乐）以及杂音等。老师告诉我们，人从声音中能获取20%的信息。

计算机对音频的工作，包括音频的分析处理以及音频（包括语音）的合成。由于音频稍纵即逝的特点，实时音频处理要求速度快；由于人能察觉大于25ms的音频信号延迟，实时的音频合成也要求速度足够高。总而言之，音频处理要求快速。然后，老师简要介绍了音频处理的一些方向，除了音频的分析处理以及音频的合成外，还包括音频的采集、编码、传输、解码和重放，这些技术就能组成一个网络电话系统。

这次课的重点，是演示。

首先，是语音合成。这一次，老师主要为我们播放了用波形拼接方法（好像是这个？）合成的语音，语料库来自新闻播报员，普通话和英语都有。合成的效果尚可，不过只能合成类似于播报新闻的那种效果。老师说，合成疑问句是比较难做的之一。

然后，是语音合成加上了面部表情和嘴型的合成，原理大概就是取脸上18个特征点，用真人的录像采集出变化规律，然后“贴”到虚拟人物上。由于真人的面部肌肉十分丰富，可以做出很多很多表情，所以仅仅用18个点来做，效果似乎还不太真实。

还有一个小演示，是一个变声器，通过调节参数，程序可以把输入的音频（如男声）变成女声或者儿童的声音。据说这个是我们今后信号处理课程的编程作业之一。

最后一个演示，是情感识别，就是用户给程序输入一段音频，程序能够识别出音频中所包含的情感。这是一个很厉害的功能。

最后，老师还为我们播放了一点很有意思的他们实验室在做的其他项目。