今天,我的探究项目仍然是我们系开设的项目,题为人机语音交互及其应用。
首先,是基础知识的介绍,从多媒体开始。多媒体就是包括文本、音频和视频在内的媒体信息。这次课,我们主要关注音频,所以老师对音频的介绍就稍微详细一些。声音就是压强的波,分为人可以听见的和听不见的,听不见的部分又根据频率分为超声波和次声波,它们的概念早在中学就学习过,这里不再赘述了。音频则分为语音(也叫做言语)和非语音的部分(包括其他声音、音效)。进一步区分,非语音的部分可以再分成乐音(音乐)以及杂音等。老师告诉我们,人从声音中能获取20%的信息。
计算机对音频的工作,包括音频的分析处理以及音频(包括语音)的合成。由于音频稍纵即逝的特点,实时音频处理要求速度快;由于人能察觉大于25ms的音频信号延迟,实时的音频合成也要求速度足够高。总而言之,音频处理要求快速。然后,老师简要介绍了音频处理的一些方向,除了音频的分析处理以及音频的合成外,还包括音频的采集、编码、传输、解码和重放,这些技术就能组成一个网络电话系统。
这次课的重点,是演示。
首先,是语音合成。这一次,老师主要为我们播放了用波形拼接方法(好像是这个?)合成的语音,语料库来自新闻播报员,普通话和英语都有。合成的效果尚可,不过只能合成类似于播报新闻的那种效果。老师说,合成疑问句是比较难做的之一。
然后,是语音合成加上了面部表情和嘴型的合成,原理大概就是取脸上18个特征点,用真人的录像采集出变化规律,然后“贴”到虚拟人物上。由于真人的面部肌肉十分丰富,可以做出很多很多表情,所以仅仅用18个点来做,效果似乎还不太真实。
还有一个小演示,是一个变声器,通过调节参数,程序可以把输入的音频(如男声)变成女声或者儿童的声音。据说这个是我们今后信号处理课程的编程作业之一。
最后一个演示,是情感识别,就是用户给程序输入一段音频,程序能够识别出音频中所包含的情感。这是一个很厉害的功能。
最后,老师还为我们播放了一点很有意思的他们实验室在做的其他项目。
好!
好,学习了