大数据时代的自然语言理解技术

作者: twd2 日期: 2016 年 03 月 27 日被围观 376 次发表评论 (1) 查看评论

这周的第二个实验项目, 是大数据时代的自然语言理解技术。这个项目, 是我所在的计算机系开设的。

之前我了解到的大数据是指在合理的时间计算机无法处理的大量的数据, 而中文维基百科上面的定义是”大数据, 或称巨量数据、海量数据、大资料, 指的是所涉及的数据量规模巨大到无法通过人工, 在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。” 总之, 我们现在所处的时代, 数据很多, 就是大数据时代。

自然语言理解, 主要是处理特定语言的文本信息的词法分析、句法分析、语法分析并构建一棵语义的树。

有文献表明, 这种树的可能性数量和语句长度成阶乘增长, 大约到20个字的句子就不能很快速的处理了。

老师主要介绍了自然语言理解技术的应用, 包括人机对话、机器翻译、自动摘要以及广告推送。

人机对话应用就譬如苹果iOS设备上的Siri和Windows 10的小娜等语音助手, 识别操作者的语音然后作出相应反应。事实上, 这也包含了语音识别技术。

机器翻译, 据说之前有做过用很复杂的模型和少量的数据做成的算法, 然后Google设计并实现了一种简单模型和大量数据的算法, 经过测试后发现效果不差。

自动摘要可以将一篇新闻的内容变成简短的一段话提供给读者阅读, 读者感兴趣就可以阅读全文。

对于搜索引擎来说, 广告的合理推送是重要的, 利用自然语言理解技术可以从用户输入的搜索关键字中提取相应的信息, 给用户呈现可能感兴趣的广告来获得更多收入。

最后, 老师介绍了他的具体工作以及实验室的情况, 并诚邀我们加入:)。