本文共 3217 字,大约阅读时间需要 10 分钟。
自然语言处理(英语:Natural Language Processing,简称NLP)是和领域的分支学科。在此领域中探讨如何处理及运用;自然语言认知则是指让电脑“懂”人类的语言。
自然语言生成系统把计算机数据转化为自然语言,而自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。(from Wikipedia)自然语言处理的有很多,目前MXnet中实现的例子包括、、、等。TensorFlow提供的例子包括基本的、、、、、依赖分析(Dependency parsing)等。
训练模型来自文章,MXnet的实现是基于在TensorFlow上的实现,相比于论文中的模型做了简化。在文本分类的基础上还可以进一步做NLP的其他工作,比如等等。
使用CNN实现文本分类的输入是(对于一个包含10个词的文档,若使用100维embedding的话,输入是一个10*100的矩阵,相当于CNN的输入“图像”)。使用CNN来做NLP的网络例子如下所示。
文章中实现的网络结构如下图所示。与此大致相同,输入数据集使用了和文章中一样预训练好的word2vec(则是自己从头学习了一套word embeddings)。
[~/mxnet/example/cnn_text_classification]使用了MXnet底层的Symbol接口实现的RNN例子。 [~/mxnet/example/rnn]
使用进行语音识别,借助进行预处理,网络结构定义在 lstm_proj.py 中。具体的配置和使用方法可以参考。
[~/mxnet/example/speech-demo]MXnet的数据同步机制是基于DMLC项目组之前的Parameter Server项目(现已改名为)实现的。Parameter Server在提出时曾是为特定的算法而设计并优化的,其中就包括了著名的主题模型,在其里有对LDA在Parameter Server上应用较详细的介绍。
然而现在开源之后的ps-lite已经成为了一个general purpose framework for machine learning algorithms,在其官方github上也没有具体使用ps-lite实现LDA的例子。不过已经有大神实现了,是一个类似于LDA的主题模型,可以作为参考。词嵌入(word embeddings, distributed representation, word representation, word vectors...),是一种将自然语言中的词语进行符号数字化的表示方式,它的做法是将词映射到m维空间,表示为m维向量。这样一方面可以减小词向量的维度,另一方面,可以将有关联的词映射为空间中相邻的点,词与词之间的关联性通过空间距离来刻画,如下图所示。具体的详细介绍可以参考这里:以及。
常见的词嵌入方法有很多,其中在Google时的这两篇paper:、提供的word2vec工具包由于其简单的设计(Less is more),速度快,效果好,容易扩展,是当前使用最广泛的词嵌入方法。
word2vec包中有两种模型,即Continuous Bag-of-Words (CBOW)和Skip-Gram。CBOW 模型是根据词的上下文预测当前词,这里的上下文是由待预测词的前后c个词组成。而 Skip-Gram 模型则相反,是通过当前词去预测上下文。给定一个语料库作为训练集,就可以通过以上模型训练出每个词的向量表示。从实验结果来看,CBOW 模型会平滑掉一些分布信息,因为它将词的上下文作为单个样本,而 Skip-Gram 模型将词上下文拆分为多个样本,训练得到的结果更为精确,为此,TensorFlow 中 word2vec 采用的是 Skip-Gram 模型,对应于中所提出的一种更为优化的 Skip-Gram 模型。更多关于 CBOW 和 Skip-Gram 模型细节可以参阅。
TensorFlow提供了两个版本的实现,和。
词嵌入在NLP中有大量的应用,比如,词嵌入可以回答诸如"king is to queen as father is to ?"(analogical reasoning)这样的问题。
与上面NLP in MXnet中介绍的类似,就不多重复了。TensorFlow的实现见。具体实现思路和细节可以参考。
TensorFlow的官方教程中,还提供了网络的、Sequence to Sequence 模型(直接处理变长输入与变长输出,可以用于)的、以及Google自己提出的。基于这些网络可以轻松地实现大量NLP应用,包括、、、依赖分析(Dependency parsing)等。具体内容可以看上面各个网络的教程链接。
MXnet和TensorFlow的NLP应用基本上都是回归到几个网络模型的构建,使用这两种深度学习框架搭建好CNN、RNN、LSTM、seq2seq、SyntaxNet等等网络模型之后,就可以很方便的在它们之上处理各种各样的NLP应用。