使用 Doc2Vec 来做情感分析

文档的向量表示
- 算法细节
实验过程
- 训练 Doc2Vec 模型
小结

文档的向量表示

常见的对句子、段落或者文档进行建模的方法包含 bag-of-words (BOW)、bag-of-n-grams、词向量加权求和等，它们都存在着一些问题，具体说来：

bag-of-words (BOW) 模型

失去了语序，不同的句子可能有完全相同的表示，没有考虑到语义。

bag-of-n-grams

即使考虑到了短距离的上下文，但是常常面临数据稀疏性和维度过高的问题。

词向量加权求和

对句中的词的词向量做加权求和：失去了语序。

本次机器学习大作业，尝试使用了了一种叫做 Paragraph Vector 的文档表示方法，可以把句子、段落、文章表示为一个固定维度的向量，并且克服 bag-of-words 的缺点。在论文[Distributed Representations of Sentences and Documents]中有详细介绍。

算法细节

Paragraph Vector 的构造方法和 Word Vector 的构造有很多相似之处。

词的向量表示

每一个词用一个向量表示，字典里的所有词的向量构成一个矩阵，每个词的词向量对应矩阵中的一列，这一列的索引是该词在字典中的位置。这个模型的思路是使用前面出现的词来预测接下来的词。比如 the cat sat on the table,该模型输入 the cat sat 这三个词的词向量，期待的输出是 on 的词向量。

图一. 训练词向量的模型。输入为 “the” “cat” “sat” 三个词的词向量（矩阵 M 中的某一列），然后将这三个向量求平均或者拼接，期望的输出为接下来紧跟着的词 “on”。

虽然这些向量都是随机初始化的，但是在训练的过程中，它们会逐步调整，最终能够具备语义信息。训练完成后，具有相似意义的词会具有相似的向量表示，即语义具有相似性。

文档的向量表示：分布式记忆模型

Paragraph vector 的训练和 word vector 的训练有很多相似之处。不同在于每一个段落对应一个向量，所有段落的向量作为列构成一个矩阵 D。所有的词依然构成矩阵 W。在做预测的时候，把句子的向量和词向量做拼接或者加和作为输入。

图二. 训练段落向量的模型。

这里句子的向量，可以看做是另外的一个词，这个词记录了当前上下位中缺失的部分，即为了得出预期的预测结果，输入的向量中应该补充点什么。这样以来句子的向量中就包含了整个句子的语义信息。

在训练的过程中，一个 paragraph vector（即 D 中的一列）用于对一个句子的训练，即滑动窗口在这个句子上滑动时，会更新该句子对应的向量。词向量构成的矩阵 W 在所有句子的训练过程中共享。

训练完成后，矩阵 D 中每一列对应的 paragraph vector 可以作为这个句子（或段落，文档）的特征向量。然后就可以使用逻辑回归、支持向量机等方法来完成具体的机器学习任务了。

但在预测阶段，出现的句子是在训练过程中未见过的。这时候，就采用之前训练过程中产生的模型，再对一个句子进行训练得到该句子的词向量即可。

文档的向量表示：分布式词袋模型

这个模型选择一个窗口，以 paragraph vector 作为输入，期望输出为窗口内的词。实际操作中，通常是在窗口内随机选择一个词，期待分类器输出这个词。然后利用随机的梯度下降来更新 paragraph vector。在这个过程中 paragraph vector 中能够捕捉到句子的一些句意，但是忽略了语序。

实验过程

本节尝试采用上文提到的文档的向量化表示方法来进行情感分类。基本步骤如下：

数据预处理
训练 Doc2Vec 模型，将评论向量化
采用全连接神经网络来进行分类

训练 Doc2Vec 模型

上文提到的文档向量化表示的方法，在 gensim 这个自然语言处理库中提供了相关的工具，这里采用 gensim 中的 Doc2Vec 模型来完成对影评的嵌入。

gensim 中 Doc2Vec 的输入为 TaggedDocument 的列表，TaggedDocument 的形式形如：

[['word_1', 'word_2', 'word_3',..., 'word_n'], ['label_1']]

即由文档中的单词和文档的标签构成。训练完成后可以使用文档的标签来提取该文档对应的向量。

这里首先将各条评论经过预处理后分割为单词序列，而后构建 TaggedDocument 的实例：

def build_tagged_document_list(docs):
    tagged_docs = []
    for i in range(docs.shape[0]):
        doc = docs.iloc[i]
        line= doc.review
        tag = doc.id
        tagged_docs.append(gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(line), [tag]))
    
    return tagged_docs

train_docs = build_tagged_document_list(train_sentences)
unlabel_docs = build_tagged_document_list(unlabel_sentences)
test_docs = build_tagged_document_list(test_sentences)

使用 gensim.models.doc2vec.Doc2Vec 构建模型：

all_docs = train_docs + unlabel_docs + test_docs
random.shuffle(all_docs)

doc2vec_model = gensim.models.doc2vec.Doc2Vec(min_count=1, 
                                              window=10, 
                                              vector_size=400, 
                                              sample=1e-4, 
                                              negative=5, 
                                              workers=32, 
                                              epochs=20)
doc_model.build_vocab(all_docs)
doc2vec_model.train(all_docs, total_examples=doc2vec_model.corpus_count, epochs=doc2vec_model.epochs)

使用训练好的 doc2vec 模型得出训练 review 的向量表示：

def get_doc_vec_list(doc_model, docs):
    vector_size = 400
    vectors = np.zeros((docs.shape[0], vector_size))
    
    for i in range(docs.shape[0]):
        doc = docs.iloc[i]
        tag = doc.id
        vectors[i] = doc_model[tag]
    
    return vectors

X = get_doc_vec_list(train_sentences)
y = train_sentences['sentiment'].astype('float')

使用 keras 构建神经网络模型：

from keras.utils import to_categorical
from keras import layers
from keras import models

def build_model():
    model = models.Sequential()
    model.add(layers.Dense(64, activation='relu', input_shape=(400,)))
    model.add(layers.Dense(128, activation='relu'))
    model.add(layers.Dense(16, activation='relu'))
    model.add(layers.Dense(1, activation='sigmoid'))
    model.compile(optimizer='rmsprop',
                  loss='binary_crossentropy',
                  metrics=['accuracy'])
    return model

model = build_model()

对模型进行训练：

history = model.fit(X_train,
                    y_train,
                    epochs=30,
                    batch_size=512,
                    validation_split=0.3)

查看误差变化：

import matplotlib.pyplot as plt

epochs = 30
loss = history.history['loss']
val_loss = history.history['val_loss']

plt.plot(range(epochs), loss, label="loss")
plt.plot(range(epochs), val_loss, label="val loss")
plt.legend()
plt.savefig('loss.png')

由上图可以看出，当进行到第十五个 epoch 的时候，在验证集上的精度开始下降，开始出现过拟合。

重新训练模型，并对测试数据进行预测，最终得到了 84.34% 的准确率。

小结

基于 skip-gram 的思想，对句子或文档做嵌入得到的文档的向量表示，该向量在一定程度上能够反映出句子的含义。

为了确定 Doc2Vec 在此场景下是否能够很好地做 review 的特征提取，这里采用了同样的数据，拿 Logistic Regression 做分类器，在验证集上得到了 85.05% 的精度。可见使用 Doc2Vec 对 review 做特征提取，本节在情感分类的任务上尝试使用 Doc2Vec 模型，得到的效果并不令人满意。

分析其原因，可能是因为单条评论的长度较长 (平均 233 词)，Doc2Vec 可能并不能很好地对如此长的句子进行嵌入。