基于神经网络的文本分类算法综述(连续更新)

传统的文本分类一般采用bag模型/Tf-idf作为特征+机器学习分类器进行分类。随着深度学习的发展,越来越多的神经网络模型被用于文本分类。本文将对这些神经网络模型进行简要介绍。

本文介绍了一个词向量模型,它不是文本分类模型,但可以说是fasttext的基础。所以也简单提一下。

笔者认为cbow、skipgram和大部分词向量模型都没有考虑一个词的多态性,只是简单地把一个词的多种形式看作独立的词。比如like的不同形式是like,like,like,like,like,like,这些词的意思其实是一样的,但是cbow/skipgram模型认为这些词是独立的,没有考虑它们的形态多样性。

为此,作者提出了一种能有效利用单词字符级信息的n元词向量模型,并以skipgram模式实现了该模型。例如,单词where,它的n-gram表示为

在损失方面,本文采用了负抽样+二元逻辑回归的策略。也就是说,每个目标单词被预测为肯定和否定之一。

本文提出了一种基于神经网络的文本分类模型,该模型基于cbow,与cbow非常相似。

和CBOW一样,fastText模型只有三层:输入层、隐藏层和输出层(层次化Softmax)。输入是用向量表示的若干单词,输出是特定的目标。隐含层是多个词向量的叠加和平均。不同的是,CBOW的输入是目标单词的上下文,fastText的输入是多个单词及其n-gram特征的嵌入表示,用于表示单个文档。CBOW的输入词采用onehot编码,fastText的输入特点是嵌入。CBOW的输出是目标词汇,fastText的输出是文档对应的类别标记。输出层的实现也使用了层次化的softmax。当然,如果自己实现的话,对于类别数量较少的任务,可以直接使用softmax。

最后贴一个简化版的Keras模型fasttext。

在词向量表示的基础上,提出利用卷积神经网络对文本进行分类。算法如上图所示:

在本文中,作者尝试了多种不同的词向量模式:

在上一篇文章中,CNN网络的输入一般是预先训练好的词向量,但在本文中,作者提出了一种直接将嵌入训练与分类任务相结合,能够有效提取/保留词序信息的模型方法,即有效训练n-gram,也可以理解为CNN嵌入的一种方法。

另外,另一个问题是输入序列长度的变化(在上一篇文章textCNN中通过填充解决?),本文作者提出用动态可变池层来解决这个问题,使卷积层的输出大小相同。实际上,变量池类似于图像识别中的空间金字塔池。

这篇文章有把fastText和TextCNN结合起来的感觉,把n-gram嵌入和分类任务结合起来进行训练,通过CNN嵌入。

通过区域嵌入的文本分类》

在本文中,作者提出了一种tv嵌入(即两视图嵌入),也属于区域嵌入(也可以理解为ngram嵌入)。这种方法类似于上面的bow-CNN表示法。用bow(单词包)表示一个区域内的单词和短语,然后预测其前后的区域(左右邻域内的单词或短语),即输入区域为view1,目标区域为view2。Tv-embedding单独训练,使用时与CNN中的embedding结合(形成多个频道?)。笔者认为word2vec方法预训练的嵌入向量具有普适性,而通过训练特定任务的数据集得到的tv-embedding具有一些与任务相关的信息,更有利于提高我们的模型效果。

这篇文章我不是很懂,也可能是我英语太差。作者的文章里没有一个一目了然的网络图,比如textCNN的图,一目了然的很清楚。看一看就知道怎么做了。

提出一种基于LSTM的文本分类模型,该模型使用监督学习和半监督预训练。文章作者同上,所以使用的很多技术可以说同上。所以简单说说这篇文章的一些想法。

笔者认为,现有的直接使用LSTM作为文本分类模型,直接使用LSTM的最后一个输出作为后续全连接分类器的方法面临两个问题:(1)这种方法一般集成了单词嵌入(即onehot的输入经过一个嵌入层再进入LSTM),但是嵌入训练不稳定,难以训练;(2)直接用LSTM的最后一次输出来表示整个文档是不准确的。一般来说,LSTM输入背后的单词将在最终输出中占据很大的权重,但这对于文章表示并不总是正确的。因此,作者改进了这两点:

其实这篇论文可以看做是作者前面的电视嵌入半监督训练和RCNN的融合,有一种操作猛如虎,头一眼就0-5的感觉(因为作者的实验结果和一般的CNN相比其实并不多)。

本文作者也是前两篇使用CNN进行文本分类的文章的作者。因此,本文将前两篇文章中提出的一些方法结合起来,使用深度卷积神经网络。具体细节包括:

关于DPCNN更详细的细节,请看来自DPCNN的深度词级文本分类模型。

提出一种基于CNN+注意力的文本分类模型。笔者认为现有的基于CNN的文本分类模型大多使用固定大小的卷积核,因此学习到的表示也是固定的N元文法表示,而这个N与CNN滤波器的大小有关。而在句子的语义表征中,不同句子中起重要作用的ngram词往往是不同的,也就是变化的。因此,模型自适应地为每个句子选择最佳n-gram以提高模型的语义表示能力是非常重要的。基于这一思想,本文提出了一种选择不同n元文法表示的自适应模型。

本文的模型在主题结构中引用CV中的DenseNet,通过DenseNet中的稠密连接提取丰富的n元文法特征表示。比如我们不仅可以学习f(x1,x2,x3),还可以学习f(x1(x2,x3)),这是一个多层次更丰富的特征。网络的结构主要包括三个部分:DenseCNN主网络、注意模块和最后的全连接层分类网络。以下是对这三个部分的简要描述:

本文采用密集连接+关注度来自动获取对文本语义最重要的n元文法特征,效果非常好。不过缺点是这个网络比较适合短文本。在本文中,输入文本是填充的,对于不同的数据集,最大长度为50,100,但对于长文本,这显然是不够的。因此,对于较长的文本,韩最好借用来不限制输入长度。

提出了一种结合递归神经网络(RNN)和卷积神经网络的文本分类方法。其结构如上图所示,网络可分为三部分:

虽然它是RNN和CNN的组合,但它实际上只在CNN中使用了pooling,这有点噱头。还提到了RCNN比CNN好的原因,即RCNN为什么能比CNN更好地捕捉上下文信息:CNN使用固定大小的窗口(即内核大小)来提取上下文信息,它实际上是一个n-gram。因此,CNN的性能受窗口大小的影响很大。如果太小,会丢失一些远距离信息。过大的话会导致稀疏,增加计算量。

在很多自然语言处理任务中,一个非常突出的问题就是训练数据的缺乏和标注的困难。为此,本文提出了一种多任务RNN模型框架,利用多个不同的任务数据集对同一模型的参数进行训练,并实现了数据集扩展的功能。

本文作者提出了三种模型,如上图所示:

三种模式的训练方法是相同的:

本文提出了一个层次化的LSTM+注意力模型。作者认为,虽然一篇文章由几个句子组成,但其中的一些句子可能真的起着关键作用,所以在每个句子中应用注意机制,使对文章语义贡献更大的句子占据更大的权重。同样,组成一个句子的词也有很多,但可能只有少数几个起重要作用,所以利用注意机制让重要的词发挥更大的作用是本文的核心思想。整个网络可以分为三层,两个LSTM层分别用于单词编码和句子编码,最上层是全连通的分类层。如果加上两层关注,可以把网络想象成五层。先简单说一下五层网络的结构:

总的来说,这篇文章看起来很有趣,符合人们看文章的习惯。我们写文章的时候也有中心词和中心句。但这种层级结构是否会导致训练速度慢或者训练效果差,不得而知。最后,论文还提出先将文章按长度排序,进入一个长度相近的批次,训练速度加快了3倍。

提出了一种基于图形神经网络的文本分类方法。这种方法的主要思想是将所有的文章及其词汇放入一个图网络中。图网络中的节点分为两种:文字节点和文章节点。其中,连接单词节点和文章节点的边的权重用TF-IDF表示,而单词之间的边的权重用点互信息(PMI)表示。点互信息非常类似于传统语言模型中条件概率的计算方法。而PMI采用滑动窗口法,条件概率直接统计在所有语料库中,可以认为是一个大窗口,然后就和PMI一样了。

a表示图网络的邻接矩阵,如下:

GCN还可以包含多个隐藏层,每层的计算方法如下:

其中a '是归一化对称邻接矩阵,w0 ∈ r (m× k)是权重矩阵,ρ是激活函数,例如ReLU ρ(x) = max(0,x)。如上所述,可以通过叠加多个GCN层来合并高阶邻域信息:

其中j代表层数。

损失函数被定义为所有标记文档的交叉熵误差:

文本GCN运行良好有两个原因:

但它也有一些缺点:

总的来说,文章的思路还是挺有意思的,效果也还不错。当你第一次见到GCN时,可能还是有点难以理解。你可以参考以下资料进一步研究:

基于图卷积网络的文本分类算法

如何理解图不由自主网(GCN)?