纸质阅读_利用词典提高基于BERT的中文标注效果

论文题目:使用Bert适配器的词典增强中文序列标注。

论文地址:}，在字典D中查找句子中包含字符c的所有可能单词ws，如图-3:

最终生成序列:

s_cw={(c1，ws1)，(c2，ws2)，...(cn，wsn)}

将字和词信息并入BERT网络的字典适配层，如图-4所示:

字典适配层有两个输入:字符和词对，即上图中的H和X，其中H是前一个变换器层输出的字符向量，X是由可能包含该字符的M个词组成的词嵌入，J是M中的第J个词:

其中e是预训练的词向量映射表。

为了排列不同长度的序列，字向量的非线性变换如下:

其中W1是dc-dw大小的矩阵，W2是dc-dc大小的矩阵，b1和b2是偏移量，dw是字向量的维数，c是隐藏层的维数。

从图-3可以看出，一个词可能对应多个词，对于不同的任务，最匹配的词可能是不同的。

具体算法是用vi表示第I个字符对应的所有词汇，其中m是该字符可能对应的字数，关注度计算如下:

其中w是注意力权重矩阵。

然后将每个单词乘以其权重并相加，得到位置I对应的单词表示:

最后，将字典信息添加到字符的向量中，并获得该位置处的新向量:

经处理的数据被发送到丢弃层和归一化层以供进一步处理。

将字符输入到单词嵌入层，添加记号、分段和位置信息，然后将该层输出的单词嵌入到Transformer层:

输出是第L个隐层的输出，LN是归一化层，HMAttn是多头注意机制，FFN是两个前馈网络层，ReLU作为激活函数。

在第k个和第(k+1)个变换器之间添加字典信息。

考虑到标签的上下文，使用CRF层来预测最终标签，使用最后一个隐藏层H的输出作为输入来计算输出层O:

然后将输出层代入CRF模型，计算标签y的概率p。

训练时，给定句子S和标签Y，计算整句的负对数似然作为误差。

解码时，使用维特比算法计算得分最高的序列。

本文对命名实体识别NER、分词CWS和位置词性标注进行了实验，实验数据见表-1(中文自然语言处理常用实验数据)。

图5显示了与BERT和基于BERT的最新模型相比，模型误差的减少。

除了与其他模型进行比较，本文还比较了装配模型中LEBERT方法与Bert+Word方法的区别。