纸质阅读_利用词典提高基于BERT的中文标注效果
论文地址:},在字典D中查找句子中包含字符c的所有可能单词ws,如图-3:
最终生成序列:
s_cw={(c1,ws1),(c2,ws2),...(cn,wsn)}
将字和词信息并入BERT网络的字典适配层,如图-4所示:
字典适配层有两个输入:字符和词对,即上图中的H和X,其中H是前一个变换器层输出的字符向量,X是由可能包含该字符的M个词组成的词嵌入,J是M中的第J个词:
其中e是预训练的词向量映射表。
为了排列不同长度的序列,字向量的非线性变换如下:
其中W1是dc-dw大小的矩阵,W2是dc-dc大小的矩阵,b1和b2是偏移量,dw是字向量的维数,c是隐藏层的维数。
从图-3可以看出,一个词可能对应多个词,对于不同的任务,最匹配的词可能是不同的。
具体算法是用vi表示第I个字符对应的所有词汇,其中m是该字符可能对应的字数,关注度计算如下:
其中w是注意力权重矩阵。
然后将每个单词乘以其权重并相加,得到位置I对应的单词表示:
最后,将字典信息添加到字符的向量中,并获得该位置处的新向量:
经处理的数据被发送到丢弃层和归一化层以供进一步处理。
将字符输入到单词嵌入层,添加记号、分段和位置信息,然后将该层输出的单词嵌入到Transformer层:
输出是第L个隐层的输出,LN是归一化层,HMAttn是多头注意机制,FFN是两个前馈网络层,ReLU作为激活函数。
在第k个和第(k+1)个变换器之间添加字典信息。
考虑到标签的上下文,使用CRF层来预测最终标签,使用最后一个隐藏层H的输出作为输入来计算输出层O:
然后将输出层代入CRF模型,计算标签y的概率p。
训练时,给定句子S和标签Y,计算整句的负对数似然作为误差。
解码时,使用维特比算法计算得分最高的序列。
本文对命名实体识别NER、分词CWS和位置词性标注进行了实验,实验数据见表-1(中文自然语言处理常用实验数据)。
图5显示了与BERT和基于BERT的最新模型相比,模型误差的减少。
除了与其他模型进行比较,本文还比较了装配模型中LEBERT方法与Bert+Word方法的区别。