❝
本期论文：CNN-Based Chinese NER with Lexicon Rethinking
《基于 LR-CNN 的中文命名实体识别》
作者:Tao Guil, Ruotian Mal 等
单位:复旦大学、Video++
发表会议及时间:IJCA12019

❞

研究背景

中文命名实体识别难点:
1.边界不确定性:广州市长隆公园、南京市长江大桥
2.成份复杂:DPP-4抑制剂(二肽基肽酶4抑制剂)
3.嵌套定义:联合国销毁伊拉克大规模杀伤性武器特别委员会

研究背景

本文idea提出原因
基于LSTM的模型解决中文NER存在两个问题
1.无法充分利用GPU的并行计算能力:LSTM等序列模型天然的限制
2.存在候选词典冲突:模型看不到全局的信息
Lattice LSTM效果最好，但存在上面两个问题:
如何保证模型性能，而打破Lattice LSTM的限制?

研究成果

提出了LR-CNN的网络结构解决中文NER问题
设计CNN结构对句子与词典中的词并行处理
充分利用GPU
Rethinking机制解决候选词典的冲突
在短句子上更好的性能
速度与句子长度无关
强大的表示，降低对CRF约束的依赖

研究意义

特征抽取器的其他可能性+如何利用全局信息
「使用CNN解决中文NER问题，引入Rethinking机制」
之前论文：基于字符或固定分词或采用序列模型BiLSTM/LatticeLSTM

摘要核心

1.基于LSTM的STOA中文NER模型无法充分利用GPU且存在候选词典冲突
2.使用CNN对句子与Lexcion中的词可并行处理
3.通过Rethinking机制解决候选词典冲突
4.LR-CNN模型不仅性能更好且速度更快

Paper title
1.Introduction
2. Related Work
3. Lexicon Rethinking CNNs
3.1 Lexicon-Based CNNs
3.2 Refining Networks with Lexicon Rethinking
3.3 Predicting NER with CRF
4. Experimental Setup
4.1 Datasets
4.2 Comparison Methods
4.3 Hyper-Parameter Settings
5. Results and Analysis
5.1 Method Comparison5. Conclusion
5.2 Efficiency Advantage
5.3 Influence of Sentence Length
5.4 Ablation Study
6 Conclusion

模型回顾

Lattice LSTM

动态引入所有可能的词信息
克服了基于词模型的分词错误问题
能自动选择适合当前上下文的可能分词
融合字词向量的信息，更好的上下文提取模型
句子长度增加，模型相对更加鲁棒

TextCNN

CNN网络用于文本分类

Iterated Dilated Convolutions

IDCNN
Fast and accurate entity recognition with iterated dilated convolutions
具体使用时，dilated width会随着层数的增加而指数增加。这样随着层数的增加，参数数量是线性增加的，而receptivefield却是指数增加的，可以很快覆盖到全部的输入数据。这里使用的是4个大的相同结构的Dilated CNN block拼在一起，每个block里面是dilation width为1,1,2的三层Dilated卷积层，所以叫做Iterated Dilated CNN。

Rethinking机制

现有的CNN模型大多只通过一个前馈结构来学习特征，而没有利用从上到下的反馈信息来使网络自我完善。通过增加反馈层和生成强调向量，该模型能够在先前预测的基础上不断提高性能。

论文细节一:CNN融合字符与词级别特征

CNN特征抽取

通过CNN提取句子中N-gram信息论文中堆叠window为2的卷积核提取文本特征第1层为2-gram信息第L层为L+1-gram信息

融合词典的CNNs

在给定句子以及所有可能匹配词的情况下，使用字符级别CNNs编码字符特征，通过注意力机制融合词汇特征。例如:广州市长隆公园 1:无词汇 2:广州、市长、长隆、公园 3:广州市 4:长隆公园

融合词信息

Cm:句子当前位置上的第L层卷积特征
Wm:句子当前位置上长度为第L的词特征
Xm:句子当前位置上融合第L层字词特征
通过attention机制进行融合

Attention的计算

Attention机制看作一种软寻址

融合多尺度CNN特征抽取

在CNN文本分类模型中，自适应地选择多尺度特征 Multi-scale Feature Attention:
1.filter ensemble
2.scale reweight

论文细节二: Rethinking机制

Rethinking机制

Cm:句子当前位置上的L层卷积特征
Wm:句子当前位置上长度为L的词特征
X:句子当前位置上顶层的融合字词特征
为了避免过拟合,W*,U*,b*与之前的CNN融合
字词特征参数相同
最后通过attention机制进行融合

融合多尺度特征的注意力机制

Multi-scale Feature Attention
1.filter ensemble 2.scale reweight

实验结果

Efficiency Advantage

1.LR-CNN推断速度最快比Lattice LSTM快3.21倍
2.CRF强大的约束,但表示足够强,对CRF依赖越小

Influence of Sentence Length

1.处理短句的性能更好
2.速度跟句子长度关系不大

Ablation Study

1.lexicons信息对基于字符的中文NER是非常有用 2.Rethinking机制能充分利用lexicons
3.没有lexicons rethinking机制依然有效

总结

1.CNN解决并行处理
model all the characters and potential words that match the sentence in parallel.
2.Rethinking解决候选词典冲突
the rethinking mechanism can address the word conflict by feeding back the high-level features to reflect the networks.