Loading...
墨滴

萤窗小语

2021/09/23  阅读:31  主题:全栈蓝

中文NER-基于网格LSTM的中文命名实体识别论文导读

论文导读-基于网格LSTM的中文命名实体识别

在这里插入图片描述 本文idea提出原因 中文命名实体识别的实体边界划分特别难。 基于字符级别:无分词错误,缺少词的边界信息,利用不了已有词典; 基于词级别:有分词错误,因为只能有一种分词。 深度学习一定程度上解决了对词典的依赖, 如何利用现有词典,引入所有可能词的边界信息?

研究成果: 1.动态引入所有可能的词信息 2.克服了基于词模型的分词错误问题 3.能自动选择适合当前上下文的可能分词 4.融合字词向量的信息,更好的上下文提取模型 5.句子长度增加,模型相对更加鲁棒 引入词汇增强解决中文NER问题 and 融合字词信息的动态网络结构

摘要核心

  1. 基于字符级别的中文NER无法引入分词结构的先验信息
  2. 基于词级别的中文NER会引入分词错误
  3. 提出Lattice LSTM网络结构,以字符级别为基础,动态融入词级别的信息

Baseline模型

输入表示:字、词、特征或者互相融合; 特征抽取:CNN/LSTM/BiLSTM/Transformer; 解码:CRF>Softmax 在这里插入图片描述

字或词

多方论证,使用统计模型时进行中文NER,基于字的 模型效果优于基于词的模型。 在使用神经网络结构时也是如此。 本文的Lattice LSTM优于字或词的模型。在这里插入图片描述 在这里插入图片描述

利用词信息

How to better leverage word information

  1. segmentation information used as soft features for NER
  2. joint segmentation and NER
  3. multi-task learning 本文重点在于神经网络的表示学习,并不需要进行 分词,所以不需要分词任务的数据,也不会引入分 词错误。也不需要考虑多任务学习。 在这里插入图片描述

外部资源信息

External sources of information

  1. lexicon features
  2. language modeling
  3. cross-domain and cross-lingual knowledge via multi- task learning.

本文利用引入自动分词后已训练的词向量做词汇的增强。 在这里插入图片描述

树结构的循环神经网络

tree-structured RNNs 本文lattice LSTM在目标与结构等方面都与其他结构不同。 例如本文以字符为中心,只融合词级别的Cell,但是没有hidden vectorso. 本文首次设计新型融合了字符与词典信息的lattice LSTM表示,并首次 应用于无需分词的中文NER。 在这里插入图片描述

论文细节一:融合字符与词级别特征

1:基于字符级别的模型

Char; Char+ bichar; Char+ softword

2:基于词级别的模型: word embedding; BiLSTM提取特征; CRF解码与约束

3:融合字、词级别特征的模型 Word + char LSTM Word + char LSTM' Word + char CNN在这里插入图片描述

LatticeLSTM

在这里插入图片描述 在这里插入图片描述

细节二:从LSTM到LatticeLSTM

BasicLSTM

在这里插入图片描述 在这里插入图片描述

LatticeLSTM

1.在字词融合的路径上尝试了多种配置,发现这种配置在初步实验中提供了最佳结果。 2.这里排除单字符的单词;集成单字符单词后,最终性能会略有下降。

字粒度输入

在这里插入图片描述 在这里插入图片描述

词粒度输入

在这里插入图片描述 在这里插入图片描述

字词融入

在这里插入图片描述 在这里插入图片描述

实验

在这里插入图片描述 启发点 网格结构完全不依赖于分词,能根据上下文动态的选择词典中的词,充分利用词典的信息。 The lattice method is fully independent of word segmentation, yet more effective in using word information thanks to the freedom of choosing lexicon words in a context for NER disambiguation.

Lattice LSTM模型缺陷

  1. Limited efficiency: handling additional memory update between nonadjacent LSTM cells.
  2. Lack of transferability: explicit design for LSTM structure 3.Information loss: -Each character has no access to theinformation of words across it. -All matched words for one character cannot be considered simultaneously.

萤窗小语

2021/09/23  阅读:31  主题:全栈蓝

作者介绍

萤窗小语