Loading...
墨滴

萤窗小语

2021/10/19  阅读:76  主题:全栈蓝

利用卷积深度神经网络进行关系抽取 (下)

利用卷积深度神经网络进行关系抽取(下)

论文结构

算法总览

输入:
一个句子S,和一个已经在句子中标识出来的实体对<e1,e2>
输入数据示例:{'id’: '8000’, 'relation’: 'Product-Producer(e2,e1)’, 'head': ‘ surgeon’, 'tail’: 'hole’, 'subj_start’: 1, 'subj_end’: 1 , 'obj_start’: 5, 'obj_end’: 5, 'sentence’: ['The', 'surgeon', 'cuts', 'a', 'small', 'hole', 'in', 'the', 'skull', 'and', 'lifts', 'the', 'edge', 'of', 'the', 'brain', 'to', 'expose', 'the', 'nerve', '.’], 'comment’: ''}
模型组成:
•词汇表征(Word Representation)
•特征抽取(Feature Extraction)
•输出层(Output)
输出: 一个向量,其维度==预定义关系类型的数量,每个维度的值表示相应关系的分数

词汇表征Word Representation

给定:数据集集(D): 句子S 和给定的实体对<e1,e2>
目标:将句子S以及实体对<e1,e2>表示为向量,以用于深度学习模型
基本思想:将输入的每一个词汇通过look up 词汇嵌入的方式表示为一个向量
•Collobert[1]等人的研究表明,通过大量未标注数据学习到的词汇表示(Word Embeddings)要优于随机初始化的,但是这样的做法有一个缺点,就是驯良这些Word Embeddings需要大量的时间
•直接使用训练好的Word Embeddings:Turian[2]发布的预训练的Word Embeddings

[1] Ronan Collobert, Jason Weston, L´eonBottou, Michael Karlen, KorayKavukcuoglu, and Pavel Kuksa. 2011. Natural language processing (almost) from scratch. The Journal of Machine Learning Research, 12:2493–2537
[2] Joseph Turian, Lev Ratinov, and YoshuaBengio. 2010. Word representations: a simple and general method for semi-supervised learning. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pages 384–394.

词汇级别特征(Lexical Level Features)
•统的词汇级别的特征:包括实体词本身,实体词对的类型,以及实体词之间的单词序列,其结果依赖于NLP工具
•本文使用的Word Embeddings的特征

Richard Socher, Brody Huval, Christopher D. Manning, and Andrew Y. Ng. 2012. Semantic compositionality through recursive matrix-vector spaces.In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages 1201–1211.

句子级别的特征抽取

句子中的每一个词都用如下两种特征表示:
•单词特征(Word Features (WF))
•位置特征(Position Features (PF) )

◼单词特征(Word Features (WF))
•出现在相同上下文的单词倾向于表达相似的语义
S:[People]0 have1 been2 moving3 back4 into5 [downtown]6
•输入上面的这个句子S
•句子中的每个单词表示为:(x0,x1,x2...,x6)
•WF的表示w(窗口)={[xs,x0,x1],[xo,x1,x2],...,[x5,x6,xe]}^5

◼位置特征(Position Features (PF) )
•为了表示到输入序列的结构特征,比如需要在输入序列中表示实体词的位置,因此引入PF
•使用词之间的相对距离来表示PF S:[People]0 have1 been2 moving3 back4 into5 [downtown]6
•比如:‘moving’和‘people’的相对距离:3 ‘moving’和‘downtown’的相对距离:-3
•然后,将相对距离也表示成向量的形式,则当前给定的词到句子中w1和w2,这两个词的相对距离分别表示为d1,d2 PF = [d1,d2] •该给定词的表示[WF,PF]^T

◼卷积(Convolution)
◼句子级别的特征向量(Sentence Level Feature Vector)加入非线性激活函数:Tanh

数据集和评价指标

•SemEval-2010 Task 8 的数据统计
•总样本数:10717
•训练集:8000
•测试集:2717
•关系数:9 (每一种包含两个方向)+ 1(Ohter) ◼参数设置(Parameter Settings)
•论文通过实验探索不同超参数对模型性能的影响
•通过实验可以看出w=3时,效果最好
•同时,由于数据集规模有限,过大的模型规模,会增加过拟合的风险,导致模型效果下降
◼对比实验的结果(Results of Comparison Experiments)
•可以看出,在使用SRE方法时,人工提取的特征越丰富效果越好,但是这需要依赖于人工和NLP预处理,但是即使如此也不一定能获取到最好的特征表示
•RNN和MVRNN会受到句法解析的错误的影响,因此也比较难学习到高质量的特征。另外MVRNN使用了结合的特征表示,性能好于RNN,及最多特征集的SVM。
◼特征的效果(The Effect of Learned Features)
•论文一共设计了5种词汇级别的特征(L1-L5),该消融实验表明了各种词汇特征所做的贡献,当有新的特征加入的时候,模型的效果会有大幅度的提升
•句子级别的特征:当加入PF的时候,模型的效果也会有将近9.2%的效果提升
•当同时加入词汇级别特征和句子级别特征时,模型效果最好原文讲解

总结

•深度学习(CNN)•词汇级别特征+句子级别特征•位置特征(PF)•使用深度学习方式自动抽取特征,好于人工设计的特征
创新点 •引入深度学习方式自动学习特征•使用CNN学习句子特征•使用预训练的word embedding•引入位置特征(PF)•结合句子级别的特征和词汇级别的特征
相比于人工设计特征,深度学习模型能够自动地学习合适的特征,根据任务的特点,所需要的信息,相应地设计模型,训练模型时选择合适的超参数很重要

萤窗小语

2021/10/19  阅读:76  主题:全栈蓝

作者介绍

萤窗小语