Loading...
墨滴

张春成

2021/07/01  阅读:40  主题:默认主题

图解词向量

图解词向量

本文将对NLP的重要概念“词向量”进行图解。 并且以“重要讲话”为语料,通过简单的可视化分析,对其内容进行“数据驱动”的解析。


词向量图解

“词向量”是自然语言处理(NLP)领域中的重要概念。 虽然它的生成和计算方法有很多,但万变不离其宗,可以简明地图示如下

WordVec
WordVec

从图中可以看到,词向量是对词语之间关系的度量向量。 而从互相包含的关系来说

  • 词语是句子的元素;
  • 句子是段落的元素;
  • 段落是文章的元素。

基于这种包含关系,我们可以

根据词语在句子、段落或文章中出现的后验概率分布,可以确定词语对应的“词向量”

词向量一例

我们以 2021年7月1日的重要讲话为蓝本,对词向量进行举例。 采用的方法是通过词语出现在句子中的后验概率计数,如下图所示

  • 词向量概率分布所构成的词向量
CiVec.png
CiVec.png

我们可以看到,文章包含约900个词,上图以表格的形式展示了它们的词向量。 词向量可以构成一个方阵,类似于有先后方向的非对称协方差矩阵。 下面,我们以词向量为基础,对“重要讲话”进行可视化分析。

可视化分析

我们把词向量嵌入到2维流形空间中,得到如下分布图

  • 流形空间中的词向量分布图
CiManifold
CiManifold

其中,每个点都一个词,点之间的距离代表词之间的关联性。 我们下一步可以根据这些距离对这些点进行聚类,如下图所示

  • 词向量聚类染色图
CiTSNE
CiTSNE

其中,不同的颜色代表不同的类别。 在分析这些类别代表什么之前,我们先看一下这些类别的词出现在了文章的哪些部分。

  • 词类别的分布图
CiOccurs
CiOccurs
  • 词类别分布的甘特图
CiGantt
CiGantt

可以看到,这些词类别之间具有分布差异。 那么这些类别分别是哪此词呢? 我们下面定性地看一看。

  • 伟大复兴语境
Ci0
Ci0
  • 一带一路语境
Ci1
Ci1
  • 艰苦奋斗语境
Ci2
Ci2
  • 庄严宣告语境
Ci3
Ci3
  • (有点乱)语境
Ci4
Ci4
  • 牢记历史语境
Ci5
Ci5
  • 世界人民语境
Ci6
Ci6

到此,已经对词向量简介完毕。 并且给出了一个简单的例子,抛砖引玉地给出了词向量的简陋使用方法。

张春成

2021/07/01  阅读:40  主题:默认主题

作者介绍

张春成