Loading...
墨滴

萤窗小语

2021/09/23  阅读:34  主题:全栈蓝

视频显式语义理解与视频筛选应用

视频显式语义理解与视频筛选应用

导读: 今天主要是包括视频语音理解,以及在视频筛选当中的一些产品应用,介绍会围绕下面三点展开:

  • 视频语音理解
  • 视频结构化的解析
  • 视频语音理解在视频产品当中的一些应用

视频语音理解背景介绍

首先和大家分享视频语音理解的背景。

视频搜索

在视频搜索当中,对比于传统的图文搜索,其实时间搜索在很多方面都有不一样的地方,图文详情和视频详情可以看到,在图文里面有标题,有正文,封面图,包括作者的账号信息,还有一些用户的行为。对比来看,视频这一块其实最大的不同就是在正文,视频展示的一般是视频的视频内容以及音频的内容,所以说从整个搜索的架构去看,我们可以看到最大的不一样,对比于图文的话,就是视频的理解部分。视频搜索需要依赖于比较强的视频理解,能来提供丰富的内容信号,然后为上层这召回排序去使用。

视频搜索的痛点

基于视频的原数据,包括标题和账号去做检索的话,会有很多的缺陷,每一个是标题很难去覆盖一个视频的内容,那么另外一个就是现在在整个视频领域里面,很多的内容是来自于普通的消费者生产UGC的,这部分内容无论是在文本表达,标题质量,其实都很难去精确的去描绘视频的内容,那么其实这一块我们会通过视频理解的方式对视频整个内容侧去进行一个精细的解析,然后为整个搜索链路提供一个比较完整和精确的信号,要回到起点。视频搜索其实存在最大挑战的就是建立搜索的query的文本与视频,这之间有一个跨模态的空间对齐问题,大多数的up主还有视频内容生产者,他在视频生产的时候是为了迎合整个推荐的场景去做的,不管是双列还是像类似抖音里面的满屏竖版的这种小视频,那么在这种场景下,推荐场景下的用户往往就会忽略它标题的内容来去直接去观看视频本身视觉和音频相关的这种信号,这样就会导致整个的视频的生产者去忽视对于标题质量以及标题是否能够表述设计内容这一块的要求。

跨模态检索通用框架

跨模态检索搜索的文本到视频这一种不同模态之间的检索,有一个比较通用的框架可以看到,对于文本像还有图片以及视频,我们通过特征提取的方式,然后去印上同一个语义空间,那么在共同的语音空间里面要去做映射和对齐,那么这样就可以形成有效的泡沫检索。这种方式一般包括两个,第一个就是影视的语义空间,我们可以采用像样的方式来做,比如对文本,提取它的余向量,然后对于图片和视频也是一样,然后在同一个向量空间中进行对齐和映射,今天主要分享的就是显示与空间,通过对文本视频进行了标签,标签进行不同模态之间的关联,这种方式有两大好处,第一个是可解释性的非常强,另外一个就是通过显示的标签能够直接给用户反馈,提示用户他所搜索的内容和它表达的需求存在非常显示的相关性。

视频语义理解

引入知识图谱结构信息

在视频与理解当中,其中一个最大的核心技术就是结构化的解析。从非结构化整个的技术方法角度,第一个就是基于知识图谱,加上实体链接,涉及到像影视中这个领域,可以很好的把知识谱的知识和视频的理解进行结合和融合,另一块就是对视频的短标题进行序列标注,然后加一些模板的方式,我们定义的这种叫domain,兴趣点interest以及DIS编码。

建设视频结构化语义解析

对比了传统的相关性搜索和我们结构化语音搜索的一些区别,在相关的搜索里面,我们往往是通过切词,进行像实权的计算,以及对里面的一些词性进行表述,在语义解析里面主要是提取对应的槽位的内容,然后通过结构化解析将搜索的query映射到语义空间当中。整个DNS解析主要包括两块内容,在短视频垂直领域,会覆盖20多个小垂类,通过分类模型还有序列标注模型,对视频的短标题进行了结构化的解析,里面包括我们会对短视频的标题提取它对应的领域,所涉及的兴趣点,以及相应槽位的内容,这里面涉及到其实有两大难点,就是一个是领域分类和兴趣点的分类。

结构化解析

基础文本标注

我们如何通过少量标注的样本去快速学习一个模型?因为我们涉及到线上涉及到视频分类种类非常多,如何提高模型推动的效果?采用这种训练模型加蒸馏的方式来解决。另外一个就是在对短标题进行识别的时候,我们也面临两个难点,第一个是序列的嵌套问题,我们稍后会看到一些比较明显的case。另外一个是如何在各个产业之间通过一个模型快速的去做对应的牵引。根据最新NLP领域的一些进展,基于这种方式去做模板的增强可以充分的把语言与训练的模型里面蕴含的知识快速的去提取出来。

基于Prompt的预训练模型

最近出现的新范式其实很好的来解决了原来旧范式的一些难点和缺陷。我们可以看到在旧范式里面,这篇文章其实就是斯坦福大学提出来的方式,对目标文本保持不变,然后加入与任务相关的提示语,构建了一个模板。对于要预测的分类,结果用一个mask来替代,再结合对应任务里面的一些样例,最后把分类任务当成是一个mask的预测策略,这种方式就很好的去适配了整个培训练模型。这种方式保持模型基础的整体模型不变的情况下,只需要通过构造这个去做对应下游的预测,这种方式非常的灵活。那么我们怎么把这种新的范式结合到我们需要去做序列标注当中的?这里详细介绍大规模的预训练语言模型加一个比较灵活的解决序列任务的一个新的方法。

多模态融合理解

怎么把词汇的信息融合到整个模型的预测和推断当中的?这里借鉴了这个结构,通过一个汉字编码和一个伪编码,建设一个汉字格的结构,同时通过相对位置编码加强就是字和词之间的交互,把词汇的本身的边界信息也很好地建模到整个结构当中,最后通过这种词汇增强的方式,我们有效地利用了图谱。已经积累了很多垂类的这种词汇信息,同时在序列标注的边界预测当中也取得非常好的收益。 那么采用transformer来做多模态的预训练模型,其实有很多的优势:第一个它很好地统一了文本以及视觉语义的表征方式,文本和识别我们可以用同一个模型来解决,同时可以对序列有一个很好的鉴别能力。这样我们可以统一图片和视频语义表示方法,首先将图片或者视频切成分块的态势,每一个相当于NLP任务当中的token,然后进行位置编码,也可以把图片里面的空间关系以及视频里面的空间加时间的关系通过序列建模的方式建模到transform里面去。

在训练任务当中,我们采用的是对比学习的方式,对比学习有两大优势,第一个就是弱监督的学习方式可以很容易地收集了标注数据,在我们搜索场景非常容易的去收集用户搜索的宽容,对应点击的视频。同时对比于传统的基于分类的来训练一个多模预训练模型,这种对比学习的方式能够更好的去学习更细致的信息。在拿到多模拟训练模型之后,我们在下游任务当中去反去用的时候,也会面临另外一个问题,就是怎么去做模态之间的融合,就文本和视频视觉的模态怎么去做融合,我们可以看到示意图,一个是单流网络,另外一个双流网络单流网络也是近期多模态与训练模式图形当中比较常见的一种方案,通过一个transformer,那么将NLP里面的文本以及视觉里面的图像表示输入到同一个form里面去,然后进行交互和建模。

这种方式其实有很多的问题,一个就是推断的延时会非常的高,那么另外一个是延展性和扩展性也比较的弱。对比来看,这种双流网络就是将RPNRP的建模和视觉的建模放设置成两个双塔,在最后的任务进行交互这种方式,它的效率会非常的高,但是也缺少了模态之间的深度的交互,这是它的缺陷。那么如何将单流网络,双流网络各自的优点进行融合? 这里我们其实提出来一个多阶段学习的方式,在第一个阶段,刚才提到通过预训练任务来对双流网络加对比学习,去学习文本以及视频的标准。第二个阶段就是我们把双流网络参数冻住,通过双流网络分别提取文本以及视频的特征,在最后输入到统一的诠释方面结构里面去,通过视频和宽query的匹配任务匹配和不匹配预测任务去训练全方的结构。这种方式我们就得到一个模态融合的预训练模型。

这种方式对比于传统的方法,对于下游的标志数据要求下降得非常明显,我们只需要单个标签,只需要千级别的标注数据,就可以得到和以前视频多标签预测的同样的效果,整个标注数据也下降了90%。最后介绍一下我们基于这种结构化解析怎么去在视频的产品当中进行落地和实践的,那么刚才提到对视频包括搜索的query和视频本身的内容进行对应的标签抽取,可以把这种标签外显出来,通过显示的展示这种筛选标签,用户可以快速找到他想要的视频,提升了内容分发的效率,同时通过显示标签也可以很好的去推荐用户的细分需求,会在视频的分发上有不错的收益。

产品应用

对视频进行结构化解析之后,还有一个比较好的应用,就是去做视频内容的再组织,我们可以看到通过多模态的理解,可以去标题基于视频的视觉内容,对视频打上对应的标签,经过结构化解析之后,进行对应的聚合。 这种方式就是将搜索和推荐结合在一起,然后在视频的分发上也带来一个非常好的效果,可以看到无论是游戏视频的合集,还有影视剧情的合集,通过合集这种产品很好的去提高了用户找到他想要的视频的搜索需求的效率,另外一个就是很好的去借鉴推荐当中的这种视频内容的关联关系去提升视频的分发。

分享嘉宾:王杰 高级研究员
编辑整理:Stella
出品平台:DataFunTalk

萤窗小语

2021/09/23  阅读:34  主题:全栈蓝

作者介绍

萤窗小语