2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 解读:【腾讯】基于兴趣点图谱的内容理解

解读:【腾讯】基于兴趣点图谱的内容理解

时间:2020-03-15 00:58:33

相关推荐

解读:【腾讯】基于兴趣点图谱的内容理解

重磅推荐专栏: 《Transformers自然语言处理系列教程》

手把手带你深入实践Transformers,轻松构建属于自己的NLP智能应用!

1. 项目背景

1.1 推荐不准

1.2 信息蚕房

单只用“分类、实体、关键词”进行召回,容易导致信息蚕房。如果我们能挖掘出“用户为什么会消费”的“兴趣点”,就能很好的缓解该问题

1.3 内容理解相关研究

1.4兴趣图谱

这里作者将兴趣点分层了概念、话题和事件

2. 兴趣点图谱建设

2.1 兴趣点挖掘

所谓的兴趣点,就是‘概念’、‘话题’、‘事件’的总称。作者在挖掘出兴趣点后,再基于句式规则、实体抽象等方法将兴趣点分类成‘概念’、‘话题’、‘事件’。下面我们主要介绍兴趣点是怎么挖掘的。

难点:

1)粒度难以合理成符合用户的兴趣

2)训练样本人工难以标注

方案:

1、使用UGC数据,即搜索数据,用户真实表达需求。

2、弱监督方法解决冷启动问题,一种方式是(Alignment Based)类似于计算最大公共子序列的方式得到兴趣点:

另外一种方式是(pattern bootstrapping):

1、先预定义一些pattern集合

2、从Query集合中匹配Query

3、从匹配到的Query并提出候选兴趣点

4、用得到的候选兴趣点匹配出候选Query

5、基于候选Query泛化出候选Pattern

6、基于Pattern对应的兴趣点数量占比计算候选Pattern的得分,并过来分数低的Pattern,得到新增的Pattern

7.将新增的Pattern融合到pattern集合中,重复以上步骤

可以看到Q-Pattern和QT-Align准确率不错,但是覆盖率低却非常低。由此作者提出了改进的方案:

2.2 关系挖掘

2.2.1 上下位关系挖掘

2.2.1.1 分类-概念
2.2.1.2 概念-实体

个人认为该方案正样本数据量可能比较少。文章中,实体文字可以加上超链接,这样就能很好的基于用户点击行为获得。而且,我感觉用户”继续搜索“为真正的正样本的正确率可能也不是很高。

2.2.1.3 事件-话题

2.2.2 关联关系挖掘

3. 兴趣点图谱应用

3.1 内容理解

简单来说就是把文章打上概念、事件、话题。

3.1.1 召回

”词语级显示语义召回“的结果还会经过相似度计算过滤一波,以减少候选集:

3.1.2 匹配

由于是离线计算,所以语义匹配使用了MatchPyramid 交叉匹配的架构,还是加上了BOW相似度,最后两者线性融合:

3.2 效果

Figure 7 可以看出,基于兴趣点中‘话题’、‘事件’召回的点击率效果比较好,但是基于‘概念’召回的点击率效果会比实体都差。这是由于“概念”本质上是对实体进行了抽象,所以更具多样性,但准确性会降低。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。