WSDM 2021:新闻故事中的上下文化趋势实体

每天,数百万新闻报道由媒体公司生产,并送达读者。没有人可以阅读每个故事,所以这些公司策划他们的前页和新闻饲料,以展示最受欢迎的相关内容。现在可以使用趋势自动完成。

趋势关键字或短语是在特定时间帧期间常常在媒体环境中出现的术语。媒体公司使用这些趋势来帮助读者发现流行内容。不同的组织以不同方式识别和放大趋势,但无论哪种方式都完成了这一方式,对读者的流行呈现,对读者来说是关键的新闻机构和社交媒体公司。

彭博研究人员的团队正在试图推出用题为“的新论文来推动识别趋势内容的科学在新闻故事中语境化趋势实体。“本文的目标是提供两种方法来检索和等级上下文化趋势对象的信息。然后,此信息可以帮助框架内容发布者和读者,以及相对于称为“上下文实体”的其他关键项,为什么特定内容是流行的。

例如,趋势实体“乔贝登”的相关条款可能包括“总统”,“Kamala Harris,”“美国”,“政治,”政府“等等。这些上下文实体都帮助讲述故事谁或初始对象,“joe biden”是谁,以及为什么该项目正在趋势。一旦这些实体被定位,它们必须在原始趋势实体的显着性方面排名。

本文提出的上下文实体检索和排序是用两种不同的方法完成的。第一种是基于个性化PageRank和实体嵌入的无监督图算法。第二种监督方法基于Learning to Rank,涉及使用众包注释创建一个测试集合。

Marco Ponza.

AI研究员Marco Ponza(上图)正在代表他的团队提出本文,其中包括他的同事迭戈·塞克利,Edgar Meij和Sambhav Kothari以及比萨大学的Paolo Ferragina,在此期间第14届ACM Web搜索和数据挖掘国际会议(WSDM 2021)本星期。

2019年10月,Ponza的导师和未来的合著者Diego Ceccarelli在彭博社实习的第一天,向他介绍了彭博社现有的趋势识别功能,这让他开始思考如何在该功能的基础上进行构建。

“我有想法,也许我们可以使用新闻故事中发现的其他实体来形成趋势,”Ponza说。

接下来的一个月,他计划并决定使用什么数据,他声称这是项目中最耗时的部分。由于机器学习模型的特点是“垃圾输入,垃圾输出”,因此Ponza清晰地定义问题非常关键,这样数据注释过程就可以由人群以高质量的阈值执行。这个主题也带来了挑战,因为彭博制作的金融数据需要一定程度的主题专业知识。注释器必须能够理解数据以正确地注释它。

由于没有最初可用的标记数据,因此Ponza通过机器学习模型进行复杂,无人监督的方法开始。首先,需要与趋势实体相关联的上下文实体,然后Ponza的团队将上下文实体相互连接,并使用来自维基百科的知识来加权这些关系。最后,他们采用了个性化PageRank,一个标准工具,用于查找到查询或用户最突出的图表中的顶点。

该团队发现,监督方法通常比无监督的方法更好,在新的情况下提高了最多10%丰富的数据集是为了这个研究任务而建立和发布的。这个数据集包含数百个趋势和数千个实体。在构建它的过程中,实体由人类注释者用一个相关分数来标记,表示一个实体在解释趋势方面的有用程度。

内容生产者可以利用这项研究更有效地为他们的读者提供内容。当成功地从知识图中检索到上下文实体并进行排序时,它们可以用于自动构建给定内容的更有用的摘要、进一步阅读的推荐以及搜索建议的自动完成等用途。

这个项目证明了布隆伯格致力于最先进的研究。由于彭博社的工程师在日常产品工作的同时,有时间和资源从事有价值的研究项目,新员工——甚至是实习生——在上班第一天就有机会参与开创性的研究。

“在我们的团队中,您可以致力于在产品上工作的时间,您还可以提倡开发自己的研究时间,”Marco说。“每周都有会议,你可以让其他正在做类似的研究的人帮助你。”

在这种情况下,彭博的研究人员从来都不是孤身一人。当他们陷入困境时,他们可以很容易地找到其他专家来帮助他们克服前进道路上的任何障碍。