彭博社的人工智能研究人员和工程师将在2021年SIGIR和ICTIR上发表3篇论文

在此期间第44届国际ACM信息检索研究与发展SIGIR会议(SIGIR 2021)并配合第七届ACM SIGIR信息检索理论国际会议(ICTIR 2021)本周,来自彭博社的研究人员和工程师AI集团发表了3篇论文,展示了他们在信息检索(IR)方面的专长。

此外,彭博人工智能研究科学家张硕是此次活动的组织者之一情报检索评估模拟研讨会(Sim4IR),其目标是为研究人员和实践者创建一个论坛,以促进方法学发展和更广泛地使用模拟评估。

人工智能研究科学家和彭博资讯知识图谱团队负责人Ridho Reinanda也将在会议期间举办一场学生会议国际关系理论研讨会(SIRIP),正式名称为SIGIR行业跟踪,将于2021年7月14日至15日举行。

在这些论文中,作者和他们的合作者——包括阿姆斯特丹大学的Maarten de Rijke教授,他是彭博数据科学研究基金的前任获得者- 对基础信息检索问题的对贡献,以及NLP技术的应用,专注于叙事创建,网络表研究以及面向任务对话系统的评估。

我们请作者总结他们的研究,并解释为什么这些结果在推进计算语言学领域的最新进展方面是显著的:


2021年7月11日星期日

ICTIR 2021.
1C场-内容分析(美国东部时间16:30 /美国东部时间上午10:30)
以事件为中心的叙事创作的上下文新闻文章检索
Nikos Voskarides(亚马逊/阿姆斯特丹大学),Sabrina Sauer(格罗宁根大学),Maarten de Rijke(阿姆斯特丹大学),Edgar Meij(彭博社)

点击阅读2021年7月11日在ICTIR上发表的“以事件为中心的叙事创作背景下的新闻文章检索”

请总结一下你的研究。

埃德加:我们发现记者越来越多地使用自动化,以便在书写文章时找到相关内容,特别是在现实世界活动的背景下。这些内容可能来自社交媒体,政治演讲和其他成绩单,或其他新闻来源。在本文中,我们提出了一种有效地检索当前事件和部分撰写叙述的相关前期新闻故事的方法。该方法包含并结合各种排名,包括一个旨在促进最近的内容,一个基于术语的语言模型,旨在促进语义类似的匹配的基于变换器的语言模型。

这项研究将如何推动情报检索领域的最新发展?

鉴于这项任务的新颖性,不存在现有的基准。因此,我们定义了一个程序,以历史事件和新闻故事为基础,模拟一个事件的不完整叙述和相关文章。我们发现,最先进的词汇和语义排序器不足以完成这项任务,同时也表明,将这些词汇和语义排序器与按时间倒序排列文章的排序器相结合能够获得最好的效果。

2021年7月14日,星期三

Sigir 2021.
海报第三期(东部夏令时12:00-1:00及东部夏令时9:00-10:00)
面向任务的对话系统评价中的用户满意度模拟
孙伟伟*(山东大学),张硕*(彭博),Krisztian Balog(斯塔万格大学),任兆春(山东大学),任鹏杰(山东大学),陈祖民(山东大学)和Maarten de Rijke(阿姆斯特丹大学)。
(*平等的贡献)

点击阅读2021年7月14日在2021年SIGIR上发表的《面向任务的对话系统评估的模拟用户满意度》

请总结一下你的研究。

说:本研究的主要目标是构建类人模拟器,用于评估面向任务的对话系统,旨在帮助人类完成特定的任务,如预订酒店或预订航班。先前的用户模拟器只能预测下一个用户动作。我们的目标是实现一个更人性化的用户模拟器,该模拟器还可以根据之前的代理回复预测用户满意度。

为了克服支持这类用户模拟器的注释数据的缺乏,我们构建了一个用户满意度注释数据集,其中包括从多个领域取样的6800个对话,跨越真实世界的电子商务对话、来自《绿野巫师》(Wizard-of-Oz)实验的面向任务的对话(人类对话)、还有电影推荐对话。所有用户在这些对话中的话语,以及对话本身,都根据5个等级的满意度量表进行了标记。

为什么这项研究值得注意?它将如何推动情报检索领域的最新发展?

用户模拟是最广泛使用的工具之一,以实现离线培训和评价对话系统。与主要用于训练对话代理的用户模拟器不同,我们研究了在评估过程中使用类人用户模拟器的可能性,目的是自动测量给定对话系统的质量。

与人相似是主观的,但用户情感、情感或满意度无疑是重要的方面。例如,用户满意度会在对话过程中发生变化,而低用户满意度(例如,由于代理无法理解用户意图)可能导致他们终止对话。

我们建立的研究模拟用户满意度,以帮助评估面向任务的对话系统。在评估满意度方面,基于我们的数据集构建的用户模拟器肯定比人工评估更便宜,同时也比测试集合更具有可伸缩性。这种资源可以用于许多不同的方式,比如当机器人一直给出不满意的回复或用户研究时,进行人机交互预测。

海报第三期(东部夏令时12:00-1:00及东部夏令时9:00-10:00)
WTR:用于Web表检索的测试集合
陈志宇(理海大学),张硕(彭博社),布莱恩·d·戴维森(理海大学)

点击这里阅读“WTR:用于Web表检索的测试集”于2021年7月14日在SIGIR 2021上发布

请总结一下你的研究。

说:作为信息检索研究的一个重要分支,表检索的目标是从一个表集合中返回一个表的排序列表,以响应自然语言或关键字查询(参见图1中的示例)。近年来,该领域的研究越来越受到重视。作为一个新兴的研究领域,表检索仍然需要新的测试集合。由于网络表格有许多不同的格式,缺乏一个合适的表格检索基准,我们建立了一个测试集合,用于网络表格检索任务,它使用大规模网络表全集提取常见的爬行

图示说明ad hoc表检索
图1所示。特设表检索:给定一个关键字查询,系统返回一个表的排序列表。

为什么这个资源值得注意?它将如何推动情报检索领域的最新发展?

第一个广泛使用的临时表检索基准,WikiTables是我和我的博士导师,Krisztian Balog教授(cf。基于语义相似度的Ad Hoc表检索).许多研究人员以这一基准来评估他们的方法。

WikiTables主要基于维基百科的表格。然而,任意的网络表格可能比维基百科的表格更“脏”,因此给这项任务带来了额外的挑战。目前还不清楚当遇到这些网络表时,最先进的表检索模型是如何执行的。这项研究无疑填补了这一空白,并将有助于回答这个问题。未来对表检索的研究将在许多方面受益于这个新的基准(例如,公平地估计其模型的通用性)。

除了表格类型的附加信息外,网页表格通常包含丰富的上下文信息,如页面标题和周围的段落。我们不仅提供查询表对的相关性判断,而且还提供查询表上下文对对查询的相关性判断,这是以前的测试集合忽略的。为了促进这个基准的未来研究,我们提供了关于数据集是如何预处理的细节,以及来自传统和最近提出的表检索方法的基线结果。我们的实验结果表明,正确使用上下文标签有助于以往的表检索方法。

Baidu