彭博社的人工智能研究人员和工程师在ACL-IJCNLP 2021上发表了3篇NLP论文

会议期间计算语言学协会第59届年会和第11届自然语言处理国际联合会议(ACL-IJCNLP 2021)本周,彭博社的研究人员和工程师人工智能组通过在主要会议和共同举办的研讨会上发表三(3)篇论文,展示了他们在自然语言处理(NLP)和计算语言学方面的专业知识,包括第17届国际解析技术会议(IWPT 2021)*SEM 2021:第十届词汇和计算语义联合会议

在这些论文中,作者和他们的合作者——其中包括北卡罗来纳大学教堂山分校的计算机科学博士生丽莎·鲍尔,她作为我们人工智能集团的实习生进行了她的研究,以及她的导师,Mohit邦萨尔博士,管理局局长用于语言实验室的多模态理解、推理和生成,这是UNC的自然语言处理和机器学习小组和一个彭博数据科学研究基金的前任获得者-在回答问题的领域中对两个基本的NLP问题的贡献,句法或语义分析,以及解纠缠,并以NLP技术的应用为重点从财务报告中提取混合数据,以及理解句子和在线聊天

我们请作者总结他们的研究,并解释为什么这些结果在推进计算语言学领域的最新技术方面是显著的:


2021年8月3日,星期二

第9C课时:问题回答2(UTC上午10:30-10:40)
TAT-QA:金融领域表格和文本内容混合的问答基准
冯斌竹(新加坡国立大学)、文强磊(NUS)、尤成皇(四川大学)、晁望(6ESTATES)、硕张(彭博)、简成律(四川大学)、傅丽锋(NUS)和PUN(NUS)

点击此处阅读《TAT-QA:金融领域表格和文本内容混合的问答基准》,该基准于2021年8月3日在ACL-IJCNLP上发布

请总结一下你的研究。

朔:现有的问答系统主要关注非结构化文本、结构化知识库或半结构化表格。尽管混合数据在现实世界的用例(如财务报告)中非常普遍,但处理混合数据(包括非结构化文本和结构化或半结构化知识库/表)的工作很少。

这项工作的主要目标是在混合表格和文本内容的基础上构建一个基准。特别是,我们从财务报告中提取混合数据,并执行劳动密集型注释任务,以构建包含四种注释类型的新大规模QA数据集:

  1. 表的相关上下文;
  2. 问答对,通常需要数字推理来推断答案;
  3. 答案类型和表示推理类型的推导;和
  4. 推断答案的来源(参见图1作为示例)。

此外,我们还提出了一个QA模型,该模型采用序列标签提取相关单元,然后对提取的单元进行符号推理以得到最终答案。

TAT-QA的一个例子
TAT-QA的一个例子。左侧虚线框显示混合上下文。蓝色背景的行是行标题,而灰色的列是列标题。右边的实线框显示了相应的问题、答案及其比例,以及得出答案的推导。

为什么这些结果值得注意?它将如何帮助推进自然语言处理领域的最先进的技术?

现有的混合数据QA系统基于Wikipedia,其中嵌入的表主要是内容(基于文本的)表,这些表涵盖了更多不同的数据类型。这项新的基准测试是将QA对混合内容的研究注意力引入金融领域的第一次尝试,在金融领域,数字表格及其上下文是普遍存在的,更具挑战性。根据这些财务报告想象复杂的计算可能需要有专业背景的人。但是,使这种混合内容更容易发现很重要。TAT-QA是一个数据集,将有利于研究社区和行业应用。

数据集是由那些有财务背景的人标记的,大约花了3个月完成。我们严格的控制确保了注释的质量。我们尝试加入多个注释,包括在表格中添加相关段落、问答对、答案类型和推导、答案来源。最后,不仅QA任务可以利用该资源,其他子任务也可以利用该资源。比如信息提取和语义类型预测。可以从中受益。

我们采用了一些最先进的QA模型,用于表和类似上下文的应用程序餐前小吃混合器,但对于包含数字表的混合数据,它们不能很好地推广。最后,我们提出的TAGOP方法在F1得分上仅达到58.0%,这表明了这项任务的难度。这表明混合内容的QA仍然是一个开放的挑战。这有多种原因,如推断答案的证据是分散在两个表和上下文,数量需要转换基于单位,计算内在复杂的财务报告,等等。

我们能做些什么来消除差距?这项工作的主要作者已经基于此资源构建了一个排行榜,因此社区可以共同推动这项研究(图2提供了排行榜的快照)。

TAT-QA排行榜快照
TAT-QA排行榜的快照。

2021年8月6日,星期五

IWPT 2021:第17届解析技术国际会议
海报会议(UTC下午13:00-13:30)
用于结构化预测的通用oracle
Christoph Teichman(彭博社)和Antoine Venant(蒙特勒大学)

点击此处阅读2021年8月6日在IWPT 2021上发布的“结构化预测的通用预言”

请总结一下你的研究。

克里斯托夫:对于机器翻译(MT)或将句子映射到其含义等任务,输出将按一系列步骤生成。在机器翻译中,我们逐字翻译。为了理解一句话,我们逐渐填入谁对谁做了什么。当我们为这些任务训练模型时,模型必须能够根据自己的输出做出决策。例如,如果我们将“Mary sieht John”(“Mary sees John”)翻译成英语,并且模型生成的第一个输出是“Mary”,那么一个好的延续就是“sees John”。如果模型生成的第一个单词是“John”,那么仍然有一种方法可以通过使用“was seen by Mary”从这个次优选择中恢复过来翻译的其余部分。

为了训练能够从自身错误中恢复的模型,我们需要两个要素:

  1. 模型出错的示例以及关于如何恢复的信息。通过运行一些输入的初步模型,并将结果与正确的解决方案进行比较,很容易得到错误。
  2. 动态预言器决定了模型在运行的每一步应该做什么。在上面的例子中,如果我们的模型犯了一个更糟糕的错误,并以“Sees”开始翻译,那么动态oracle将告诉我们下一步要做什么。“下一步该做什么”被定义为采取行动,与黄金解决方案相比,它能带来最好的结果。
用于主动模仿学习的示例结构化预测任务
用于主动模仿学习的示例结构化预测任务。

我们的论文展示了如何将动态预言者必须回答的问题转化为一个可以用有限状态自动机语言表达的优化问题。翻译完成后,我们可以使用众所周知的技术,如动态规划,有效地获得所需的答案。

为什么这些结果显著?它是如何推动自然语言处理/计算语言学领域的最新发展的?

在NLP领域,人们会遇到各种各样的问题:机器翻译、命名实体识别和对话结构解析都有自己的评估指标和不同的动作集,模型必须在每个步骤中选择这些动作集。这种多样性意味着以前的动态oracle实现是特定任务的:它们可以告诉我们如何处理特定类型的语法或语义分析,但每一个新的问题陈述都要求研究人员提出一种新的方法来获得高效的oracle。

我们的研究将使这一过程更加简单。如果可以用有限状态自动机来表示问题的损失函数和所有可能的解决方案集,那么我们的技术将直接导致高效的动态oracle。这意味着我们将能够将错误意识培训扩展到该领域更广泛的现有和新问题。

2021年8月6日,星期五

*SEM 2021:第十届词汇和计算语义联合会议
QA课程6:话语、对话、生成(UTC下午15:54-16:02)
海报课程6:话语、对话、生成(UTC下午16:10-17:00)
用DAG结构的LSTM解析在线聊天
杜乔·帕帕多普洛(彭博社)、丽莎·鲍尔(北卡罗来纳州教堂山)、马可·法里纳(彭博社)、奥桑·奥斯(彭博社)、莫希特·班萨尔(北卡罗来纳州大学)

点击此处阅读2021年8月6日在*SEM 2021上发布的“使用DAG结构的LSTM解开在线聊天”

请总结一下你的研究。

Duccio:在线聊天和短信系统是当今非常常见的交流工具。用户组之间的文本对话具有丰富而复杂的结构,这可能成为下游NLP任务(如问答、摘要或主题建模)的障碍。在完成其他任务之前,解开这些相互交织的对话线索是至关重要的一步。

为了简化这个具有挑战性的集群问题,我们可以直观地假设帖子之间存在二元关系,即帖子要么启动一个新线程(例如,通过问一个新问题),要么回复前一个线程。一旦确定了所有的回复对,线程就会立即跟进。

这样构建问题的好处是,识别回复对是一个简单得多的分类问题:给定一篇文章,我们旨在预测它在回复之前的哪篇文章。

我们的工作是由2019年发布的新数据集推动的Kummerfeld等,其中包括用于训练会话解纠缠模型的带注释的应答对。

在本文中,我们介绍了一种新的体系结构来执行线程解纠缠。建立在我们以前的工作, “DAG-LSTMs群聊中的对话行为分类,于2019年在SIGIR举办的对话互动系统第一次研讨会,我们使用DAG LSTM对文本特征进行编码,因为它们允许我们跟踪由用户轮次和用户提及产生的对话的图形结构。

我们将基线模型引入的特性集合扩展为Kummerfeld等.以便捕捉用户使用其用户名的缩写或拼写错误版本提到另一个用户的实例。

摘自IRC数据集(左)和我们对分类器体系结构的回复(右)
节选自IRC数据集(左)和我们的回复分类器架构(右)。蓝点表示一个单向DAG-LSTM单元,处理来自当前节点的子节点的状态。红点表示执行线程编码的GRU单元。此时,我们正在计算第五句话语回复第三句话语的得分(log-odds)。

为什么这些结果显著?它是如何推动自然语言处理/计算语言学领域的最新发展的?
我们的工作在恢复回复关系方面取得了最先进的成果。

我们进行了彻底的功能消除实验,结果表明,我们的模型和新的手工制作的功能相对于现有的强基线提供了显著的改进,这得益于它们能够捕获会话数据的独特复杂结构,利用用户轮次和提及中的关系。

虽然我们引入的新特性是针对我们用来评估模型的数据集定制的,但DAG-LSTM体系结构足够灵活,可以应用于其他数据集,而解纠缠是下游任务的先决条件。特别是,虽然我们仅使用用户回合和用户提及元数据来定义DAG-LSTM图中的父子链接,但可以使用其他关系。示例包括时差、两个语句中是否存在公共词,或者更一般地说,任何特定于数据集的二进制关系。

此外,我们相信我们的模型足够简单,可以在实时场景中进行部署,其中延迟是一个问题。