来自彭博社研究人员的4篇NLP论文发表在“ACL的发现:EMNLP 2021”和会议研讨会上

除了发表论文4篇2021年自然语言处理经验方法会议(EMNLP 2021)来自彭博社的人工智能研究人员和工程师也在本周的主要会议上发表了两篇论文,展示了他们在自然语言处理(NLP)和计算语言学方面的专业知识计算语言学协会的发现:EMNLP 2021,以及另外两篇刊登在同一地点的论文“自然语言处理中负面结果的启示”工作坊

发表于《计算语言学协会的发现:EMNLP 2021》的论文列表
在EMNLP 2021年研讨会期间发表的论文列表

此外,BLAW机器学习工程师莱斯利·巴雷特和彭博人工智能研究科学家丹尼尔·Preoţiuc-Pietro是此次活动的两位组织者自然法律语言处理研讨会将于2021年在EMNLP举行2021年11月10日,星期三。本次研讨会的目标是将来自世界各地为法律数据开发NLP技术的研究人员和实践者聚集在一起。受邀发言的是两位资深法律学者:约翰盔甲,牛津大学法律和金融教授,以及西尔维德拉克洛瓦他是伯明翰大学法律和伦理学教授。

自从这个法律研讨会之后首次亮相于2019年,提交的论文数量翻了一番研讨会将口头提出30篇论文.论文将涵盖广泛的主题,从法律自然语言处理的新数据集和在法律语料库上预先训练的转换器模型,到法律文件的信息检索、提取、问答、分类、解析和总结,以及法律判断预测、法律对话、法律推理和伦理道德。

我们询问了作者发现和研讨会论文,总结他们的研究,并解释为什么结果显著推进了计算语言学领域的最新水平:


2021年11月10日,星期三

计算语言学协会的发现:EMNLP 2021;也是在对话人工智能的自然语言处理工作坊(NLP4ConvAI)
基于回合损失函数和序列数据增强的对话状态跟踪改进
Jarana Manotumruksa, Jeff Dalton, Edgar Meij, Emine Yilmaz

点击阅读“利用回合制损失函数和顺序数据增强改进对话状态跟踪”

请总结一下你的研究。

埃德加:我们在这篇文章中做了两个主要的贡献,都与改进会话代理有关。对话状态跟踪(DST)是任何此类有状态问答、虚拟个人助理或其他交互系统的关键组件。DST的目标是跟踪用户的具体要求,以及他们在对话中的位置。基于这些信息,模型决定如何制定后续语句或问题,或执行哪个操作。

DST通常被建模为一个插槽填充任务,其中系统需要决定用户是否提到了插槽以及它的值。例如,当使用会话代理预订机票时,模型需要知道用户从哪里起飞,他们要去哪里,以及他们计划何时旅行。评估这类系统的一种常见方法是在每次说话时计算“联合目标准确性”。当且仅当槽位和值在一个回合中都被正确预测时,得分为1。否则,它是0。因此,损失函数的选择严重影响模型的最终性能。

我们认为,使用交叉熵损失等传统函数会导致性能差。此外,我们假设,在对话的前几个回合中所犯的错误对用户感知性能的负面影响要比对话后几个回合中所犯的错误大得多。因此,我们设计了一个回合制损失函数(TLF),惩罚对话早期的错误多于之后的错误。

我们的第二个贡献是一种数据增强方法,旨在丰富培训对话,使其更加复杂。我们假设,除了为插槽及其值提供额外的相关上下文之外,这种增强对话可以帮助模型更好地理解意图。

为什么这项研究值得注意?它将如何帮助推进该领域的最先进技术?

通过在多个基准数据集上的综合实验,我们发现这两种方法都显著提高了效率,在MultiWOZ2.2测试集上相对减少了8.26%的误差。详细分析表明,该方法对超参数设置、模型选择和特定领域具有较强的鲁棒性。

计算语言学协会的发现:EMNLP 2021
FANATIC:快速噪声感知主题聚类
Ari Silburt, Anja Subasic, Evan Thompson, Carmeline Dsilva, Tarec Fares

点击阅读“FANATIC: FAst Noise-Aware TopIc Clustering”

请总结一下你的研究。

阿里:今天的数据来源,包括产品评论、信念、价值等,包含了丰富的信息。然而,这些信息经常被嵌入我们所说的“话题噪音”的海洋中——与任何想要的话题无关的数据,应该被过滤掉。目前大多数聚类算法都在与主题噪声作斗争。例如,下面的两个表格显示了两种不同的聚类算法中“Hair”主题提及次数最多的聚类中随机抽取的8个文档:DP-means (Kulis and Jordan, 2012)FANATIC(我们的算法)。可以看出,DP-means聚类包含了大量的“主题噪声”——与所需主题无关的样本文本。相比之下,FANATIC集群更清晰,更准确地描述了“Hair”主题。

在本文中,我们提出了一种新的文档聚类算法,FANATIC,它比其他算法更能识别和过滤主题噪声,同时仍然保持高的主题覆盖在聚类中。此外,FANATIC与现有的聚类算法相比具有很强的扩展性,使其成为在存在主题噪声的文档聚类时的明显选择。FANATIC扩展了DP-means(一种非参数k-means算法),增加了一些额外的特性,以改进与主题噪声相关的文档聚类过程。

两个表显示了从两种不同的聚类算法(DP-means和FANATIC)中提到“Hair”最多的聚类中随机抽样的8个文档

为什么这项研究值得注意?它将如何帮助推进该领域的最先进技术?

数据的数量和多样性比以往任何时候都要大,因此越来越需要根据手头的任务进行精炼和过滤。特别是,聊天和社交媒体数据充斥着话题噪音。由于大多数聚类算法(例如,k-means,凝聚聚类)没有任何过滤主题噪声的方法,这就保证了任何杂质将传播到结果中,除非用户手动的预/后过滤器与聚类分离,这增加了风险。相比之下,FANATIC联合聚类和过滤主题噪声,从而产生更高质量的聚类,从而最终有助于更好的业务洞察和决策。

2021年11月10日,星期三

“自然语言处理中负面结果的启示”工作坊(AST)上午10
词网名词hypernym图上的欧氏嵌入和双曲嵌入比较
萨米尔·班萨尔,艾德里安·本顿

点击阅读“WordNet名词Hypernymy图上的欧氏和双曲嵌入比较”

请总结一下你的研究。

阿德里恩:单词嵌入是自然语言处理的重要组成部分,我们的词汇表中的每个单词都表示为一个向量,一个固定长度的数字列表。之前的工作已经表明,如果我们把词嵌入看作向量空间中的点,这些词之间的距离往往捕捉语义和句法相似性的概念。这意味着相近的单词通常具有相似的含义(例如,所有描述一种职业的单词都聚集在空间的一个区域)或在句子中具有相同的功能(例如,副词聚集在空间的一个区域,名词聚集在另一个区域)。

单词之间的一种特殊关系是上义关系,基本上就是“is-a”关系。例如,植物“是一个”的生物;因此,生物是of的上义词吗植物.英语名词可以排列成一棵树,其中相互直接上名的词通过一条边(即名词上名树)连接在一起。2017年的NeurIPS论文,”Poincaré用于学习层次表示的嵌入,提出了一种优雅的嵌入树节点的解决方案(例如,下面的上名词树中的名词),这样嵌入空间中节点之间的距离就忠实于树中距离之间的关系。作者的解决方法是在双曲空间中嵌入节点。

对于典型的单词嵌入,我们测量点之间的距离,“直线上的距离”,这是我们通常认为的距离。双曲空间的作用是不同的,点之间的距离实际上是增加的,因为这些点离原点更远。这对于嵌入树节点来说是完美的,因为树中的叶子节点的数量随着树的深度而增加。这意味着我们可以将树中的所有叶子排列在以原点为中心的球的边缘,即使它们看起来很近,但在双曲线空间中,每个叶子之间的距离实际上是非常大的。上述2017年的NeurIPS论文通过实证证明,与典型的(欧氏)嵌入方法(包括WordNet上名树中的名词)相比,在双曲空间中嵌入单词可以在广泛的树中产生更简洁的节点表示。

树的插图

在我们的工作中,我们简单地复制了“Poincaré embedding for Learning Hierarchical representation”中的一个实验,在双曲和欧氏(典型的单词嵌入)空间中将名词嵌入WordNet名词hypernymy树中。虽然之前的研究发现,欧几里得嵌入法甚至不能用200维来表示这棵树,但我们发现,欧几里得嵌入法可以用至少50维来表示这棵树,就像双曲线法一样。至少有100个维度,它们可以比双曲线嵌入更真实地表示这些树。在原始作者的帮助下,我们能够识别出一个可能导致基线性能较差的原因:不必要地限制这些嵌入距离原点的距离,这可以解释最初欧几里得嵌入的相对较差的性能。

为什么这项研究值得注意?它将如何帮助推进该领域的最先进技术?

在名词重叠树中嵌入的原始结果是惊人的:欧几里得嵌入远不及双曲线嵌入的重构误差性能。读完后我们很兴奋这篇论文,但在复制这些原始结果时立即遇到了问题。我们发表我们的工作因为我们相信,在深入研究之前,让其他人清楚地了解双曲线嵌入在哪里是有用的,这是很重要的。

可复制性是科学进步的基本前提。我们的工作对双曲嵌入相对于标准词嵌入的有效性提出了质疑——至少在有足够的维度允许学习典型词嵌入的情况下。我们仍然发现双曲嵌入在嵌入非常小的维数的树更有效,这与原论文的论点一致。

请注意,我们的工作之所以成为可能,是因为最初的作者发布了一个代码库,使我们能够复制他们的实验。如果没有这些,他们的实验将会更加困难。

2021年11月10日,星期三

“自然语言处理中负面结果的启示”工作坊(AST)下午3点
修正的CBOW表现以及跳跃图
Ozan İrsoy, Adrian Benton, Karl Stratos

点击阅读“校正的CBOW表现及跳跃图”

请总结一下你的研究。

Ozan:Word2vec是一种常用的单词向量表示算法,称为单词嵌入。词嵌入是自然语言处理中的重要部分,通常作为输入输入到解决各种自然语言处理任务的模型中,这些任务包括命名实体识别、关系提取和情感分析等。Word2vec的流行实现有两种:连续词袋(CBOW)和跳跃图。虽然CBOW嵌入比Skip-gram更快地训练,但之前的工作发现,它们往往不如Skip-gram的性能。

在这篇研讨会论文中,我们的主要贡献如下报告现有CBOW实现中的一个细微错误.这个错误出现在梯度是如何相对于CBOW参数子集计算的。虽然这个bug很小——只是在梯度计算中缺少了一个除法项——但我们发现修正它改善了训练过程,在更少的文本上训练时产生更低的训练损失。这导致了CBOW嵌入,实现了内在和下游性能与跳跃式图。我们还考虑了CBOW bug的其他影响,比如探索在哪些参数配置下它可能是最有害的,以及在培训展开时监控与CBOW参数相关的统计数据。

为什么这项研究值得注意?它将如何帮助推进该领域的最先进技术?

虽然这个bug很微妙,但是CBOW和Skip-gram在整个NLP社区中被大量使用。通过修复这个bug,我们希望能够在大型语料库上进行强Word2vec嵌入的训练,因为CBOW比Skip-gram训练更快。我们释放kō一个,我们纠正的CBOW实施,以及在英语巨大的、清洁的普通爬行语料库(C4)上训练的CBOW嵌入-超过1tb的网络文本。

虽然通常是依靠自动微分库自动计算梯度,但手动实现梯度计算是有效训练这些嵌入的必要条件。确保手工计算的梯度是正确的最佳实践(例如,有限差分检查)应该是强制性的,并且在2013年原始的word2vecc代码发布之前就已经发现了这个bug。我们的工作是一个警世故事,以确保发布的研究代码的质量。机器学习错误可能非常微妙,在社区的雷达下悄悄地过去很多年。

“校正的CBOW表演及跳跃图”海报
Baidu