彭博工程师将在EMNLP 2021年主要会议上发表4篇NLP论文

2021年自然语言处理经验方法会议(EMNLP 2021)本周,来自彭博社的人工智能研究人员和工程师在主要会议上发表了四篇论文,展示了他们在自然语言处理(NLP)和计算语言学方面的专业知识。他们还发表了两篇论文计算语言学协会的发现:EMNLP 2021和另外两份刊登在同一地点的报纸“自然语言处理中负面结果的启示”工作坊(更多关于这四篇论文在这里).

在EMNLP 2021年主要会议期间发表的论文列表

在这些论文中,作者和他们的合作者——其中包括彭博数据科学博士Alexander Spangher,他是华盛顿大学计算机科学系的博士候选人南加州大学维特比工程学院,以及他的顾问,教授乔纳森可能学校的信息科学学院-在标题词性标注、关系提取、篇章分析、代码转换、对话状态跟踪、文档聚类和主题噪声、单词嵌入等领域对基本自然语言处理问题做出贡献。

我们请主要会议论文的作者总结他们的研究,并解释为什么在推进计算语言学领域的最新进展方面的结果显著:


2021年11月8日,星期一

虚拟海报和演示会议2 (12:30-14:30 AST)
基于交叉配位投影的标题词性标注
Adrian Benton, hananyang Li, Igor Malioutov

点击阅读“标题词性标注的交叉注册投影”

请总结一下你的研究。

伊戈尔:能够处理新闻标题对于许多关键的下游应用非常重要,包括摘要、信息提取、回答问题,以及其他利基问题,如时间轴生成和首条新闻检测。标题通常总结新闻故事中最重要的信息、事件和演员。

此外,许多文章以“快速标题”的形式发布,这通常是在突发新闻事件发生时发出的,甚至在记者有时间写一篇完整的文章之前。随着时间的推移,文章主体将被填充,但标题最初是唯一可用的文本来源。

令人惊讶的是,在开发专门用于处理标题的核心NLP工具方面所做的工作很少,而且可用的带注释的语料库也很少。在这项工作中,我们的目标是通过开发一种自举注释的方法和提出最先进的标题词性标注模型来弥合这一差距。词性标注在许多下游任务中被用作关键信号,包括词元化、句法分析和共引用解析、语义角色标注和开放领域信息提取等。

说明词性标签在标题上的应用

为了解决标题标注不足的问题,我们开发了一种自举方法,其灵感来自于机器翻译中的跨语言标注投影。如果我们将标题和文章中类似的长句对齐,我们就可以将词性标签从资源丰富的领域(长句新闻文本)转移到标题中相应的词。

在我们的实验中,我们表明,针对长文本训练的现有方法会在标题上出现重大但可预见的错误。这主要归因于标题语言的特殊性。事实上,语言学家早就认识到,标题由于省略冠词和助动词,使用独立的名词和状语,构成了一种独特的、独立的语言域。

我们演示了对长格式新闻和标题的联合训练比仅对单一训练集的训练以及对单纯连接训练集的训练都有改进。本研究以新编的5,248个英文新闻标题语料库为研究对象谷歌句子压缩语料库并表明我们的模型每个代币相对误差减少23%,每个标题相对误差减少19%。此外,我们还证明了更好的标题POS标签分配可以提高基于语法的开放领域信息抽取系统的性能。我们还发布了一个黄金注释语料库,包含词性标签标题POS-tagged标题(豪华)-鼓励研究进一步改进新闻标题的NLP模型。

为什么这项研究值得注意?

这项工作为开发更强大的标题NLP模型迈出了第一步,重点是改进POS标签。我们证明,用投射的POS标记训练标题标记者比训练金色注释的长形式文本标记者的模型强得多。这表明,更昂贵的语法注释(如依赖树)也可以可靠地投影到标题上,从而避免在训练标题解析器时需要黄金依赖注释。

虽然本研究的重点是学习强标题POS标记,但我们在本研究中引入的投影技术也可以用于训练其他强标题序列标记(例如,训练标题组块或命名实体标记)。投影可以潜在地应用于为其他领域生成银标记数据,如简化英语(例如,从简化到原始维基百科的对齐句子)和其他语言。

它将如何帮助推进该领域的最先进技术?

重要的是,我们的工作旨在激励其他人将标题作为一种独特的语言域(从计算语言学的角度)来研究。我们希望其他人能够着眼于传统NLP管道和技术堆栈中的其他不同应用和核心任务来进行这项研究。

2021年11月8日,星期一

虚拟海报和演示会议2 (12:30-14:30 AST)
面向现实的少镜头关系提取
Sam Brody,Sichao Wu,Adrian Benton

点击阅读“走向现实的少镜头关系提取”

请总结一下你的研究。

山姆:关系抽取是自然语言处理中的一个重要问题。给定一段文本(例如,一篇新闻文章),我们希望确定某些预定义关系的所有出现。例如,我们可以构建一个关系提取系统来标识提到的公司收购。理想情况下,应该是像“X公司将以23亿美元收购Y控股有限公司”这样的句子。”将被标记为包含关系(X公司,ACQUIRES, Y控股有限责任公司),而“Z公司从供应商W矿业公司购买了150万美元的原材料”不会被标记。

在过去,这个问题主要是通过对个体关系的监督学习来解决的,系统从由数千个例句组成的训练数据中学习识别每个关系。为每一个感兴趣的关系获得足够数量和质量的这种训练数据可能是非常昂贵的,并涉及广泛的手工工作。

在2018年,FewRel提出了一种新的基于小概率学习的学习方法。系统将被训练去区分广泛的不同关系(即关系分类),而不是学习个体关系。这个设置的目的是教系统理解句子什么时候表达相似关系,什么时候表达不同关系。如果经过适当的训练,这样的系统还可以潜在地用于关系提取,从少数例子中识别一个它从未见过的关系。

这个设置让我们非常兴奋,因为它提出了一种创建单个关系提取系统的方法,可以用很少的成本和努力来处理Bloomberg可能感兴趣的任何新关系。

在我们的论文中,我们研究了少镜头关系分类模型,以及它们在关系抽取设置中部署时的表现。我们的发现很有启发性:虽然最先进的预先训练的神经网络可以像人类一样完成少量关系分类,但当用于关系提取时,它们的表现差别很大。在关系抽取设置中,很明显,这些模型混淆了许多人类很容易区分的关系(例如,确定被提及的人是另一个人的孩子还是配偶)。

我们观察到,通过使用单词的结构和它们在句子中的位置,这些模型非常擅长推断实体类型——即使这些信息没有被明确提供。因此,他们倾向于混淆涉及类似实体类型的关系:例如两个人之间的关系,或连接一个组织和地方的关系(如总部城市和注册国家的关系)。

除了在最先进的少镜头关系分类模型中识别这一盲点之外,我们还探索了不同的方法来缓解这种类型偏差。我们考虑了示例句子的几种不同表示形式,但最终发现,改变训练过程,迫使模型区分相似类型的关系,在迫使模型减少对参数类型信息的依赖方面是最有效的。

为什么这项研究值得注意?它将如何帮助推进该领域的最先进技术?

我们的工作表明,少镜头关系分类方法并没有提供一个开箱即用的解决方案的关系提取问题,这是更大的实际兴趣。然而,通过揭示这种方法的弱点——并提出潜在的解决方案——我们帮助使“少发一次”学习更接近于成为一种可行的替代方法,而不是当前从数以千计的例子中学习个体关系的昂贵和耗时的策略。

2021年11月8日,星期一

虚拟海报和演示会议2 (12:30-14:30 AST)
基于多任务半监督学习的类别不平衡语篇分类
亚历山大Spangher、梅乔纳森(Jonathan May)、项士荣、邓凌佳

点击阅读《面向类别不平衡语篇分类的多任务半监督学习》

请总结一下你的研究。

Lingjia:语篇分析揭示了段落在整个文档中的作用。如下图所示,新闻稿中的一些段落讨论新闻的主要主题,而另一些段落则提供背景信息或对事件的反应。

图表显示在新闻稿中一些段落如何讨论新闻的主要主题,而另一些段落则提供背景信息或对事件的反应。

此任务对于许多下游NLP任务非常有用,包括文档摘要、事件提取和故事线标识。

语篇分析的关键挑战之一是语篇数据集通常是阶级不平衡的。例如,在《纽约时报》的文章中NewsDiscourse数据集,24%被标记为“当前上下文”(与主事件同时发生的事件),而只有1.7%被标记为“后果”(主事件导致的事件导致的事件)。此外,收集话语注释是昂贵的,因为这种复杂的任务需要培训的注释器以提供良好的注释数据。

此外,还有一些相互竞争和相关的话语模式,它们并不完全相同。尽管不同的语篇模式定义了不同的语篇标签,但我们观察到它们似乎提供了互补的信息。例如,修辞结构理论提供较低层次的语篇信息,建模两个句子之间的关系。其中一个标签是“问答”,意思是一个句子是另一个句子的答案。最近的新闻话语模式(例如,NewsDiscourse数据集)提供更高层次的篇章信息,为句子和文档之间的关系建模。其中一个标签是“主要事件”,意思是这个句子谈论的是新闻文章中的主要事件。我们提出了低水平NLP任务有助于高水平NLP任务的假设。因此,多任务方法可以使用较低层次的语篇信息来帮助理解较高层次的语篇信息。

为了验证这一假设,我们提出了一个多任务神经网络框架,该框架包括七个篇章数据集(其中一个是本研究新引入的)、一个事件数据集和一个未标记的大规模新闻数据集,用于预测句子级篇章关系。我们的实验表明,这种多任务方法可以改进新闻语篇数据集上的语篇分类,F-1测量值提高了4.9点,其中最大的改进发生在未被充分代表的类上。这些结果表明,多任务方法可以利用其他话语数据集信息来提高性能,特别是当涉及到未充分代表的类时。

为什么这项研究值得注意?它将如何帮助推进该领域的最先进技术?

语篇分析揭示了新闻故事的结构。对于读者来说,话语分析可以帮助他们快速定位故事的不同部分。对于新闻工作者来说,话语分析可以提示哪些方面仍然缺失,并帮助指导他们的写作。这项工作最令人兴奋的部分是,它表明多任务方法可以利用不同的话语模式来帮助学习被低估的类。

这与其他提出的方法相反,例如培训数据增强或无监督的数据增强,这些方法都没有改进的性能。相反,本文中的多任务学习框架可以利用不同的模式中类之间的相关性,并为主要任务中的代表性等级提供支持。

2021年11月8日,星期一

虚拟海报和演示会议2 (12:30-14:30 AST)
GupShup:总结开放域代码转换对话
Laiba Mehnaz, Debanjan Mahata, Rakesh Gosangi, Uma Sushmitha Gunturi, Riya Jain, Gauri Gupta, Amardeep Kumar, Isabelle Lee, Anish Acharya, Rajiv Ratn Shah

点击阅读“GupShup:总结开放域代码转换对话”

请总结一下你的研究。

拉克什:语码转换是指说话人在对话中转换不同语言的交际行为。随着会话代理和聊天平台的广泛采用,语码转换已成为世界上许多多语言社区书面对话的重要组成部分。我们的研究工作介绍了开放领域代码转换的书面对话的抽象摘要任务。也就是说,对于任何话题的多方对话,目的都是生成一个英语摘要。这些英语摘要可以作为其他下游NLP模型的输入,这些模型通常只对英语数据进行训练,以执行各种其他任务,如意图分类、回答问题和项目推荐。

为了方便这项任务,我们构建了第一个开放域代码切换会话摘要数据集。这个新的语料库,命名为GupShup,包含超过6800个印地语-英语代码转换对话和相应的人类注释的英语和印地语-英语摘要。我们为这项任务提供了数据集和各种最先进的抽象摘要模型的性能的全面分析。我们观察到,mart在来自多种语言的数据上进行了预先训练,在自动化评估指标上获得了最佳性能。我们还对模型生成的摘要进行了人工评估。这个实验不仅帮助我们评估和比较不同模型之间的差异,而且还评估了自动总结评估指标的质量。我们的结果显示,基于rogue的参数和BLEURT与人类的评估分数高度相关,但BERTScore和BLEU等参数在这一任务中相对无效。

印度英语中的英语和相应的代码交换版本中的样本对话。这个数字还包括英语和印地语的摘要。
图1:英语对话示例和相应的印地语-英语代码转换版本。这个数字还包括英语和印地语的摘要。

为什么这项研究值得注意?它将如何帮助推进该领域的最先进技术?

语码转换是世界各地各种多语言社区的书面和口语对话中不可分割的一部分。这在精通多种语言的同龄人之间的互动中很常见。例如,在印度次大陆,人们在一次谈话中经常交替使用英语和其他地区语言(如印地语)。除了促进可用语言资源的多样性和包容性之外,开发能够准确处理代码转换文本的模型对于将基于nlp的技术扩散到这些社区是至关重要的。然而,建立这样的模型需要高质量的人类管理的数据集。这就是我们的工作发挥作用的地方。

Baidu