数据科学研究基金:宣布第四轮获奖者名单

彭博数据科学研究资助计划旨在支持广泛解释的数据科学领域的前沿研究,包括自然语言处理、机器学习、搜索和排名,以及创建或贡献用于数据科学的开源软件。金宝搏网址在2015年4月今天,我们宣布了第一轮的获奖者2015年10月,我们宣布了第二场比赛,入场了2016年4月我们宣布了第三个。今天,我们很高兴地宣布我们第四轮资助的获奖者。

“彭博社很自豪能够资助与我们的使命相关的数据科学领域的学术研究将决策者与一个动态的信息、人员和想法网络连接起来Amanda Stent说,她是彭博首席技术官办公室的NLP研究员,也是拨款委员会的成员。“通过这些赠款,我们可以聚焦于丰富的数据和金融分析领域的研究问题并对188188金宝搏 研究成果,如数据和系统。我们希望我们的项目将鼓励学生和教师研究人员在核心数据科学思想和技术方面的工作。”

在来自世界各地大学教职员工的近200份申请中,彭博社的一个数据科学家委员会选择了以下8个研究项目:

格雷格Durrett(德克萨斯大学奥斯汀分校)
将结构化知识与大数据相结合,实现共引用解析
当人类阅读文本时,他们根据他们已有的背景知识合成和处理其中包含的信息。自然语言处理系统通常缺乏这种使用显性世界知识和以上下文相关的方式理解文本的能力。其中一个表现就是系统跟踪参与者的能力很差,无法跟踪文本的哪个部分指向谁,这就是所谓的共参照解决问题。Durrett教授的工作将通过利用大规模未标记数据和已有的知识库来改进最先进的共引用解析系统。

Hannaneh Hajishirzi(华盛顿大学)
多模态数据中的问答和推理
问答是传统信息检索的重要补充。近年来,人们对多模式问答的兴趣日益浓厚,即从文本、图形、图像和视频中的数据中综合答案。Hajishirzi教授将开发一个系统,“可以阅读多模态上下文,以及多模态问题和答案的推理,这在本质上也可能是多模态的。”

保罗Ferragina(意大利di比萨)
实体突出通过复杂的语法和语义特征
这个建议的目的是更准确地确定实体的显著性(即,一组已知实体中哪一个对一个文档来说是最显著的)。Ferragina教授将改进他著名的实体突出系统,SWAT。作为资助研究的结果,SWAT的公共API将被发布。

托尔斯滕joachim(康奈尔大学)
使用日志数据进行反事实学习
日志数据是最普遍的可用数据形式之一,因为它可以从各种在线系统(如搜索引擎,查询自动完成,终端浏览)记录下来,成本很低。该项目提出了一项计划,以开发基于充分基础和可扩展的学习方法,以便从普遍可用的部分信息反馈(以登录用户行为的形式)中学习。采用反事实风险最小化(CRM)方法,Joachims教授将开发使用日志数据的深度学习方法,以及利用用户行为的随机性替代明确随机控制的新的反事实学习方法。

马克Steedman(爱丁堡大学)
使用蕴涵图通过机器阅读学习隐藏语义
现有的信息抽取系统对蕴涵的推理能力有限(例如,对文本中描述的事件和动作所必须遵循的状态作出常识性推论)。Steedman教授将通过构建“基于分布式和逻辑运算符的语义自动组合,通过机器使用现有解析器阅读大量文本,诱导支持常识推理的意译和蕴涵的隐藏语义”来解决这个问题。

Maarten de Rijke(阿姆斯特丹大学)
知识图关系的深度解释性学习
知识图捕捉对决策有价值的结构化信息。对于实际的决策系统来说,解释它们的推理是很重要的。de Rijke教授将以他之前在彭博社的成功研究为基础,开发一个系统,从知识图为实体关系构建简短的文本解释,以支持智能决策。

西蒙·普雷斯顿恋人Bharath伊夫·范·Gennip(诺丁汉大学);米凯拉Mahlberg(伯明翰大学)
动态词嵌入-和在现实世界话语分析中的应用
我们理解自然语言文本的能力已经提高,这要归功于一些创新,比如对词语、短语和实体的神经嵌入,以捕获问题结构的语义。然而,在构建神经嵌入时,我们通常不会模拟语义随时间发展的事实。例如,想想回答这个问题:“在上个世纪,吸烟和癌症之间的关系是如何发展的?”这项工作,由普雷斯顿教授等人提出,将专注于明确建模时,构建嵌入。此外,他们的工作将开发一种方法,以确定动态嵌入的统计显著趋势。

亚历山大·拉什(哈佛大学)
粗到细的神经注意和生成应用于文档分析
神经序列到序列模型在机器翻译、视觉问答以及最近的文档分析和总结方面都有了新的突破。然而,目前的方法不能很好地扩展到非常长的输入“序列”,如多页文档或高分辨率图像。拉什教授建议使用一种被称为粗到细修剪的技术来创建快速、内存效率高的序列到序列模型。

资助委员会成员、NLP高级研究员Prabhanjan (Anju) Kambadur表示:“我们在2017年通过彭博数据科学研究资助计划选择资助的8个项目是从一个非常有竞争力的提案池中挑选出来的。”“无论是搜索、问答、文本分析还是机器学习,每一个项目都涉及强大的数据科学组成部分,以及主要研究人员向研究社区发布数据或系统的承诺。最重要的是,所有这些都将开辟新的科学领域。”

第五轮的申请截止日期将于2017年底前公布。