宣布2018-2019年彭博数据科学博士奖学金获得者

彭博社2018-2019年数据科学博士研究员(左至右):Yuval Pinter, Huazheng Wang, Hongyuan Mei, Tianze Shi and Shruti Rijhwani(摄影师:Lori Hoffman/Bloomberg)

彭博社(Bloomberg)最近在其位于纽约的全球总部欢迎了5名杰出的博士生,他们在广泛的数据科学领域工作,包括自然语言处理(NLP)、机器学习和人工智能,这是该公司成立的一部分彭博数据科学博士奖学金.彭博从它的数据科学研究资助计划该公司与全球各地的学术研究人员建立了关系,并创建了奖学金计划,以吸引可能处于职业生涯早期的专业人士。这项奖学金的目的是支持和鼓励在学术期刊和会议记录上发表开创性的论文。

今天,我们很高兴地宣布首届彭博数据科学博士研究生。

一个由来自整个组织的彭博数据科学家组成的委员会选择了这些研究员,因为他们的提案具有技术弹性和优势,以及他们的学术顾问的推荐信,这些学术顾问也陪同他们访问了彭博。每位研究员的研究兴趣与118金宝搏抽水 .在接下来的一年里,研究员们将努力推进他们的研究,探索彭博不可或缺的应用。他们还将有机会参加2019年夏季的实习,期间他们将在研究顾问的指导下与彭博团队合作,将他们的研究应用于该公司的一个应用程序。

布隆伯格2018-2019年度博士研究员与他们的学术顾问和布隆伯格数据科学团队成员一起(摄影师:Lori Hoffman/Bloomberg)

“让人们接触现实世界的商业问题很重要,因为它为如何影响人们的工作提供了更好的背景,”彭博社CTO办公室的数据科学家、Fellowship委员会成员Gillian Chin说。“许多人传统上通过夏季实习来实现这一目标,但在彭博,我们希望在更大范围内投资于从学术研究中借鉴的理念的应用。在学术界,你倾向于简单的短期应用;我们想要研究的更困难的问题是复杂的,有多种依赖和约束,在执行和对用户的影响方面有更长的时间范围。”

作为对彭博社的介绍,研究员们前往纽约用了三天时间,与该公司的数据科学团队以及在即将到来的实习期间将与他们共事的导师见面。除了了解彭博正在进行的数据科学研究的多样性和深度、彭博数据科学团队的目标以及彭博的运营方式,研究员们还有幸见到了该公司的创始人迈克尔•布隆伯格(Michael Bloomberg)。

“有很多新的、有趣的挑战是我在学术界没有想到的——解决这些挑战可能会对彭博的客户产生真正的影响,”彭博的博士生王华正说计算机科学系维吉尼亚大学.“最有趣的是,我能与彭博社的研究人员一起研究这些问题,这在学术界很少见。”

该奖学金提供金融行业和彭博广泛、高质量的数据。学术界的大多数研究是在公共数据集上进行的,但能够利用真实世界的数据提出了新的挑战和问题,研究员们将在他们的工作中解决。

例如,隐私在金融领域的含义与其他行业不同,并不是所有数据都可以在合作中共享。“在金融领域,投资者担心有人会掌握他们的观点、算法和想法,”他说尤品特他是哈佛大学计算机科学博士研究生交互计算学院佐治亚理工学院.“当你投资时,你不想让人们知道你在看什么。”

市场变化很快,数据需要以同样的速度变化,同时保持较高的准确性。其他行业关注速度和准确性,但程度不及金融业。“我们通常不会像彭博那样大规模地谈论效率,”他表示Tianze史他是哈佛大学的博士生康奈尔大学计算机科学系.“我们关心的是算法是否能在一秒钟内完成,但我没想到它能以这样的速度运行。此外,你必须同时保持准确性,这是一个巨大的挑战。”

在来自世界各地大学博士生的约60份申请中,彭博社数据科学家组成的一个委员会选出了以下5名2018-2019学年研究员:

美国约翰霍普金斯大学彭博社博士梅宏远与导师Jason Eisner(摄影:Lori Hoffman/Bloomberg)

宏源梅约翰霍普金斯大学()
用神经霍克斯过程建模市场事件
收益报告、新闻文章和股票走势等市场事件可以相互影响。对它们之间复杂的依赖关系建模,可以帮助我们概率地预测未来事件,并归因缺失的事件。神经霍克斯过程是一种新的机器学习模型,擅长捕捉这种依赖关系。它可以扩大到模拟真实世界的竞技场,在这个竞技场中,多个领域的不同玩家根据这些玩家的角色和他们对之前事件的不完全了解,随机生成许多具有详细属性的事件。

尤瓦尔·品特(摄影:洛里·霍夫曼/彭博社)

尤品特(佐治亚理工学院)
集成语言的分布式、组合和关系表示
从计算的角度理解单词意味着用数学来表示它们。品特结合了三种不同的方法来获得这些表征,并基于不同的语言见解来理解哪些词语。首先是确定哪些词是在同一上下文中使用的。例如,“dog”这个词经常和“bark”、“doghouse”和“bone”连用。第二种方法将一个词看作它各部分的总和。将单词分解成它们的字符和更细的颗粒就可以创建子单词组件,这些子单词组件可以被加到一个表示中,就像单词“doghouse”是由单词“dog”和“house”组成的。第三种方法利用了以显性知识为特征的语义网络。语言学家可能会说,狗是动物,可以用类似于其他动物的方式来表示“狗”这个词。“狗屋”是一种结构。然后可以使用字典对这些词进行比较,利用单词与其他单词之间的联系。

Bloomberg博士研究员Shruti Rijhwani(摄影师:Lori Hoffman/Bloomberg)

舒如提Rijhwani(卡内基梅隆大学)
实体发现和链接的无监督转移
这个标准的自然语言处理任务将单词放入百科全书一样的结构中,以帮助理解文档,而无需人类阅读它们。低资源语言指的是那些少数人使用的语言,这些语言可能无法使用社交媒体,或者几乎没有可用的数据来理解它们。实体链接能够自动处理这些语言中的文档。这些方法可以用于任何语言,包括西班牙语和汉语,但这项研究的重点是奥罗莫语和Tigrinya语,这是埃塞俄比亚的语言;僧伽罗语,斯里兰卡的语言;以及卢旺达的基尼亚旺达语。由于缺乏可用的培训数据,来自高资源语言的信息被用来为这些低资源语言开发NLP工具。

彭博社史天泽博士(摄影师:Lori Hoffman/Bloomberg)

Tianze史(康奈尔大学)
简单、高效、准确的多语言解析
句法分析是理解自然语言文本的第一步,分析句子结构。例如,对于句子“I like to swim”,知道“I”是动词“like”和“swim”的主语,可以帮助算法理解人们在自然语言文本中谈论的内容。本研究旨在设计简单、健壮、快速的算法,用于跨语言提取这些语法结构。它有助于提供对文件或其他文本的更深入的理解,并可以对下游任务产生重大影响。

彭博社王华正院士和他的导师王洪宁教授(摄影师:Lori Hoffman/Bloomberg)

Huazheng王(弗吉尼亚大学)
具有可证明保证的协作在线推荐
老虎机的不同臂会给玩家不同的奖励。这个多臂强盗问题的目标是在玩游戏时学习哪只手最赚钱,并将其应用到新闻报道中,了解一个人的偏好,以帮助完善推荐给整个读者群体的故事。在线推荐系统从行为反馈中学习来评估一个人的偏好,而协同推荐系统从一个人的网络中的人际互动中学习,并提供实时反馈,这样系统就可以在不损害他人隐私的情况下与他人进行循环学习。当两个人在一个网络中联系在一起时,如果其中一个人经常参与某个特定的话题,那么用户合作的可能性就很大,而另一个人则对同一话题感兴趣。这种学习算法利用不同用户和他们的兴趣之间的联系,以更快地识别用户的兴趣。虽然系统可能会在一开始向某人提供随机推荐,但系统会不断地通过人际互动学习和完善自己,随着时间的推移,根据群体的偏好提供更个性化的推荐。

“我们收到了许多优秀的申请,看到了许多有价值的候选人,我们花了很长时间把范围缩小到5名研究员,”Chin说。“我们希望在未来发展这个项目,因为这是对这些年轻学生和他们的工作的重要投资,除了更广泛的数据科学社区。”