人工智能在彭博社

自然语言处理和机器学习等人工智能学科在彭博终端中发挥着核心作用。

在公司的整个生命历程中,彭博一直依赖文本作为我们客户的关键基础数据来源。在过去十年中,我们增加了在统计方面的投资自然语言处理(NLP)技术扩展我们的能力。我们的工程团队已经为核心文档理解、推荐和面向客户的系统构建了最先进的NLP技术。

我们NLP项目的核心是从文档中提取结构化信息的技术,有时也被称为数字化或标准化。这个程序的核心是一个专有的、健壮的实时NLP库,它执行低级的文本解析任务,例如标记化、分块和解析.在这个核心工具集之上,我们构建了命名实体提取器它以自然文本的形式检测人、公司、股票行情和组织,并部署在我们的新闻和社会文本数据库中。这些命名实体提取器对于启用我们的情绪分析(BSV和TREN)衍生的指标,用于估计一条消息对某家公司的积极程度。除此之外,我们主题分类引擎(例如,NI OIL)自动用规范化主题标记文档,以使检索和监视更加直观。在法律领域,我们建立了一个法律原则引擎这使律师能够发现支持某一特定决定的基本判例法论证。

除了这些核心功能,我们还建立了复杂的事实提取器(或关系提取器),它从文档中挑选出特定的信息,以缓解我们的消化流程。我们还构建了一套用于结构化数据的工具。其中一个是表检测与分割工具,使我们的分析师能够增加他们的吸收数据的范围。此外,我们还建立了研究系统图的理解从散点图中提取基础数据。我们还为我们的记者创建了工具,让他们可以进行创作自助主题流查找他们负责报道的公司或行业的新闻。

所有这些核心NLP工具都严格地局限于文本领域,但我们也构建了将文本与其他工件(人或股票报价器)连接起来的重要功能。我们的市场动态新闻指标(MMN)自动检测至关重要的新闻标题并标记它们。我们有强大的部署功能相关的故事当人们阅读故事时,它会向他们强调额外的相关信息。

最后,我们在简化客户端交互的工具上投入了大量资金。我们的搜索系统(HL)非常复杂,具有最先进的排名和查询理解。此外,我们已经建立了一个自然语言查询界面(例如,“IBM的市值是多少<搜索>”),人们可以用简明的英语提出问题,并得到准确的答案。这个搜索功能部署在许多文档集合中,但是我们的新闻搜索与排名(NSE)尤其受到显著关注。对于我们的内部帮助系统,我们有自动路由系统,将传入的查询直接交给适当的内部专家。我们还建立了自动回复功能可以检测并回答频繁出现的客户询问。

从人员配备的角度来看,我们有多个自然语言处理和机器学习专家,包括前教授和从最好的项目毕业的毕业生。在我们构建团队的同时,我们也在构建支持他们的基础设施,比如创建一个大型GPU集群,以加速深度学习/神经网络模型,这些模型日益成为我们部署技术的很大一部分。每年,我们都会在顶级学术会议上发表论文——最近,我们的团队在ACL、SIGIR、ICML和ECML-PKDD等学术会议上发表论文。在过去的十年里,我们的NLP和ML团队已经成长为一股强大的力量,我们预计在未来的十年里,他们将进一步发展。

选择最近的论文

Bloomberg通过参加ML, NLP和IR的会议并发表演讲,以及分发彭博数据科学研究基金,举办彭博数据科学博士研究员(2018年新入职),担任会议委员。以下是我们最近在同行评议会议或期刊上发表的一些论文:

2021

kōan:更正的CBOW实施Ozanİrsoy艾德里安·本顿和卡尔Stratos。出来了。(代码存储库

主题- - - - - -信息在上下文:金融对话和新闻流吉迪恩曼.2021年AAAI年度金融服务非结构化数据知识发现研讨会(视频

基于双增强的图像去渲染规范生成.Ramakanth Pasunuru,大卫·罗森博格吉迪恩曼Mohit邦萨尔.2021年AAAI科学文件理解研讨会。(视频

在新闻故事中语境化趋势实体马可Ponza迭戈切保罗Ferragina,埃德加MeijSambhav Kothari.WSDM 2021。

识别被类型化的命名实体Ravneet AroraChen-Tse蔡丹尼尔Preoţiuc-Pietro.EACL 2021。

SERAG:阿拉伯语知识图的语义实体检索sah Esmeir.第六届阿拉伯语自然语言处理研讨会(WANLP 2021)将于2021年举行。

使用关键字和表查询的语义表检索说张, Krisztian Balog。网上交易(TWEB), 2021年5月。

用语境预测学术文章中句子的被引价值拉克什GosangiRavneet AroraMohsen GheisariehaDebanjan Mahata张海敏(Raymond)。NAACL-HLT 2021。

用于依赖解析的多样性感知批主动学习Tianze史艾德里安·本顿Igor MalioutovOzanİrsoy.NAACL-HLT 2021。

从自然出现的括号学习语法Tianze史OzanİrsoyIgor Malioutov莉莲李。NAACL-HLT 2021。

ERNIE-NLI:分析领域特定的外部知识对NLI增强表示的影响丽莎鲍尔Lingjia邓Mohit邦萨尔.Deep Learning Inside Out (DeeLIO):在2021年NAACL-HLT上举行的第二届深度学习架构知识提取与集成研讨会。

以事件为中心的叙事创作的上下文新闻文章检索.Nikos Voskarides, Sabrina Sauer, Maarten de Rijke,埃德加Meij.ICTIR 2021(同时位于SIGIR 2021)。

面向任务的对话系统评价中的用户满意度模拟.胖子太阳*,说张*、Krisztian Balog, Ren Zhaochun, Pengjie Ren, Zhumin Chen, Maarten de Rijke。市立2021。(*平等的贡献)

WTR:用于Web表检索的测试集合.陈知宇,说张布莱恩·d·戴维森(Brian D. Davison)。市立2021。

基于机器学习的企业温室气体排放估算你的汉Achintya Gopal梨纹欧阳亚伦的关键。在ICML 2021年的机器学习研讨会上应对气候变化。

一种实用的两步辅助企业问答实时聊天的方法Ling-Yen廖Tarec票价.SIGDIAL 2021。

TAT-QA:一种基于表格和文本混合内容的金融领域问答基准.朱凤斌,雷文强,黄友成,王超,说张吕建成,冯富力,蔡大成。ACL-IJCNLP 2021。

用于结构化预测的通用oracleChristoph摄影师Antoine Venant,第17届国际解析技术会议(IWPT 2021);共同位于2021年ACL-IJCNLP。

用dag结构的lstm进行在线聊天Duccio Pappadopulo丽莎鲍尔马可·法里OzanİrsoyMohit邦萨尔.第十届词汇和计算语义联合会议(*SEM 2021);共同位于2021年ACL-IJCNLP。

主题- - - - - -实践中的知识图埃德加Meij.CIKM 2021。

新闻标题不一致性的枢机POS模式引导注意.拉胡尔Mishra和说张.CIKM 2021。

用增强智能发现供应链链接Achintya Gopal和Chunho常。ICAIF’21金融应用中的NL和网络分析讲习班。

基于交叉配位投影的标题词性标注艾德里安·本顿汉阳李Igor Malioutov.EMNLP 2021。

面向现实的少镜头关系提取山姆·布罗迪Sichao吴艾德里安·本顿.EMNLP 2021。

基于多任务半监督学习的类别不平衡语篇分类亚历山大Spangher, Sz-rung Shiang,Lingjia邓约拿单。EMNLP 2021。

GupShup:总结开放域代码转换对话.Laiba Mehnaz, Debanjan Mahata,拉克什Gosangi、乌玛·苏什米塔·贡图里、里亚·贾恩、高里·古普塔、阿玛迪普·库马尔、伊莎贝尔·g·李、阿尼什·阿查里亚和拉吉夫·拉坦·沙阿。EMNLP 2021。

基于回合损失函数和序列数据增强的对话状态跟踪改进.Jarana Manotumruksa,埃德加Meij夫人艾米奈Yilmaz杰夫·道尔顿.发表在ACL发现:EMNLP 2021;在与EMNLP 2021共同举办的对话人工智能NLP研讨会(NLP4ConvAI)上发表。

FANATIC:快速噪声感知主题聚类Ari Silburt安雅Subasic埃文·汤普森Carmeline DsilvaTarec票价.发表在ACL发现:EMNLP 2021

词网名词hypernym图上的欧氏嵌入和双曲嵌入比较Sameer邦萨尔艾德里安·本顿.NLP负面结果的启示研讨会(与EMNLP 2021年同场)。

修正的CBOW表现以及跳跃图Ozanİrsoy艾德里安·本顿以及卡尔·斯特拉托斯(Karl Stratos)。NLP负面结果的启示研讨会(与EMNLP 2021年同场)。

邀请演讲-时间漂移和低资源信息提取。Thamar Solario.第七届嘈杂用户生成文本研讨会(W-NUT);与EMNLP 2021共同位于。

存在分布和缺失移位时泛化的最大平均偏差。梨纹欧阳亚伦的关键。将在NeurIPS 2021年分配轮班:连接方法和应用(DistShift)研讨会上发表。

2020

使用gan生成科学文章的关键词.Avinash Swaminathan, Raj Kuwar Gupta,Haimin (Raymond)Debanjan Mahata拉克什Gosangi, Rajiv Ratn Shah。AAAI 2020。

利用gan实现视觉语音识别新类的零射击学习.Yaman Kumar, Dhruva Sahrawat, Shubham Maheshwari,Debanjan Mahata阿曼达支架Rajiv Ratn Shah和罗杰·齐默尔曼(Roger Zimmermann)。AAAI 2020。

一种识别社交媒体平台中基于抱怨的推文的迭代方法.Gyanesh Anand, Akash Gautam, Puneet Mathur,Debanjan MahataRajiv Ratn Shah和Ramit Sawhney。AAAI 2020。

关键词提取作为序列标注使用上下文嵌入.Dhruva Sahrawat,Debanjan MahataHaimin (Raymond)玛雅KulkarniAgniv Sharma,拉克什Gosangi阿曼达支架拉吉夫·拉坦·沙阿(Rajiv Ratn Shah)和罗杰·齐默尔曼(Roger Zimmermann)。ECIR 2020。(观看会议演示

确定值得注意的新闻故事安东尼娅Saravanou埃德加Meij和乔治•Stefanoni。ECIR 2020。(观看会议演示

从Web表中发现新的实体说张埃德加MeijRidho Reinanda和Krisztian Balog。2020年万维网。

自动知识图构建中的偏差:研讨会(KG-BIAS 2020)埃德加Meij、Tara Safavi、Chenyan Xiong、Gianluca Demartini、Miriam Redi和Fatma Ozcan。AKBC 2020。

基于体裁感知和不可知论推理的多领域命名实体识别王静玛雅Kulkarni丹尼尔Preoţiuc-Pietro.2020年ACL。

命名实体识别的时间信息分析舒如提Rijhwani丹尼尔Preoţiuc-Pietro.2020年ACL。

摘要循环:学习写没有例子的摘要菲利普拉班安德鲁溪约翰·坎尼,还有马蒂赫斯特.2020年ACL。

分析社交媒体中的政治恶搞.Antonis Maronikolakis, Danae Sanchez-Villegas,丹尼尔Preoţiuc-Pietro和Nikolaos Aletras。2020年ACL。

NSTM:彭博实时查询驱动的新闻概述(系统演示)约书亚BambrickMinjie徐Guim PerarnauIgor Malioutov安迪Almonte维托你Iat Chong Chan。2020年ACL。

社交媒体领域特定投诉检测的半监督迭代方法.阿卡什Gautam,Debanjan Mahata拉克什Gosangi和Rajiv Ratn Shah。第三届电子商务与NLP研讨会(ECNLP 3)将于2020年在acl2020举行。

通过时间的神经数据记录:通过逻辑规范的知情时间建模宏源梅广绘秦,Minjie徐杰森·艾斯纳.ICML 2020。

基于三重神经结构的交叉bert实体属性排序.Jarana Manotumruksa,杰夫·道尔顿埃德加Meij夫人艾米奈Yilmaz.市立2020。

国际知识图研讨会:挖掘知识图以加深洞察.丁颖,Benjamin Glicksberg, Jim Hendler,埃德加Meij, Francois Scharffe, Jie Tang, Fei Wang, KDD 2020。

合作盗匪的全球和地方差异隐私Huazheng王赵钱吴清运,Shubham乔普拉阿比和Hongning王。RecSys 2020。

级联混合土匪:在线学习为相关性和多样性排名李常Haoyun冯Maarten de Rijke.RecSys 2020。

第一次Wikidata工作坊Lucie-Aimee咖啡Oana Tifrea-Marciuska, Elena Simperl和Denny Vrandečić。ISWC 2020。

基于可信链路预测的知识图嵌入的标定评价塔拉影响埃德加Meij和Danai Koutra。EMNLP 2020。

语义角色标记作为语法依赖解析Tianze史Igor MalioutovOzanİrsoy.EMNLP 2020。

关键词生成gan算法的初步探索.Avinash Swaminathan,Haimin (Raymond)Debanjan Mahata拉克什Gosangi, Rajiv Ratn Shah和阿曼达支架.EMNLP 2020。

不确定性之上的不确定性:调查经济政策不确定性的假设、注释和文本测量凯瑟琳。基思Christoph摄影师,布兰登·奥康纳和埃德加Meij.EMNLP 2020 NLP+CSS 2020研讨会。

低资源设置使用重铸数据的两步分类.Shagun Uppal, Vivek Gupta, Avinash Swaminathan,Debanjan Mahata拉克什GosangiHaimin (Raymond), Rajiv Ratn Shah,阿曼达支架.AACL 2020。

基于社交媒体文本的兴趣点类型推断.达娜厄桑切斯Villegas,丹尼尔Preoţiuc-Pietro和Nikolaos Aletras。AACL 2020。

邀请谈话:会话建模的计算语言学阿曼达支架.科尔2020年。

事实与观点:论辩特征在新闻分类中的作用.Tariq Alhindi, Smaranda Muresan,丹尼尔Preoţiuc-Pietro.科尔2020年。

2019

使用AutoSAS获得IT评分-一个自动评分系统简短回答.Yaman Kumar, Swati Aggarwal,Debanjan Mahata、拉吉夫·沙阿(Rajiv Shah)、庞努朗甘·库马拉古鲁(Ponnurangam Kumaraguru)和罗杰·齐默尔曼(Roger Zimmermann)。eaai - 2019。

预测和分析社交媒体帖子中的语言特异性.高一凡,钟扬,丹尼尔Preoţiuc-Pietro, Junyi Jessy Li。aaai - 2019。

横截面股票收益预测和端到端多模态市场表示学习的视觉注意模型.赵然,邓云天,马克Dredze阿伦时大卫·罗森博格阿曼达支架.2019年喇叭裤。

程序控制流程建模改进灰盒模糊哈斯Karamcheti吉迪恩曼大卫·罗森博格.ML4SE 2019。

SemEval-2019任务6:识别Twitter上的攻击性帖子和有针对性的攻击Haimin (Raymond)Debanjan Mahata、Simra Shahid、Laiba Mehnaz、Sarthak Anand、Yaman Singla、Rajiv Ratn Shah和卡兰Uppal.2019年NAACL-HLT国际语义评估研讨会。

任务9:使用ULMFiT从在线评论中挖掘建议.Sarthak Anand,Debanjan Mahata, Kartik Aggarwal, Laiba Mehnaz, Simra Shahid,Haimin (Raymond)、亚曼·辛格拉、拉吉夫·拉坦·沙阿、卡兰Uppal.2019年NAACL-HLT国际语义评估研讨会。

SNAP-BATNET:用于社交媒体上自杀意念检测的级联作者剖析和社交网络图.Rohan Mishra, Pradyumn Prakhar Sinha, Ramit Sawhney,Debanjan Mahata马图尔(Puneet Mathur)和拉吉夫·拉坦·沙阿(Rajiv Ratn Shah)。2019年NAACL学生研究研讨会(SRW)

大声说出来,反击!检测社交媒体披露的性骚扰.阿里吉特·高希·乔杜里,拉米特·索尼,普尼特·马瑟,Debanjan Mahata和Rajiv Ratn Shah。2019年NAACL学生研究研讨会(SRW)

解读歌词的风格与偏向.Manash Pratim Barman, Amit Awekar,还有Sambhav Kothari.市立2019。

DAG-LSTMs群聊中的对话行为分类Ozanİrsoy拉克什GosangiHaimin (Raymond)Mu-Hsin魏彼得·隆德Duccio Pappadopulo布伦丹FahyNeophytos Nephytou,卡米洛·奥尔蒂斯.2019年SIGIR首届对话交互系统(WCIS)研讨会。

通过盈余电话会议的语用学和语义为财务分析师的决策建模凯瑟琳。基思阿曼达支架.2019年ACL。

用于标签分割的多任务两两神经排序Mounica Maddela,魏旭,和丹尼尔Preoţiuc-Pietro.2019年ACL。

推特帖子的文字与图像关系的分类与推断Alakananda Vempala丹尼尔Preoţiuc-Pietro.2019年ACL。

分析所有者和员工归因于推文的语言差异丹尼尔Preoţiuc-Pietro丽塔Devlin玛丽.2019年ACL。

在社交媒体中自动识别抱怨丹尼尔Preoţiuc-PietroMihaela Găman和Nikolaos Aletras。2019年ACL。

高精度命名实体识别的半马尔可夫结构支持向量机模型Ravneet Arora,蔡振慈,凯特万,安居坎巴杜尔,和易阳。2019年ACL。

用于实时神经语义分析的语法序列预测Chunyang肖Christoph摄影师,Konstantine Arkoudas.深度学习与正式语言:搭建桥梁研讨会@ ACL 2019。

Hush-Hush Speak:使用无声视频重建语音.Shashwat Uttam, Yaman Kumar, Dhruva Sahrawat, Mansi Aggarwal, Rajiv Ratn Shah,Debanjan Mahata阿曼达支架.INTERSPEECH 2019。

MobiVSR:用于移动设备视觉语音识别的高效轻量级神经网络.Nilay Shrivastava, Astitwa Saxena, Yaman Kumar, Rajiv Ratn Shah阿曼达支架Debanjan Mahata普雷蒂·考尔(Preeti Kaur)、罗杰·齐默尔曼(Roger Zimmermann)。INTERSPEECH 2019。

端到端神经科学文献OCR的挑战.邓云天,大卫·罗森博格,吉迪恩曼.ICDAR 2019。

语义驱动的自动完成Konstantine Arkoudas穆罕默德Yahya.CKIM 2019。

通过影响函数理解目标导向的主动学习Minjie徐加里到访.机器学习与保证研讨会@ NeurIPS 2019。

2018

学习更好的跨语言维基化名称翻译Chen-Tse蔡和丹·罗斯。AAAI-18。

使用图摘要估计RDF数据的合取查询的基数乔治•Stefanoni、鲍里斯·莫提克(Boris Motik)、埃戈尔·v·克斯特莱夫(Egor V. Kostylev)。2018年万维网。

基于知识库的开放领域问题回答的永无止境的学习.Abdalghani Abujabal, Rishiraj Saha Roy,穆罕默德Yahya,格哈德•威库姆。2018年万维网。

任务1:基于深度学习的愤怒强度检测Venkatesh Elango和Karan Uppal.SemEval-2018 (NAACL-HLT 2018)。

Key2Vec:使用短语嵌入从科学文章中自动排名关键词提取Debanjan Mahata约翰·库里亚科塞(John Kuriakose)、拉吉夫·拉坦·沙阿(Rajiv Ratn Shah)、罗杰·齐默曼(Roger Zimmermann)。NAACL-HLT 2018。

基于结构化梯度树增强的集体实体消歧Yi Yang, Ozan İrsoy, Shefaet Rahman.NAACL-HLT 2018。

知识图事实的弱监督上下文化.Nikos Voskarides,埃德加·梅杰,里多·雷纳达,阿比纳夫·海坦,迈尔斯·奥斯本,乔治·斯特凡诺尼,安朱·坎巴杜尔和Maarten de Rijke。市立2018。

企业童工政策的采用趋势:彭博终端ESG数据分析Vedran Sekara, Alex Rutherford,吉迪恩曼马克·德雷兹、娜塔莉亚·阿德勒、曼纽尔·加西亚-赫兰兹。优质数据交换2018.

汤普森抽样的自适应灰盒模糊测试Siddharth karamchetti, Gideon Mann和David Rosenberg.AISec 2018。

预测良好的Twitter对话Zach Wood-Doughty, Anju Kambadur吉迪恩曼.W-NUT 2018 (EMNLP 2018)。

用户级聚合对基于词汇的人口级预测的显著好处.萨尔瓦多Giorgi,丹尼尔Preoţiuc-Pietro、Anneke Buffone、Daniel Rieman、Lyle Ungar和H. Andrew Schwartz。EMNLP 2018

作为类型兼容接地的零拍开放实体类型Ben Zhou, Daniel Khashabi,Chen-Tse蔡和丹·罗斯。EMNLP 2018。

为什么发誓?浅析粗俗表达的意图.埃里克·霍尔盖特,伊莎贝尔·卡索拉,丹尼尔Preoţiuc-PietroJunyi Jessy Li。EMNLP 2018。

通过建模程序行为改进灰盒模糊Siddharth karamchetti, Gideon Mann和David Rosenberg.出来了。

2017

生成实体关系的描述.Nikos Voskarides,埃德加Meij和Maarten de Rijke。ECIR 2017。

基于知识图的自动问答模板生成.Abdalghani Abujabal,穆罕默德Yahya, Mirek Riedewald和Gerhard Weikum。2017年万维网。

自适应子模块排名安寿KambadurFatemeh Navidi和Viswanath Nagarajan。IPCO 2017。

超越二元标签:Twitter用户的政治意识形态预测丹尼尔Preoţiuc-Pietro丹尼尔·霍普金斯(Daniel Hopkins)和莱尔·昂格(Lyle Ungar)。ACL 2017

行列式点过程的快速贪婪MAP推理安寿Kambadur韩寅洙,朴庆洙,申振宇。ICML 2017。

近似对称正定矩阵对数行列式的随机算法.Christos boutside, Petros Drineas,安寿Kambadur、尤金妮亚-玛丽亚·孔托普卢(Eugenia-Maria Kontopoulou)和阿纳斯塔西奥斯·佐齐亚斯(Anastasios Zouzias)。ICML 2017

基于特征级神经网络和自由噪声监督的信息抽取系统菲利普Meerkamp和正意。结构化预测研讨会(EMNLP 2017)。

跨语言命名实体识别的廉价翻译.斯蒂芬•梅休Chen-Tse蔡和丹·罗斯。EMNLP 2017。

控制人类对基本用户特征的感知丹尼尔Preoţiuc-Pietro, Sharath Chandra Guntuku和Lyle Ungar。EMNLP 2017。

散点:自动从散点图中提取数据Mathieu Cliche, David Rosenberg, Dhruv Madeka和康妮绮.ECML PKDD 2017。

民事财产没收:一个司法视角Leslie Barrett, Alexandra Ortan, Ryon Smey, Michael W. Sherman, Zefu Lu, Wayne Krug, Roberto Martin, Anu Pradhan, Trent Wenzel亚历山大·谢尔曼卡琳·d·马丁.Data for Good Exchange 2017。

知识图中的知识问题.多米尼克Seyler,穆罕默德Yahya和克劳斯Berberich。ICTIR 2017。

基于摄像头的移动和可穿戴设备双因素认证Mozhgan AzimpourkiviUmut TopkaraBogdan Carbunar。主要2017。

Baidu