人工智能在彭博社

自然语言处理和机器学习等人工智能学科在彭博终端中发挥着核心作用。

在公司的整个生命历程中,彭博一直依赖文本作为我们客户的关键基础数据来源。在过去十年中,我们增加了在统计方面的投资自然语言处理(NLP)扩展我们能力的技术。我们的工程团队为核心文档理解、推荐和面向客户的系统构建了最先进的NLP技术。

我们NLP计划的核心是从文档中提取结构化信息的技术——有时称为数字化或标准化。该程序的核心是一个专有的、健壮的实时NLP库,它执行低级别的文本解析任务,例如标记化、组块和解析.在这个核心工具集的基础上,我们构建了命名实体提取器它可以检测自然文本中的人、公司、股票行情者和组织,这些文本部署在我们的新闻和社交文本数据库中。这些命名实体提取器对于实现情绪分析(BSV和TREN)衍生的指标,用于估计一条消息对某家公司的积极程度。除此之外,我们主题分类引擎(例如,NI OIL)自动为文档添加规范化主题的标签,以便直接进行检索和监控。在法律领域,我们建立了法律原则引擎这使律师能够揭示支持特定判决的基本判例法论证。

除了这些核心功能,我们还建立了复杂的事实提取器(或关系提取器),从文件中挑选出特定信息,以便缓解我们的摄取流程。我们还为结构数据建造了大量工具。其中一块是表格检测与分割使我们的分析员能够扩大其摄取数据范围的工具。此外,我们还为图形理解从散点图中提取基础数据。我们还为我们的记者创建了工具,让他们可以进行创作自助主题流查找他们负责报道的公司或行业的新闻。

所有这些核心NLP工具都严格属于文本领域,但我们也构建了重要的功能,将文本连接到其他工件——人或股票行情器。我们的市场动态新闻指标(mmn )自动检测至关重要的新闻标题,并标记为它们。我们有一个强大的部署功能相关的故事这突出了人们在阅读故事时的其他相关信息。

最后,我们在简化客户端交互的工具上投入了大量资金。我们的搜索系统(HL)非常复杂,具有最先进的排名和查询理解能力。此外,我们还构建了自然语言查询界面(例如,'什么是IBM的市场上限')人们可以以简单的英语提出问题并获得精确的答案。此搜索功能部署在许多文档集合中,但我们的新闻搜索与排名(nse )特别注意。对于我们的内部帮助系统,我们拥有自动路由系统,可直接输入查询适当的内部专家。我们也建成了自动应答功能这可以检测并回答经常发生的客户查询。

从人员配置的角度来看,我们拥有多名自然语言处理和机器学习专家,包括前教授和来自最佳课程的毕业生。在我们建设团队的同时,我们也在建设支持团队的基础设施,例如创建一个大型GPU集群,以加速深度学习/神经网络模型,该模型在我们部署的技术中越来越占很大一部分。每年,我们都会在顶级学术会议上发表论文——最近,我们的团队已经在ACL、SIGIR、ICML和ECML-PKDD等网站上发表论文。在过去的十年中,我们的NLP和ML团队已经成长为一支强大的力量,我们预计在未来的十年中,他们将进一步发展。

选择最近的论文

彭博社尽可能通过参加ML、NLP和IR会议并在会议上发言,分发彭博数据科学研究基金,举办彭博数据科学博士研究员(2018年新入职),担任会议委员。以下是我们最近在同行评议会议或期刊上发表的一些论文:

2021

Kōan:纠正的CBOW实施Ozanİrsoy艾德里安·本顿和卡尔Stratos。出来了。(代码存储库)

主题- - - - - -信息在上下文:金融对话和新闻流.吉迪恩曼。2021年AAAI年度金融服务非结构化数据知识发现研讨会(视频)

基于双重增强的图像去渲染规范生成。拉马坎特·帕苏努鲁,大卫·罗森伯格吉迪恩曼Mohit Bansal.。AAAI 2021年科学文献理解研讨会(视频)

在新闻故事中语境化趋势实体马可庞萨迭戈·塞卡雷利,保罗·费拉吉纳,Edgar Meij.Sambhav Kothari. WSDM 2021。

在命名实体被键入时对其进行标识Ravneet Arora.陈子财丹尼尔Preoţiuc-Pietro.每一个2021年。

从阿拉伯语知识图中检索语义实体Saher Esmeir.. 第六届阿拉伯语自然语言处理研讨会(WANLP 2021)在EACL 2021举行。

语义表使用关键字和表查询检索张硕,克里斯蒂安·巴洛格。网上交易(TWEB),2021年5月。

用语境预测学术文章中句子的被引价值拉克什GosangiRavneet Arora.Mohsen Gheisarieha.debanjan mahata.张海民(雷蒙德)。NAACL-HLT 2021。

用于依赖解析的多样性感知批主动学习天泽石艾德里安·本顿Igor MalioutovOzanİrsoy.Naacl-HLT 2021。

从自然发生的包围的学习语法天泽石OzanİrsoyIgor Malioutov李丽莲,NAACL-HLT 2021。

ERNIE-NLI:分析特定领域外部知识对NLI增强表示的影响丽莎鲍尔Lingjia邓Mohit Bansal.. 由内而外的深度学习(DeeLIO):NAACL-HLT 2021年关于深度学习体系结构的知识提取和集成的第二次研讨会。

以事件为中心的叙事创作的上下文新闻文章检索.Nikos Voskarides, Sabrina Sauer, Maarten de Rijke,Edgar Meij..ICTIR 2021(共同位于Sigir 2021)。

面向任务的对话系统评价中的用户满意度模拟.胖子太阳*,张硕*、克里斯汀·巴洛格、任兆春、任鹏杰、陈朱敏和马尔滕·德·里杰克。SIGIR 2021。(*同等贡献)

WTR:用于Web表检索的测试集合.陈知宇,张硕布莱恩·戴维森,西格尔2021。

通过机器学习估算企业温室气体排放量游涵阿奇蒂亚戈帕尔刘文欧阳亚伦的关键。在ICML 2021年的机器学习研讨会上应对气候变化。

一种实用的两步辅助企业问答实时聊天的方法廖凌燕tarec票价. 信号2021。

TAT-QA:金融领域混合表格和文本内容的问答基准.奉斌朱,文强雷,友胜黄,陈王,张硕,,吕建成、冯富丽和蔡达生。ACL-IJCNLP 2021。

用于结构化预测的通用oracle克里斯托夫·泰奇曼Antoine Venant,第17届国际解析技术会议(IWPT 2021);共同位于2021年ACL-IJCNLP。

用DAG结构的LSTMS解开在线聊天Duccio pappadopulo.丽莎鲍尔马可·法里纳OzanİrsoyMohit Bansal.第十届词汇和计算语义学联合会议(*SEM 2021);共同举办于ACL-IJCNLP 2021。

彭山:红衣主教POS模式引导了新闻标题的注意力。Rahul Mishra和张硕.在CIKM 2021发表。

标题词性标注的跨语域投影。艾德里安·本顿汉阳李Igor Malioutov.在EMNLP 2021发布。

面向现实的少镜头关系提取。萨姆·布罗迪吴思超艾德里安·本顿.在EMNLP 2021发布。

基于多任务半监督学习的类别不平衡语篇分类。Alexander Spangher,施润祥,Lingjia邓约拿单。在EMNLP 2021发布。

GupShup:总结开放域代码交换对话。Laiba Mehnaz,Debanjan Mahata,拉克什Gosangi乌玛·苏什米塔·冈图里、里娅·詹、高丽·古普塔、阿玛迪普·库马尔、伊莎贝尔·李、安妮什·阿查里亚和拉吉夫·拉坦·沙阿。将在EMNLP 2021上发布。

基于回合损失函数和序列数据增强的对话状态跟踪改进。Jarana Manotumruksa,Edgar Meij.艾米娜·伊尔马兹杰夫道尔顿.发表于ACL的结果:EMNLP 2021

Fantac:快速噪声感知主题聚类。Ari Silburt.安雅Subasic埃文·汤普森卡梅琳·迪西尔瓦tarec票价.发表于ACL的结果:EMNLP 2021

纠正的CBOW表演以及跳板。Ozanİrsoy艾德里安·本顿和卡尔特拉蒂斯。在NLP中的负面结果的洞察中公布(与EMNLP 2021共同定位)。

比较WordNet名词超义图上的欧几里德嵌入和双曲嵌入。Sameer邦萨尔艾德里安·本顿.在NLP中的负面结果的洞察中公布(与EMNLP 2021共同定位)。

2020

使用gan生成科学文章的关键词阿维纳什·斯瓦米纳坦先生,Raj Kuwar Gupta,张海民(雷蒙德)debanjan mahata.拉克什Gosangi,Rajiv Ratn Shah。AAAI 2020。

在视觉语音识别中利用零​​射击学习的GANSYaman Kumar先生,Dhruva Sahrawat,Shubham Maheshwari,debanjan mahata.阿曼达支架,尹一芳,拉吉夫·拉顿·沙阿和罗杰·齐默尔曼。AAAI 2020。

识别社交媒体平台中基于投诉的推文的迭代方法.Gyanesh Anand, Akash Gautam, Puneet Mathur,debanjan mahata.Rajiv Ratn Shah和Ramit Sawhney。AAAI 2020。

基关节酶从学术文章中提取作为使用上下文嵌入的序列标记. 德鲁瓦-撒哈拉,debanjan mahata.张海民(雷蒙德)马扬克·库尔卡尼,Agniv Sharma,拉克什Gosangi阿曼达支架,亚曼·库马尔,拉吉夫·拉坦·沙阿和罗杰·齐默尔曼。ECIR 2020。(观看会议演示)

确定值得注意的新闻故事Antonia Saravanou.Edgar Meij.和乔治·斯特法诺尼,ECIR 2020(观看会议演示)

从Web表中发现新的实体张硕Edgar Meij.雷南达和克里兹蒂安大巴。WWW 2020。

自动知识图形建设中的偏见:车间(kg-bias 2020)Edgar Meij.、Tara Safavi、Chenyan Xiong、Gianluca Demartini、Miriam Redi和Fatma Ozcan。AKBC 2020。

基于体裁感知和不可知论推理的多领域命名实体识别王静马扬克·库尔卡尼丹尼尔Preoţiuc-Pietro.ACL 2020。

对命名实体识别的时间明智分析舒如提Rijhwani丹尼尔Preoţiuc-Pietro.ACL 2020。

摘要循环:学习编写抽象摘要,没有示例菲利普·拉班西宏发、约翰·坎尼和马蒂赫斯特.ACL 2020。

分析社交媒体中的政治恶搞Antonis Maronikolakis,Danae Sanchez Villegas,丹尼尔Preoţiuc-Pietro和nikolaos aletras。ACL 2020。

NSTM:彭博实时查询驱动的新闻概述(系统演示)约书亚Bambrick徐敏杰Guim Perarnau.Igor Malioutov安迪Almonte塞洛维托里奥酒店和陈振聪。ACL 2020。

社交媒体上域特定投诉检测的半监督迭代方法.阿卡什Gautam,debanjan mahata.拉克什Gosangi和Rajiv Ratn Shah。ACL 2020的电子商务和NLP(ECNLP 3)的第3研讨会。

通过时间的神经数据记录:通过逻辑规格说明的知情时间建模梅宏远广绘秦,徐敏杰杰森·艾斯纳.ICML 2020。

用于实体属性排序的三重态神经交叉结构.Jarana Manotumruksa,杰夫道尔顿Edgar Meij.艾米娜·伊尔马兹.SIGIR 2020。

知识图国际研讨会:挖掘知识图以获得深刻见解丁颖,本杰明·格利克斯伯格,吉姆·亨德勒,Edgar Meij.,Francois Scharffe,汤洁和王菲,KDD 2020。

合作盗匪的全球和地方差异隐私Huazheng王钱赵,吴青云,舒巴姆乔普拉阿比纳夫·海坦王洪宁,RecSys 2020。

级联混合土匪:在线学习为相关性和多样性排名常力Haoyun冯马尔滕·德里克.Recsys 2020。

第一个Wikidata研讨会Lucie-Aimee咖啡瓦纳提弗拉马丘斯卡酒店,Elena Simperl和Denny Vrandečić。ISWC 2020。

基于可信链路预测的知识图嵌入的标定评价塔拉·萨法维Edgar Meij.和达奈·库特拉。EMNLP 2020。

语义角色标注作为句法依赖分析天泽石Igor MalioutovOzanİrsoy.EMNLP 2020。

关键词生成gan算法的初步探索阿维纳什·斯瓦米纳坦先生,张海民(雷蒙德)debanjan mahata.拉克什Gosangi, Rajiv Ratn Shah和阿曼达支架.EMNLP 2020。

不确定性之上的不确定性:调查经济政策不确定性的假设、注释和文本测量凯瑟琳基思克里斯托夫·泰奇曼,布兰登·奥康纳和Edgar Meij..EMNLP 2020 NLP+CSS 2020研讨会。

低资源设置使用重铸数据的两步分类.Shagun Uppal, Vivek Gupta, Avinash Swaminathan,debanjan mahata.拉克什Gosangi张海民(雷蒙德), Rajiv Ratn Shah,阿曼达支架.AACL 2020。

社交媒体文本的兴趣点类型推断Danae Sánchez Villegas先生,丹尼尔Preoţiuc-Pietro和nikolaos aletras。AACL 2020。

邀请谈话:会话建模的计算语言学阿曼达支架科林先生,2020年。

事实与观点:论辩特征在新闻分类中的作用.Tariq Alhindi, Smaranda Muresan,丹尼尔Preoţiuc-Pietro科林先生,2020年。

2019

使用AutoSAS(一种自动评分简短答案的系统)评分. 亚曼·库马尔,斯瓦蒂·阿加瓦尔,debanjan mahata.、拉吉夫·沙阿(Rajiv Shah)、庞努朗甘·库马拉古鲁(Ponnurangam Kumaraguru)和罗杰·齐默尔曼(Roger Zimmermann)。eaai - 2019。

预测和分析社交媒体帖子中的语言特异性.依凡高,杨忠,丹尼尔Preoţiuc-Pietro, Junyi Jessy Li。aaai - 2019。

横截面股票收益预测和端到端多模态市场表示学习的视觉注意模型.冉赵,yuntian deng,马克德雷泽阿伦·维尔马大卫·罗森伯格阿曼达支架.2019年喇叭裤。

程序控制流程建模改进灰盒模糊希德哈特·卡拉姆切蒂吉迪恩曼大卫·罗森伯格. ML4SE 2019。

SemEval-2019任务6:识别Twitter上的攻击性帖子和有针对性的攻击张海民(雷蒙德)debanjan mahata.,Simra Shahid,Laiba Mehnaz,Sarthak Anand,Yaman Singla,Rajiv Ratn Shah,卡兰Uppal.2019年NAACL-HLT语义评估国际研讨会。

任务9:使用ULMFiT从在线评论中挖掘建议.Sarthak Anand,debanjan mahata.卡提克·阿加瓦尔、莱巴·梅纳兹、西姆拉·沙希德、,张海民(雷蒙德),亚曼·辛格拉,拉吉夫·拉坦·沙阿,卡兰Uppal.2019年NAACL-HLT语义评估国际研讨会。

SNAP-BATNET:用于在社交媒体上检测自杀意念的级联作者档案和社交网络图. Rohan Mishra,Pradyumn Prakhar Sinha,Ramit Sawhney,debanjan mahata.,Puneet Mathur和Rajiv Ratn Shah。2019年NAACL学生研究研讨会(SRW)

大声说出来,反击!检测社交媒体披露的性骚扰.阿里吉特·高希·乔杜里,拉米特·索尼,普尼特·马瑟,debanjan mahata.和Rajiv Ratn Shah。2019年NAACL学生研究研讨会(SRW)

解读歌词的风格与偏向.Manash Pratim Barman,Amit Awekar,和Sambhav Kothari.SIGIR 2019。

与DAG-LSTMS组合的对话法案分类Ozanİrsoy拉克什Gosangi张海民(雷蒙德)Mu-Hsin Wei彼得伦Duccio pappadopulo.布伦丹·法希尼菲图新植物,及卡米洛·奥尔蒂斯.2019年Sigir上的2019年会话交互系统(WCI)的第一研讨会。

通过盈利语言和语义来建模金融分析师的决策凯瑟琳基思阿曼达支架. ACL 2019。

用于Hashtag分割的多任务成对神经排序Mounica Maddela魏旭和丹尼尔Preoţiuc-Pietro. ACL 2019。

推特帖子的文字与图像关系的分类与推断Alakananda Vempala丹尼尔Preoţiuc-Pietro. ACL 2019。

分析所有者和员工推特的语言差异丹尼尔Preoţiuc-Pietro丽塔·德夫林·玛丽. ACL 2019。

自动识别社交媒体中的投诉丹尼尔Preoţiuc-PietroMihaela Găman和Nikolaos Aletras。ACL 2019。

高精度命名实体识别的半马尔可夫结构支持向量机模型Ravneet Arora,蔡振慈,凯特万,安居坎巴杜尔,和易阳。2019年ACL。

实时神经语义分析中的语法序列预测肖春阳克里斯托夫·泰奇曼,及Konstantine Arkoudas.深度学习与正式语言:搭建桥梁研讨会@ ACL 2019。

Hush-Hush Speak:使用无声视频重建语音.Shashwat Uttam, Yaman Kumar, Dhruva Sahrawat, Mansi Aggarwal, Rajiv Ratn Shah,debanjan mahata.阿曼达支架.INTERSPEECH 2019。

MobiVSR:用于移动设备视觉语音识别的高效轻量级神经网络.Nilay Shrivastava, Astitwa Saxena, Yaman Kumar, Rajiv Ratn Shah阿曼达支架debanjan mahata.,普里蒂·考尔,罗杰·齐默尔曼。国际语音2019。

端到端神经科学文件OCR的挑战.邓云天,大卫·罗森伯格,及吉迪恩曼.ICDAR 2019。

语义驱动的自动完成Konstantine Arkoudas穆罕默德Yahya. CKIM 2019。

通过影响函数理解目标导向的主动学习徐敏杰Gary Kazantsev.. 机器学习与担保研讨会@NeurIPS 2019。

2018

学习更好的跨语言维基化名称翻译陈子财和丹·罗斯。AAAI-18。

使用曲线图汇总估算RDF数据的联合查询的基数Giorgio Stefanoni.,Boris Motik,Egor V. Kostylev。WWW 2018。

基于知识库的开放领域问题回答的永无止境的学习.Abdalghani Abujabal, Rishiraj Saha Roy,穆罕默德Yahya,Gerhard Weikum.WWW.2018。

Semeval-2018任务1:愤怒强度检测与深度学习文卡特什·伊兰戈和卡兰·乌帕尔.Semeval-2018(在Naacl-HLT 2018)。

Key2Vec:使用短语嵌入从科学文章中自动提取排序关键字短语debanjan mahata.,约翰库里亚科斯,拉吉夫·拉恩·沙阿,罗杰·齐默曼。Naacl-HLT 2018。

集体实体歧义与结构化渐变树升压杨毅、奥赞尔索伊、舍法特·拉赫曼. NAACL-HLT 2018。

知识图事实的弱监督上下文化.Nikos Voskarides,埃德加·梅杰,里多·雷纳达,阿比纳夫·海坦,迈尔斯·奥斯本,乔治·斯特凡诺尼,安朱·坎巴杜尔和Maarten de Rijke。市立2018。

企业童工政策的采用趋势:彭博终端ESG数据分析韦德兰·塞卡拉,亚历克斯·卢瑟福,吉迪恩曼马克·德雷兹、娜塔莉亚·阿德勒、曼纽尔·加西亚-赫兰兹。良好交换的数据2018

用汤普森采样试验自适应灰度箱模糊测试Siddharth Karamcheti、Gideon Mann和David Rosenberg. AISec 2018。

预测良好的Twitter对话Zach Wood-Doughty, Anju Kambadur吉迪恩曼. W-NUT 2018(在EMNLP 2018)。

基于词汇的人口级预测的用户级聚合的显着优势.萨尔瓦多Giorgi,丹尼尔Preoţiuc-Pietro,Anneke Buffone,Daniel Rieman,Lyle Ungar和H.Andrew Schwartz.EMNLP 2018

零炮开放实体类型为类型兼容接地本周,丹尼尔·哈沙比,陈子财和丹·罗斯。EMNLP 2018。

为什么说脏话?分析和推断粗俗表达的意图. 埃里克·霍尔盖特,伊莎贝尔·卡乔拉,丹尼尔Preoţiuc-PietroJunyi Jessy Li。EMNLP 2018。

通过建模程序行为改进灰度盒模糊Siddharth Karamcheti、Gideon Mann和David Rosenberg. arXiv。

2017

生成实体关系的描述.Nikos Voskarides,Edgar Meij.,和Maarten de Rijke.ECIR 2017。

基于知识图的自动问答模板生成.Abdalghani Abujabal,穆罕默德Yahya,Mirek Riedward和Gerhard Weikum.WWW.2017。

自适应子模具排名安州kambadur.与Viswanath Nagarajan的Fatemeh Navidi。IPCO 2017。

超越二元标签:推特用户的政治意识形态预测丹尼尔Preoţiuc-Pietro,叶刘,丹尼尔·霍普金斯和莱尔·恩格尔,2017年ACL

行列式点过程的快速贪婪映射推断安州kambadur.与因苏汉、京须公园、金宇新合作。ICML 2017。

用于近似对称正定矩阵日志确定剂的随机算法.Christos boutside, Petros Drineas,安州kambadur.,Eugenia Maria Kontopoulou和Anastasios Zouzias.ICML 2017

用性格级神经网络提升信息提取系统和自由嘈杂监督菲利普Meerkamp结构化预测研讨会(2017年EMNLP)。

跨语言命名实体识别的廉价翻译斯蒂芬·梅休先生,陈子财和丹·罗斯。emnlp 2017。

控制人类对基本用户特征的看法丹尼尔Preoţiuc-Pietro,Sharath Chandra Guntuku和Lyle Ungar.EMNLP 2017。

散点:自动从散点图中提取数据Mathieu Cliche, David Rosenberg, Dhruv Madeka和康妮. ECML PKDD 2017。

民事资产没收:司法视角Leslie Barrett,Alexandra Ortan,Ryon Smey,Michael W. Sherman,Zefu Lu,Wayne Krug,Roberto Martin,Anu Pradhan,Trent Wenzel,亚历山大谢尔曼,卡林·D·马丁.2017年良好交换的数据。

知识图中的知识问题.多米尼克,穆罕默德Yahya和Klaus Berberich。ICTIR 2017。

基于摄像头的移动和可穿戴设备双因素认证Mozhgan AzimpourkiviUmut TopkaraBogdan Carbunar。主要2017。