彭博全球数据和CTO数据科学团队发布数据注释项目的最佳实践

注释涉及对数据集进行标签,使其对人类读者或机器更有价值。因此,注释正迅速成为机器学习中的一个重要分支学科,其中的数据——无论是结构化的还是非结构化的——都被标记为构建和改进模型的性能。由于计算机科学的第一条规则是“垃圾输入,垃圾输出”,如果数据注释不当或不够充分,机器学习的努力就会付之一篑。

注释对于像彭博社这样的科技公司来说至关重要,因为每天都有大量的金融数据通过各种数据管道和分析系统传输。得益于该公司的工程师和数据科学家利用注释数据创建强大的机器学习模型,彭博的客户可以在最需要的时候准确地发现他们正在寻找的全球资本市场信息。例如,当股息报价显示,彭博终端客户,他们中的大多数已经被机器学习算法提取公司新闻稿等财务文件和/或证券交易所发布可能是摄入不同格式的彭博社只有秒之前。人工管理无法与这种速度竞争,但为了让算法选择最相关的新数据,模型必须首先对已被人类注释的数据进行训练。

彭博社法律分析师Tina Tseng表示,机器学习模型既需要有效又可靠的注释。它们不仅必须是准确的,以符合用户对任务的理解,而且还必须是一致的,以便模型能够识别数据模式。

Tina在过去十年一直在管理注释活动。当同事就这个问题向她寻求建议时,她意识到,成功执行这类项目是机器学习的一个重要组成部分,但这往往被忽视,因为它通常是通过实践经验而不是正式培训来学习的。

NLP架构师、People+Language AI团队负责人阿曼达•斯坦特(Amanda Stent)对计算机科学教育方面的这种差距感到遗憾。作为彭博社首席技术官办公室数据科学团队的一部分,该团队为彭博社的人类计算战略提供技术监督。

“我希望他们在大学里教授注释和数据管理的最佳实践,但他们没有。大多数计算机科学研究生,包括那些与机器学习相关的研究生,使用提交给他们的数据,我遇到过许多博士研究生,他们自己在攻读博士期间花了三年时间研究这些数据,但他们对这些数据一无所知。”

通常,计算机科学博士不具备完全理解他们必须利用的复杂数据集所需的领域知识。相反,他们必须依赖对他们试图应用机器学习(如生物学、金融或法律)的领域和问题有深入知识的主题专家来管理注释过程。因此,注释通常是一个团队工作,因此需要有效的沟通和协作等“软”技能。

蒂娜和阿曼达,以及彭博的首席数据官Domenic Maida全局数据部门他认识到,通过建立注释的最佳实践,并使其在公司内外都能使用,彭博将从中受益。这导致了《管理数据注释项目的最佳实践这本书是对这项日益重要的工作进行计划、执行和评估的实用指南。它为应用注释项目收集了来自彭博全球数据部门不同团队的30多个经验丰富的注释项目经理的智慧。

管理数据注释项目的最佳实践
点击上面的图片阅读并下载完整的注释手册

该指南为注释过程的每个步骤提供了详细的建议,从识别涉众、建立目标、选择沟通方法、预算和时间线的考虑等初步任务,一直到质量保证、数据漂移和其他异常的检测。

蒂娜和阿曼达特别强调了两种最佳做法。首先,需要明确的指导方针。如果员工不能统一理解应该审查哪些数据以及如何注释这些数据,问题就会出现。阿曼达说,指导方针需要包括数据的细微差别。

“你可能会认为有些事情真的很简单。每个人都知道什么是“组织”。然而,实际上有很多皱纹。让我们以纽约这个名字为例。它是一个组织还是一个地点?这得视情况而定。纽约出售债券-纽约是一个组织。我住在纽约——纽约是个地方。如果你有纽约喷气机队(New York Jets)和纽约大都会队(New York Mets),那么“纽约”是该组织名称的一部分吗?

大型数据集可能会遇到类似的棘手的语义问题,因此需要全面的指导方针,为注释器提供如何处理这些微妙问题的清晰说明。然而,在注释需求非常复杂的情况下,即使是最详细的指导方针也不够。出于这个原因,注释项目经理应该始终考虑他们所参与的劳动力类型:内部员工、外部供应商或“人群”。高度专门化的劳动力将消耗预算的很大一部分,但对于需要深度专业知识的注释任务,或者数据隐私问题限制了可用劳动力的类型的注释任务,可能需要高度专门化的劳动力。这些只是计划注释项目所涉及的几个决策标准。

第二,最佳实践文档为评估组织注释项目的成功提供了建议。为了确定机器学习模型的表现,以及在哪些方面可以改进,Tina强调了具体指标的价值。

“你不能依赖道听途说的证据;你需要了解模型是如何处理整个数据集的,并使用定量评估技术来确定趋势。”

在讨论项目评估时,Amanda很快指出,认为注释项目有一个定义好的端点是一种常见的误解。相反,她鼓励项目经理将这些看作是持续的、迭代的任务,需要随着时间的推移不断改进。

“无论你是直接为客户服务,还是让机器学习模型保持最新,你都需要不断更新数据,所以这是许多项目经理都抱有的一个美丽的彩虹尽头幻想,这样的注释项目就会完成。”

Tina建议对整个过程中所做的战略决策进行持续的评估,包括项目是如何定义的,它的指导方针,以及劳动力的选择。“你应该总是重新审视你的决定,重新评估它们是否以最有效的方式产生了你想要的结果。”

尽管注释过程在正确执行时可能是一个沉重的负担,但考虑到它对任何部署机器学习模型的组织(无论行业如何)的持续重要性,经过深思熟虑的规划和设计可以在长期内带来可观的回报。