彭博社的研究人员发布了kōan,使CBOW的实施更快、更准确

早在2020年,彭博社的两名人工智能研究人员艾德里安·本顿(Adrian Benton)和Ozan İrsoy就在研究更高效的上下文词汇嵌入卡尔Stratos他是罗格斯大学(Rutgers University)计算机科学系的助理教授(也是彭博社(Bloomberg)人工智能工程团队的前成员)。在他们的工作中,三个人发现了一个简单的,但有影响的,Word2vec梯度计算错误,一个常用的自然语言处理(NLP)应用程序学习单词嵌入。

他们最近发布了开放源代码,详细描述了在训练单词金宝搏网址嵌入时对Gensim和word2vec的替代实现。通过这种实现,研究人员可能会发现,在下游模型中使用连续词袋(CBOW)时,其性能与跳过图一样。这个实现称为kōan,在许多情况下也比这两个都快(参见他们论文中详细的基准测试)。

他们的技术报告“kōan:修正的CBOW实施”详细介绍了他们的实验发表在arXiv

它们的实现代码现在可以在GitHub上找到:http://github.com/bloomberg/koan

点击上面的图片阅读并下载全文