
自然语言处理 (PLN) 西班牙语与 Rubrix
2021 年 11 月 17 日
dvilasuero随着语言模型变得越来越强大和易于访问,构建您自己的 PLN 解决方案比以往任何时候都更容易。Hugging Face Hub 或 Weights & Biases 等平台和工具允许您训练和试验最新的最先进模型。然而,仍然存在一个悬而未决的关键问题:如何构建、评估和维护数据,以便为您的领域训练和改进这些模型? 现实情况是,为了发展 PLN 解决方案,您迟早需要根据您想要解决的具体问题调整您的模型(并且需要长期坚持这样做)。此外,由于数据集和预训练模型的稀缺,这个问题对于英语以外的语言的 PLN 来说变得更加重要。
在本文中,我们将告诉您 Rubrix 是什么,以及它如何通过以数据为中心的实用方法帮助您进行西班牙语 PLN。 本文基于 NLP Spain 组织的题为“以您的数据为中心的 PLN 与 Rubrix”的讲座。
Rubrix,一款免费的开源工具
Rubrix 是一款免费的开源工具,用于探索、标记和监控 PLN 数据,由 Recognai 在 Python 中开发,是近 5 年来为企业开发 PLN 解决方案、为 spaCy 或 AllenNLP 等开源库做出贡献以及在 Hugging Face 上发布预训练模型(如最近的 Selectra)的成果。
该工具的目标是以有效的方式创建、管理和维护您的训练数据,让不同的角色参与到 PLN 模型的开发中:数据科学家、语言学家、领域专家和工程师。
Rubrix 在 4 个方面有所不同
开放
Rubrix 是免费的、开源的,并且 100% 兼容主要的 PLN 库(Hugging Face transformers、spaCy、Stanford Stanza、Flair 等)。 事实上,您可以使用和组合您喜欢的库,而无需实现任何特定的接口。
涵盖从头到尾的流程
大多数注释工具将数据的收集和标记视为项目开始时和关键时刻的活动。 在现实世界的项目中,数据收集是机器学习模型迭代开发过程的关键活动。 一旦模型投入生产,就希望监督和分析其预测,并收集更多数据以随着时间的推移改进模型。 Rubrix 旨在弥合这一差距,使您可以根据需要进行迭代。
为不同用户设计的体验
可持续 PLN 解决方案的关键是促进所有人对项目的贡献。 领域专家应该能够舒适地解释和注释数据。 数据科学家应该可以自由地试验和迭代数据和模型。 数据和机器学习工程师应该控制模型和数据的生命周期。 Rubrix 优化了这些主要用户的体验,使开发团队更加高效。
超越手动标记
经典的手动标记工作流程成本高昂且效率低下,但持续的人工验证至关重要。 在新的数据注释工作流程中轻松地将手动标记与主动学习、批量标记、零样本模型和弱监督模型结合起来。
如果您现在仍然有疑问,您为什么需要它? 在讲座的视频中,您将找到实际示例,包括西班牙语的模型和数据。 如果您还有兴趣亲自尝试,我们已在此GitHub 存储库中发布了讲座中使用的代码。