自然语言处理 (PLN) 西班牙语与 Rubrix

随着语言模型变得越来越强大和易于访问，构建您自己的 PLN 解决方案比以往任何时候都更容易。Hugging Face Hub 或 Weights & Biases 等平台和工具允许您训练和试验最新的最先进模型。然而，仍然存在一个悬而未决的关键问题：如何构建、评估和维护数据，以便为您的领域训练和改进这些模型？现实情况是，为了发展 PLN 解决方案，您迟早需要根据您想要解决的具体问题调整您的模型（并且需要长期坚持这样做）。此外，由于数据集和预训练模型的稀缺，这个问题对于英语以外的语言的 PLN 来说变得更加重要。

在本文中，我们将告诉您 Rubrix 是什么，以及它如何通过以数据为中心的实用方法帮助您进行西班牙语 PLN。本文基于 NLP Spain 组织的题为“以您的数据为中心的 PLN 与 Rubrix”的讲座。

Datos

Rubrix，一款免费的开源工具

Rubrix 是一款免费的开源工具，用于探索、标记和监控 PLN 数据，由 Recognai 在 Python 中开发，是近 5 年来为企业开发 PLN 解决方案、为 spaCy 或 AllenNLP 等开源库做出贡献以及在 Hugging Face 上发布预训练模型（如最近的 Selectra）的成果。

该工具的目标是以有效的方式创建、管理和维护您的训练数据，让不同的角色参与到 PLN 模型的开发中：数据科学家、语言学家、领域专家和工程师。

Clasification