Argilla meets AutoTrain

🔁 Argilla 遇上 AutoTrain

2023年3月6日

David Berenstein, Daniel Vila Suero

我们很高兴地宣布 Argilla 的一项新的酷炫集成!从今天开始,您只需点击几下即可使用 Argilla 数据集和 Hugging Face AutoTrain,让您轻松训练 NLP 模型,而无需编写任何代码。

AutoTrain 使您能够以最少的配置训练自定义 NLP 模型,使用户能够专注于他们的数据和业务问题,而不是模型训练的技术细节。

现在,随着 Argilla 和 AutoTrain 的集成,数据标注和 NLP 模型训练变得无缝连接,比以往任何时候都更容易构建和部署 NLP 解决方案。无论您正在进行情感分析、命名实体识别还是文本摘要,Argilla + Hugging Face AutoTrain 都可以帮助您更快地投入生产,减少代码和麻烦。

我们很自豪能为我们的用户提供这个方向,并迫不及待地想看到他们将使用它构建出令人惊叹的 NLP 应用程序。

只需几分钟即可训练出一个高质量的模型,让我们看看如何操作!

🚀 部署 Argilla

您可以使用多种部署选项之一来自行托管 Argilla,注册我们即将推出的 Argilla Cloud 版本,或者使用此一键部署按钮在 Hugging Face 上启动 Argilla Space

🏷️ 标注数据

Argilla 支持文本分类、Token 分类和文本生成。有很多方法可以使用 Argilla 加速您的标注过程。您将在文档中找到大量教程,包括最近一个结合了 SetFit 零样本学习、少样本学习和向量搜索的教程。

一旦您标注了一些示例,您只需点击几下即可获得您的第一个 transformers 模型,而无需编写任何代码!

🚙 🚋 启动 AutoTrain

  1. 转到 Argilla Streamlit Customs Space 并从左侧边栏选择 auto-train。
  2. 添加您的 Argilla API URL、API 密钥和 Hugging Face Token。
  3. 从 Argilla 实例上可用数据集的下拉列表中选择一个数据集。
  4. 点击 schedule AutoTrain 并按照步骤操作。

观看视频,了解使用 NER 模型的步骤

📦 获取模型!

在安排 AutoTrain 作业后,您可以通过单击作业链接来启动它。 就是这样! 对于小型数据集,只需几分钟即可获得高质量的模型。

现在您有了一个训练好的模型,您可以下载它或通过 Hugging Face Inference Endpoints 提供服务,就像这样!

观看视频,了解剩余步骤

对于好奇的人们,这里是生成的模型训练数据集

如果您想在不使用 Streamlit 应用程序的情况下将 AutoTrain 流程集成到您自己的工作流程中,您可以在此存储库中找到代码。

下一步

如果我们能使用 Webhooks 使其成为一个持续的重新训练过程,会怎么样?

如果我们闭环数据,并将来自您的 Inference Endpoints 的生产数据记录到 Argilla 中,以用于主动学习和持续评估,会怎么样?

敬请关注!如果您想为加速实现这一目标做出贡献,请告诉我们。

代码

如果您对用于从 Streamlit 应用程序启动 AutoTrain 作业的代码感兴趣,请查看此 repo