Build Fine-Tuning and Evaluation datasets on the Hub — No Code Required

在 Hub 上构建微调和评估数据集 — 无需代码

2024年11月4日

Argilla 团队

我们非常激动地分享 Argilla 加入 Hugging Face 以来最具影响力的功能:您可以无需任何代码即可准备您的 AI 数据集,从任何 Hub 数据集开始!使用 Argilla 的 UI,您可以轻松地从 Hugging Face Hub 导入数据集,定义问题,并开始收集人工反馈。

Argilla UI from Hub

为什么这个新功能对您和社区如此重要?

  • Hugging Face Hub 包含 23 万个数据集,您可以将其用作 AI 项目的基础。
  • 它简化了从 Hugging Face 社区或专业团队收集人工反馈的过程。
  • 它让对特定领域拥有广泛知识但不确定如何编写代码的用户也能创建数据集。

用例

这项新功能让在 Hub 上构建高质量数据集变得普及

  • 如果您已发布开放数据集并希望社区做出贡献,请将其导入公共 Argilla Space 并与全世界分享 URL!!
  • 如果您想从头开始注释新数据集,请将 CSV 上传到 Hub,将其导入您的 Argilla Space,然后开始标注!
  • 如果您想为微调或评估您的模型而管理现有的 Hub 数据集,请将数据集导入 Argilla Space 并开始管理!
  • 如果您想改进现有的 Hub 数据集以造福社区,请将其导入 Argilla Space 并开始提供反馈!

工作原理

首先,您需要部署 Argilla。推荐的方式是在 Spaces 上部署,请遵循本指南。默认部署启用了 Hugging Face OAuth,这意味着您的 Space 将对来自任何 Hub 用户的注释贡献开放。当您希望社区为您的数据集做出贡献时,OAuth 是完美的选择。如果您想将注释限制为您和其他协作者,请查看本指南以获取其他配置选项。

Argilla 运行后,登录并单击主页上的“从 Hugging Face 导入数据集”按钮。您可以从我们的示例数据集之一开始,或者输入您要使用的数据集的 repo id。

在此第一个版本中,Hub 数据集必须是公开的。如果您对支持私有数据集感兴趣,我们很乐意在 GitHub 上收到您的反馈。

Argilla 会根据数据集的特征自动建议初始配置,因此您无需从头开始,但您可以添加问题或删除不必要的字段。字段应包含您想要反馈的数据,例如文本、聊天或图像。问题是您希望收集的反馈,例如标签、评分、排名或文本。所有更改都会实时显示,因此您可以清楚地了解您正在配置的 Argilla 数据集。

对结果满意后,单击“创建数据集”以使用您的配置导入数据集。现在您可以开始提供反馈了!

您可以按照快速入门指南亲自尝试一下。只需不到 5 分钟!

这个新的工作流程简化了从 Hub 导入数据集的过程,但如果您需要进一步的自定义,您仍然可以使用 Argilla 的 Python SDK 导入数据集

我们很乐意听到您的想法和初步体验。请在 GitHubHF Discord 上告诉我们!