我们非常激动地发布 Argilla 2.0,这标志着我们在让所有人都能轻松使用数据工具的道路上迈出了重要的里程碑。 Argilla 入门简单,易于使用,专为希望维护高质量 AI 项目的 每个人 而设计。 Argilla 将数据置于您工作流程的核心。
对于那些对 2.0 开发背后的故事和动机感兴趣的人,之前的 2.0 版本介绍 文章提供了详细的见解。
Argilla,为了每一个人!
Argilla 是一个开源协作平台,供 AI 工程师和领域专家构建高质量数据集。 Argilla 的目标是简洁、灵活和包容。
SDK 和 UI 提供了两种与数据集交互的方式。 Argilla 团队致力于尽可能多地吸纳认同数据质量是提升模型性能关键的合格专业人士。 每个人都应该为 AI 做出贡献。
在 Hugging Face Hub 上部署 Argilla 比以往任何时候都更容易
Argilla 2.0 旨在通过几次点击即可在 Hugging Face Spaces 上部署。
它速度很快,您无需维护服务器或运行任何命令。 通过与您的团队共享您的 Argilla Space 或向 OSS 社区开放它,您可以在几分钟内构建人类反馈收集项目。
团队协作现在成为可能
Argilla 2.0 针对团队协作进行了优化。 通过最少的设置,您可以通过共享工作在创纪录的时间内完成标注任务。
作为项目的管理员,您可以为每个记录定义最少的标注数量。 每个团队成员都将可以访问整个数据集。 一旦所有记录都收到标注数量,任务就完成了。
孩子们几乎可以从 Argilla SDK 配置数据集
新的 Python SDK 旨在实现简洁性,并提供统一的 API 来管理数据集、设置、用户和工作区。 它自然地集成了 pandas 和 datasets 等库。 您无需编写数十行代码或处理奇怪的抽象概念即可配置您的项目。
它使您能够在服务器上添加记录。 您可以在整个过程中轻松添加新的记录并删除其他记录。 您可以构建包含多个字段的数据集,并设置问题选项以收集来自标注者的反馈。 Argilla 支持相似性搜索和元数据,以便标注者快速审查特定的数据集样本。
新的 SDK 是在过去六个月中与社区共同设计的。 我们在两个月前分享了 alpha 版本,并收到了社区的积极反馈。
import argilla as rgclient = rg.Argilla()settings = rg.Settings( guidelines="guidelines.md", fields=[ rg.TextField( name="Prompt", ), ], questions=[ rg.LabelQuestion( name="label", labels=["good", "bad"] ), ],)dataset = rg.Dataset( name="my_dataset" settings=settings)dataset.create()
信息架构旨在满足各种需求
无论您是开发人员、领域专家、标注者、团队经理还是 AI 工程师,Argilla 灵活的 UI 布局都让您可以专注于最重要的事情。 灵活的布局让您可以根据您的任务隐藏、缩小或展开字段、问题、指南和进度指标。
管理员可以轻松地从 UI 管理设置,包括问题和字段编辑、标签配置、值重新排序和 Markdown 字段。 大多数这些设置甚至可以在项目开始后进行更改!
无论您是在探索新的数据集还是快速标注大量数据,UI 都旨在优化您的工作流程。 启用了用于标注的焦点模式和批量模式,以完成诸如分类或 NER 之类的任务,您可以在一次操作中标记数十条记录。
您每一步的指南
我们喜欢 Diátaxis 框架,并将 UX 原则应用于文档。 这意味着您无需阅读每份指南即可试用 Argilla。 按照快速入门和基本指南操作,您就可以开始收集标注了。
无论您是从 Argilla 1.X 数据集过渡而来还是刚刚开始,这些指南都根据您的需求量身定制。 您阅读得越多,了解得就越多,但最终,您将根据自己的规则塑造自己的项目。
Argilla 文档旨在支持新手和经验丰富的从业者,无论您的个人资料如何。 团队是多元化的,我们认为让每个人都参与到 AI 项目中至关重要。
如果您对试用 Argilla 感到兴奋,只需点击几下即可:https://docs.argilla.com.cn/latest/getting_started/quickstart/