Distribute the workload in Argilla
Quino Al

🏉 在 Argilla 中分配工作负载

2023年4月28日

Natalia Elvira Astoreca

当您作为一个团队注释数据时,您需要确保每个人都有自己要处理的部分,而不会意外地重复工作。在这篇博文中,我将向您展示在 Argilla 中分配团队工作量的两种方法,这两种方法分别使用了旧功能和最新功能,具体取决于您的需求。

选项 1:使用记录元数据

一种可能的向您的团队传达分配任务的方式是在记录元数据中添加一个字段,其中包含有关谁应该注释该记录的信息。如果您使用的是 Argilla >1.6.0,请确保此数据集位于所有团队成员都可以访问的工作区中。

如果出现以下情况,此选项非常有用

  • 您想要保留单个数据集。
  • 您希望您的团队成员可以访问整个数据集,例如,根据整个团队的注释编写弱标签规则。
  • 您希望您的团队成员能够看到数据集的总体进度。
  • 您每个记录只需要 1 个注释。

当您的团队准备好开始注释时,您只需要让他们打开数据集并使用 UI 中的 Metadata 过滤器,以便他们可以专注于分配给他们的记录。

Argilla UI 中数据集内部元数据过滤器的视图Argilla UI 中数据集内部元数据过滤器的视图

**注意:您的团队仍然可以在启用此过滤器的情况下使用查询和相似性搜索,并且他们只会获得其拆分中的记录。他们需要关闭它才能获得整个数据集的记录。

选项 2:拆分数据集

另一种方法是利用用户角色和工作区来阻止每个用户可以访问的数据。在此解决方案中,您需要将 Argilla 更新到 v1.6.0,并为每个用户拆分您的数据集。这些拆分将仅包含分配给每个用户的记录,并且它们将被记录为相应用户个人工作区中的单独数据集。

如果出现以下情况,此选项非常有用

  • 您希望每个团队成员独立工作,并且看不到其队友的记录和注释,例如,如果您想在之后衡量注释者之间的一致性。
  • 您希望您的团队成员仅看到他们个人的进度。
  • 您想要进行注释重叠。如果是这种情况,我们建议为每个记录分配一个 ID,以便能够在后处理中重建原始数据集。
  • 您不介意为每个拆分设置一个单独的数据集。

管理员用户的用户数据集列表视图管理员用户的用户数据集列表视图

**提示:您可以为所有拆分保留相同的数据集名称,或者添加标签以轻松对其进行分组。

如果您不希望您的注释团队看到其同行的拆分,他们将需要具有 annotator 角色,因为任何具有 admin 角色的用户都能够访问所有工作区和数据集。在此博客文章和我们的文档中了解更多关于用户角色和管理的信息。

如果您遵循了此选项,您的注释团队将在其个人工作区中找到他们的拆分。要开始注释,他们只需打开数据集,无需额外的步骤。

注释者用户的用户数据集列表视图注释者用户的用户数据集列表视图

总结

我们探讨了两种不同的方法,您可以使用 Argilla 中的功能来划分团队内部的工作负载。在第一个解决方案中,我们保持一个对整个团队开放的单个数据集,并使用记录的元数据,以便他们可以过滤数据集并专注于分配给他们的记录。在第二个解决方案中,我们使用分配给每个具有 annotator 角色的团队成员的记录进行了多次拆分,并将它们记录为他们个人工作区中的单独数据集。这样,我们可以确保他们只能访问分配给他们的记录,而 admin 可以监督所有拆分。

如果您想查看包含复制每个解决方案所需的所有代码的更详细教程,请查看此笔记本