明确定义的标注指南对于确保任何标注项目的数据质量和一致性至关重要。然而,制定全面的指南可能具有挑战性,并且随着项目的进展以及您对数据和要解决的问题有更深入的了解,指南不断演变是很常见的。那么,我们如何在不损害数据完整性的情况下有效地管理这些变更呢?
掌握 MAMA 循环:一种科学方法
在理想情况下,您应该从 MAMA(模型-标注-模型-标注)循环开始您的标注项目,这是一种用于改进指南的科学方法。在这个“试探”阶段,您可以使用数据样本进行实验,根据您的团队提出的问题、反馈和边缘情况,迭代改进您的指南。暂时不用担心标注的质量;专注于掌握手头的任务,并确保团队之间达成共识。
随着项目的进展,请关注Inter-Annotator Agreement (IAA)(标注者间一致性)指标。某些标签或问题上的一致性较低可能表明您的指南需要澄清的领域。迭代并改进您的指南,直到您对 IAA 分数感到满意并且指南感觉稳定为止。请注意,如果您提出主观问题,例如为了获得对 LLM 生成的人类偏好的反馈,您可能会对较低的 IAA 分数感到更自在,但您仍然需要检查对于哪些方面使生成结果更可取或更好(例如,安全性、诚实性等)存在一些共识。一旦您达到这个阶段,您就可以自信地继续标注您的黄金标准数据集,可以重新标注用于 MAMA 循环的数据,也可以从新的数据开始。
确保您在这个阶段花费足够的时间,有助于您逐步深入理解您的数据和任务,同时允许指南迭代,而无需担心重大变更。然而,我们经常面临时间和资源限制,或者在实现稳定的指南和令人满意的 IAA 分数方面面临挑战。那么,当 MAMA 循环不可行时,我们该怎么办呢?
指南管理实践:提高效率的策略
有时,完成 MAMA 循环是不切实际的,因为时间和资源有限,而且似乎永远无法完成这个阶段。如果是这种情况,您可以直接使用您的初始指南开始标注,但要记住一些管理指南变更的实用步骤,以有效地进行管理。
- 维护变更日志:记录对指南所做的更改,包括日期。这有助于您跟踪指南的演变,并向您的团队传达更改。
- 实施版本控制:为您的指南分配版本,并定期“发布”更新(例如,每周)。向您的团队传达重大更改,例如标签定义修改,确保每个人都使用最新版本。额外提示:如果您每周都有固定的指南“发布”日,您将知道这些重大更改将始终反映在一周特定日期的标注中。
- 识别重大更改:警惕重大的指南更改,例如新标签或对现有标签定义的重大修改。这些更改可能需要审查先前标注的记录,以确保一致性。
- 优先审查:优先审查和更新受更改影响的记录,以维护数据完整性。在 Argilla 中,您可以使用响应过滤器、关键词搜索或相似性搜索来识别这些记录。
- 关注测试集拆分:如果审查所有标注数据不切实际,请确保至少您的测试集拆分与最新版本的指南保持一致。对于训练集,您可以容忍更多噪声的标注,并给予最近的标注更多权重,以弥补不一致性。
最终想法
更改指南是标注过程的自然组成部分,反映了对您的数据日益增长的理解。通过在可能的情况下实施 MAMA 循环,并在需要时采用实用的管理策略,您可以确保您的数据具有高质量和一致性。请记住,指南是动态文档,适应变化是成功标注项目的关键。
有关 MAMA 循环和自然语言标注项目其他最佳实践的更多见解,请查看 Pustejovsky, J. & Stubbs, A. (2012) Natural Language Annotation for Machine Learning,尤其是第 6 章:Annotation and Adjudication。