基于池的采样 ——该算法在标记数据集上进行训练,然后用于挑选未标记数据的子集以供人工注释者标记。
会员查询合成 ——通过算法生成新的数据点进行标记。这些标签是根据底层的自然分布综合生成的。
基于流的选择性采样 ——通过测量每个数 多米尼加共和国电话号码数据 据点的信息增益,一次调查一个未标记的数据点。根据信息增益,算法决定是否获取人工注释的标签。
我如何评估主动学习的成果?
可以进行 测试,其中有一个对照组和一个用于模型再训练的测试组。对照组使用传统的标记整个数据集的方法进行模型再训练,测试组使用 个数据点在 次迭代中对机器学习模型进行主动学习再训练。在每次从主动学习中收集标签的迭代之后,都会使用这些新标签对模型进行再训练,并将模型性能与对照组性能进行比较。测试组实验迭代 次,其性能与对照组相似或更好。
根据使用主动学习进行模型再训练的迭代次数和标记的数据点数量,我们可以评估与传统的数据集标记相比,这在成本、时间和质量方面是否更有效。
虽然该领域的研究正在进行中,例如多臂、基于老虎机的主动学习,但必须尽职尽责地尝试各种主动学习方法,以改进模型性能,而不是传统方法,以权衡这些方法的成本和收益。