数据匿名化可以通过不同的方式实现,具体取决于具体的要求和情况。下面介绍了一些最常见的匿名化方法。
绝对匿名
如果个人参考对于每个人来说实际上都是不可能的,这就被称为绝对匿名化。通过绝对匿名化,控制者 和第三方都无法重新识别数据主体。从技术上、实践上和事实上来说, 每个人都可以做到,即无需付出最大的努力,也无需使用任何技术手段。绝对匿名化 是最强的匿名化形式。要达到这样的境界,是 一个很大的挑战,毕竟必须用尽一切手段。这包括数字化进程以及计算能力提升带来的可用数据源。
事实匿名化
事实或相对匿名化的特点是数据主体的可重新识别性不会被完全排除。然而,考虑到 GDPR 中规定的标准和其他标准,由于涉及所谓的“不成比例的努力”,因此不可能重新识别数据主体。当达到这种不成比例的状态时,无论如何都应该与数据保护官员进行讨论。在这种情况下,数据对于控制者或第三方来说实际上是匿名的。
人工智能使用的匿名化
对于一些数据分析师来说,能够利用个人数据来训练人工智能无疑是非常有帮助的。由于缺乏 GDPR 第 6 条所规定的法律依据以及未履行 GDPR 第 12 条及后续条款所规定的事先信息义务,此项权 阿联酋号码数据 利经常被排除在外。但是,以下选项可用于训练:
联邦学习:联邦学习是一种机器学习方法,旨在利用集中式机器学习模型的优势,同时保护数据隐私和安全。联邦学习通过直接在用户设备上训练机器学习模型来解决隐私问题。无需将原始数据传输到中央服务器,而是使用那里可用的数据在各个设备上对模型进行训练。然后,更新后的模型或模型参数被发送到中央服务器,在那里被聚合并组合成全局模型。这意味着原始数据永远不会离开用户的设备,从而提高了数据安全性和隐私性。
差异隐私:在机器学习领域,差异隐私可用于训练模型,该模型可以从数据中提取有用的见解,而无需透露有关单个数据点的具体细节。在训练过程中,数据中会引入随机“噪音”。这里的关键是,训练后的模型不会学习有关单个数据点的信息,从而保护数据所涉及的人的隐私。
合成数据的生成:合成数据是人工创建的具有与真实数据相同统计属性的数据。它们通常用于难以获取真实数据或隐私问题限制对真实数据的访问的情况。合成数据可用于模拟不同的情况和场景,对于训练人工智能和机器学习模型特别有用。例如,有静态的生成方法。该方法生成的数据可以复制在真实数据集中观察到的某些统计特性(例如平均值、标准差、相关性等)。例如,一个简单的方法可能是从与真实数据中观察到的分布相匹配的分布中抽取随机值。