窝牛号

GPT系列——基于机器学习的大型语言模型中的隐私注意事项

经过训练以预测句子中下一个单词的基于机器学习的语言模型已经变得越来越强大,通用和有用,从而在诸如问答,等应用程序中取得了突破性的改进。但是随着语言模型的不断发展,可能会暴露出新的和意料之外的风险,从而要求研究界积极开展工作,以开发出减轻潜在问题的新方法。

这样的风险之一就是模型有可能从训练有据的数据中泄漏细节。虽然这可能是所有大型语言模型都需要考虑的问题,但是如果要公开提供针对私人数据训练的模型,则可能会出现其他问题。因为这些数据集可能很大(数百GB),并且可以从一系列数据源中提取,所以它们有时可能包含敏感数据,包括个人身份信息(PII)-名称,电话号码,地址等,即使经过公开数据训练也是如此。 。这增加了使用此类数据训练的模型可能在其输出中反映其中一些私有细节的可能性。因此,重要的是要确定和最大程度地减少此类泄漏的风险,并为未来的模型制定解决该问题的策略。

GPT-2语言模型

在与,Apple,Stanford,Berkeley和Northeastern University的合作的&34;中,证明了,只有查询预训练语言模型的能力,才有可能提取特定的片断该模型已存储的训练数据。因此,训练数据提取攻击是对最新的大型语言模型的现实威胁。这项研究代表了一个至关重要的早期步骤,旨在使研究人员了解此类漏洞,以便他们可以采取措施缓解这些漏洞。

语言模型攻击的道德准则如果将训练数据提取攻击应用于可用于公众的模型,但没有针对训练使用的数据集,则其危害最大。但是,由于对这样的数据集进行这项研究可能会带来有害的后果,因此,改为对(由OpenAI开发的大型公共语言模型,仅使用公共数据进行训练)安装了概念训练数据提取攻击。虽然这项工作专门针对GPT-2,但研究结果适用于了解通常在大型语言模型上可能出现的隐私威胁。

机器学习

与其他与隐私和安全相关的研究一样,在实际执行此类攻击之前,请考虑其道德规范。为了最大程度地降低这项工作的潜在风险,使用公开数据开发了这项工作中的训练数据提取攻击。此外,GPT-2模型本身是OpenAI在2019年公开发布的,用于训练GPT-2的培训数据是从公共互联网收集的,任何遵循GPT中记录的数据收集过程的人都可以下载。-2纸。

此外,根据负责任的计算机安全披露准则,模型对提取了PII的个人进行了跟踪,并在获得涉及此数据的引用之前获得其许可。此外,在本作品的所有出版物中,都删除了所有可能识别个人身份的个人识别信息。在分析GPT-2方面,Google还与OpenAI紧密合作。

训练数据提取攻击根据设计,语言模型使生成大量输出数据变得非常容易。通过为模型填充随机短短语,模型可以生成数百万个连续词,即完成句子的可能短语。在大多数情况下,这些延续将是明智文本的良性字符串。例如,当被要求预测字符串&34;的继续时,语言模型将高度相信下一个标记是单词&34;。但是,如果一个特定的培训文档偶然多次重复字符串&34;,则该模型可能会预测该短语。

AI

然后,训练数据提取攻击的目标是从语言模型中筛选出数百万个输出序列,并预测要记住的文本。为此,我们的方法利用了以下事实:模型往往对直接从其训练数据中捕获的结果更有信心。这些使我们能够通过检查模型在特定序列上的置信度来预测训练数据中是否使用了结果。

这项工作的主要技术贡献是开发了一种用于高精度推断成员资格的方法,以及从模型中以鼓励记忆内容输出的方式进行采样的技术。我们测试了许多不同的采样策略,其中最成功的采样策略生成的条件取决于各种输入短语。然后,我们比较两种不同语言模型的输出。当一个模型对序列的置信度高,而另一个(同样准确的)模型对序列的置信度低时,则第一个模型可能已经存储了数据。

结果从GPT-2语言模型的1800个候选序列中,我们从公共培训数据中提取了600多个,这些总数受手动验证的限制。所记忆的示例涵盖了广泛的内容,包括新闻标题,日志消息,JavaScript代码,PII等。尽管这些例子很少出现在训练数据集中,但许多例子都被记住。例如,对于许多PII样本,我们仅在数据集中的单个文档中找到了提取的内容。但是,在大多数情况下,原始文档包含多个PII实例,因此,该模型仍将其作为高可能性文本来学习。

nlp

最后,我们还发现语言模型越大,记忆训练数据就越容易。例如,在一个实验中,我们发现参数为15亿的GPT-2 XL模型存储的信息比参数为1.24亿的GPT-2 Small模型存储的信息多10倍。鉴于研究社区已经对模型进行了10到100倍的训练,这意味着随着时间的流逝,将需要更多的工作来监视和缓解越来越大的语言模型中的问题。

经验教训虽然我们专门展示了针对GPT-2的这些攻击,但它们显示了所有大型生成语言模型中的潜在缺陷。这些攻击可能发生的事实对于使用这些类型的模型的机器学习研究的未来具有重要的意义。

幸运的是,有几种方法可以缓解此问题。最直接的解决方案是确保模型不会针对任何可能有问题的数据进行训练。但这在实践中可能很难做到。

的使用是允许在数据集上进行训练而无需透露单个训练示例的任何细节的方法,这是使用隐私来训练机器学习模型的最原则性技术之一。在TensorFlow中,这可以通过使用tensorflow / privacy模块(或与PyTorch或JAX类似的来实现,该替代现有的优化程序。即使这样也会有局限性,并且不会阻止经常重复的内容的记忆。如果无法做到这一点,我们建议至少增加记忆量,以便采取适当的措施。

语言模型继续展现出巨大的实用性和灵活性-然而,像所有创新一样,它们也可能带来风险。负责任地发展风险意味着要主动识别这些风险并制定减轻风险的方法。我们希望通过这种努力来凸显当前在大语言建模方面的弱点,将在更广泛的机器学习社区中提高对这一挑战的认识,并激励研究人员继续开发有效的技术来训练记忆力降低的模型。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除

窝牛号 wwww.93ysy.com   沪ICP备2021036305号-1