虽然 LLM 锻炼数据会颠末预处置阶段,旨正在清理和过滤掉不相关数据、反复内容、无害或消息,但秘密数据仍然难以完全删除,且无法完全断根如斯复杂数据集中的所有小我身份消息(PII)、财政数据、医疗记实和其他内容。
此外,研究人员还发觉演讲中的秘密存正在高反复利用率,63% 的秘密呈现正在多个页面上。例如,研究人员还正在一个网页上发觉了 17 个奇特的及时 Slack webhook,而 Slack 明白 webhook URL 包含奥秘,严禁正在网上(包罗通过公共版本节制存储库)分享。
Truffle Security 公司(TruffleHog 数据开源扫描器背后的公司)的研究人员对 Common Crawl 2024 年 12 月档案中 267 亿个网页的 400 TB 数据进行查抄后,发觉了 11,908 个成功验证的无效秘密。这意味着 LLM 存正在正在不平安代码长进行锻炼的可能性。
Common Crawl 非营利组织着一个复杂的开源存储库,此中存储了自 2008 年以来收集的数 PB 级收集数据,任何人都能免费利用这些数据。因为数据集规模庞大,很多人工智能项目,包罗 OpenAI、DeepSeek、Google、Meta、Anthropic 和 Stability 等公司的大型言语模子(LLM)锻炼,可能至多部门依赖这一数字档案。
研究竣事后,Truffle Security 联系了受影响的供应商,并协帮他们撤销了用户的密钥,成功帮帮这些组织集体轮换 / 撤销了数千个密钥。即便人工智能模子利用的是比研究人员扫描的数据集更旧的档案,Truffle Security 的发觉仍给我们敲响了警钟?。