AI 锻炼数据藏雷：近 12000 个 API 密钥取暗码-星谷云移动云站

AI 锻炼数据藏雷：近 12000 个 API 密钥取暗码

来源：安徽星谷云交通应用技术股份有限公司时间：2025-04-29 20:35

　　虽然 LLM 锻炼数据会颠末预处置阶段，旨正在清理和过滤掉不相关数据、反复内容、无害或消息，但秘密数据仍然难以完全删除，且无法完全断根如斯复杂数据集中的所有小我身份消息（PII）、财政数据、医疗记实和其他内容。

　　此外，研究人员还发觉演讲中的秘密存正在高反复利用率，63% 的秘密呈现正在多个页面上。例如，研究人员还正在一个网页上发觉了 17 个奇特的及时 Slack webhook，而 Slack 明白 webhook URL 包含奥秘，严禁正在网上（包罗通过公共版本节制存储库）分享。

　　Truffle Security 公司（TruffleHog 数据开源扫描器背后的公司）的研究人员对 Common Crawl 2024 年 12 月档案中 267 亿个网页的 400 TB 数据进行查抄后，发觉了 11，908 个成功验证的无效秘密。这意味着 LLM 存正在正在不平安代码长进行锻炼的可能性。

　　Common Crawl 非营利组织着一个复杂的开源存储库，此中存储了自 2008 年以来收集的数 PB 级收集数据，任何人都能免费利用这些数据。因为数据集规模庞大，很多人工智能项目，包罗 OpenAI、DeepSeek、Google、Meta、Anthropic 和 Stability 等公司的大型言语模子（LLM）锻炼，可能至多部门依赖这一数字档案。

　　研究竣事后，Truffle Security 联系了受影响的供应商，并协帮他们撤销了用户的密钥，成功帮帮这些组织集体轮换 / 撤销了数千个密钥。即便人工智能模子利用的是比研究人员扫描的数据集更旧的档案，Truffle Security 的发觉仍给我们敲响了警钟？。

关注热点聚焦行业峰会

关注热点
聚焦行业峰会