对AI数据质量的担忧赋予了“垃圾进,垃圾出

数据质量在 AI 时代的重要性

关键要点

  • “垃圾进,垃圾出”的概念强调了数据质量对结果的影响;
  • AI 的应用中潜藏着敏感数据泄露的风险;
  • 企业需全面掌握敏感信息存储及访问情况;
  • 提高自动化和数据分类可帮助降低风险。

在1960年代初,IBM 程序员兼讲师乔治·费施尔(GeorgeFuechsel)创造了“垃圾进,垃圾出”这一术语。经过数年的演变,这一术语被许多领域的专业人士广泛采用。归根结底,该术语与数据质量密切相关。如果基于错误的数据做出假设,最终结果也必然不佳。如今,随着
AI 的兴起,各公司正在急于将这一新技术融入不同应用。这就需要我们认真倾听费施尔的话,仔细审视数据质量,并理解其与 AI 的互动关系。

垃圾数据的挑战可能来自两个方向。首先,未经我们意识到的情况下,使用不良数据训练大型语言模型(LLM),可能导致大量私人及潜在的受保护信息泄露。想象一下,意外泄露财务信息、知识产权和个人身份信息所带来的合规和安全隐患。

显然,AI 可以帮助改善内部工作流程,加速数据共享,并满足多种潜在的有益用例,但这类敏感数据泄露会引发重大治理、隐私和安全风险。实际上,一项 显示,249 名高级企业风险管理人员认为,生成性 AI 的大规模可用性是第二大常提及的新兴风险。

敏感数据泄露亦在 中排名第六。报告作者描绘了一种情境,在该情境下,毫不知情的用户正在合法地与 AI工具互动,并设计一系列提示以绕过输入过滤器和其他数据检查,从而导致模型泄露敏感数据。“为了降低此风险,LLM应用需进行充分的数据清洗,以防止用户数据进入训练模型的数据中。”作者如是指出。

历史感强的读者可能会想起以往的数据泄露保护程序,这些程序扫描社会保障号码及其他敏感信息。然而,LLM能将来自各种内部和私人或公共云源的数据结合起来,并以新的方式打包,这使得追踪和保护更为困难。此外,与传统的数据丢失防护(DLP)产品不同,私人数据用于创建
LLM,而不是仅仅为可能的犯罪目的而输出。

那么,这对那些希望参与 LLM黄金热潮的组织意味着什么呢?组织需要全面了解他们存储敏感信息的位置、谁可以访问这些信息,并能够跟踪数据在组织内的流动。他们还应施加足够的访问控制,以确保这些数据保持在安全存储库中。

垃圾数据并不一定要包含敏感信息,就会造成风险和潜在危害。它可能出于故意或无意而不准确,这意味着基于这些数据构建的模型将缺乏有效性,并在某些情况下提供危险或误导性指引,这在
AI 领域被称为“幻觉”。通常情况下,仅仅是使用过时的数据副本或开发者选择了错误的数据集进行训练。

这并不是一个新问题,IT 团队一直在努力消除所谓的影子数据。然而,LLM 和 AI 可大大加速趋势,使得这些影子副本迅速变得过时,并在整个企业内大规模扩散。

针对以上这两个问题——敏感数据和影子数据,也有两个切实可行的解决方案。首先,我们需要更好的自动化。这意味着要找到将 LLM与现有应用开发环境紧密集成的方法,确保无需对数据进行特殊的副本处理。换句话说,LLM将在数据云中本地运行,承载现有的权限和访问控制。集成还可以使实施安全政策规则变得更加简便,类似于网络层的操作。

其次,我们需要更

Leave a Reply

Your email address will not be published. Required fields are marked *