此文本使用 Salesforce 的自动翻译系统翻译。参加我们的调查,提供有关此内容的反馈,并告诉我们您接下来想要查看的内容。

企业数据架构正处于拐点。组织必须同时支持实时 AI 系统,遵守日益严格的隐私条例,并与无法共享原始数据的外部合作伙伴协作。这些要求正在从根本上改变数据平台的设计方式。

基于 ETL 漏斗和集中数据仓库构建的传统架构难以满足这些需求。跨系统复制数据会增加延迟、成本和治理复杂性。每个副本都成为一项新的合规义务,使整个分布式环境中的同意管理、删除请求和策略实施复杂化。

为应对这些挑战,该行业正在转向零复制、策略强制的协作模式。数据无尘室已成为一项关键的架构功能,使多个组织能够分析共享信号,而无需暴露或转移原始数据。计算不是将数据移动到集中的环境中,而是在每个参与者的受管域中执行,并且只返回隐私安全的结果。

这种架构转变在各个行业中越来越明显。例如,WPP 收购了 InfoSum,这是市场营销和广告领域最大的公司,反映了洁净室作为隐私安全协作基础设施的日益重要性。金融机构使用它们来检测跨机构的欺诈,零售商使用它们来协调与消费品品牌的促销,医疗保健组织使用它们来分析跨提供商的患者群,而无需共享敏感的基础记录。

Salesforce Data 360 通过构建于 Hyperforce 的零复制架构来操作该模型。当聚合查询在运行时强制执行隐私、同意和驻留策略时,数据仍保留在源系统中。此方法支持实时见解、跨云协作和 AI 驱动的决策,无需扩展数据复制创建的风险表面。

本文档研究了数据洁净室如何作为现代企业的基础架构模式发挥作用,同时大规模支持 AI 创新、监管合规和安全的跨域协作。

要了解为什么需要数据洁净室,企业架构师必须首先面对传统集成模型的结构性失败。该行业正在经历从单一、集中的数据存储库到分散、联合生态系统的决定性转变。在这里,数据是就地访问、管理和计算的,而不是物理移动。此轮班不是增量的。这是对传统架构无法再承受的规模、隐私和灵活性方面的系统压力的直接回应。

多年来,企业依赖 ETL 驱动的架构,将数据从 CRM、ERP 和数字系统复制到集中仓库进行报告和分析。这种方法被证明对历史分析有效,但它被设计用于一个速度较慢的、面向批次的世界。

随着数字交互的加速和 AI 驱动系统的出现,该模型的局限性变得更加明显。ETL 漏斗本质上是异步的,这意味着见解通常在事件发生后几小时或几天到达。这种延迟越来越与现代用例不兼容,例如需要即时上下文数据的实时个性化、自适应决策和 AI 系统。

复制还带来了日益严重的治理和安全复杂性。每个新的数据副本都需要额外的策略、监控和合规控制。在受监管的环境中,通用数据保护条例 (GDPR) 等框架要求组织在数据存在的任何地方管理删除、同意和使用限制 — 当数据集在多个系统中重复时,这是一个操作挑战。

从规模上讲,这种重复增加了成本和运营成本。组织在多个平台之间为接收、存储、安全和处理重复付费,而其他副本的边际价值下降。

因此,现代数据架构正在转向最大限度地减少数据移动并直接在源头实施治理的模式。零复制集成和聚合数据访问使组织能够在不复制敏感数据集的情况下生成见解,从而为企业数据协作提供了更具可扩展性、安全性和策略一致性的方法。

为应对这些压力,行业围绕两个互补的架构模式进行了整合:数据网格和数据结构。它们共同代表了从集中控制向聚合的、域感知的数据架构的转变。

数据网格将数据所有权下放给与领域一致的团队,例如销售、市场营销或供应链。每个域都将其数据视为产品,并清楚地定义了合同、质量标准和服务级别目标。该模型改善了问责制和业务一致性,但在企业级,它带来了跨域协调、互操作性和一致治理方面的新挑战。

数据交换矩阵通过提供连接层将分散的域绑定到一个连贯的系统中来应对这些挑战。它提供共享元数据、通用语义、自动化策略实施、谱系和治理,使数据能够被一致地发现、访问和治理,而不会迫使物理整合到一个存储库中。

数据网格和数据结构共同为联合数据访问奠定了基础。但是,它们没有解决关键的下一个问题:实现跨域和组织边界的安全、受控的协作,其中的数据必须被联合分析,而不能被复制或暴露。

随着企业数据的日益分散和隐私法规的日益严格,组织面临着一个核心的架构挑战。他们如何在不共享原始数据的情况下跨团队、合作伙伴和平台协作?传统的数据集成方法不适合这一级别的分发或监管审查,这造成了协作与合规之间的紧张关系。

这一挑战导致了向数据无尘室这一基础架构能力的转变。洁净室将协作从数据传输转向受管计算。分析和 AI 工作负载不是复制或交换数据集,而是通过共享元数据在数据已经存在的地方运行。根据隐私、同意和使用规则实时评估查询,并仅返回批准的聚合结果。

洁净室基础

在此模型中,数据洁净室充当现代数据架构的 Trust 边界。它们允许组织与合作伙伴和子公司合作,而不会失去对其数据的控制,通过系统控制而不是仅通过策略来强制执行隐私和同意,并在尊重数据驻留和合同限制的情况下跨云运行。

对于激活、分析和 AI 用例,无尘室提供了一种安全的方式,从外部数据生成见解,而不会暴露敏感信息。它们实现了从数据共享到可信协作的转变。对于激活用例,无尘室提供了生成受众的安全方式,可以直接激活到允许的目标。所有这些都是在不向任何一方公开任何个人身份信息 (PII) 的情况下实现的。这标志着企业数据架构的一个转折点。数据洁净室不再是利基工具。它们正在成为聚合的、保护隐私的、AI 就绪的数据平台的核心基础设施。

成功的数据洁净室架构是一个多界面系统,旨在解决数据实用程序、安全性和速度的竞争压力。有三个主要角色,其独特的摩擦点必须通过基础技术设计来解决。

隐私和合规管理人员将数据洁净室用作治理工具。他们最担心的是合规性偏差,即外部协作环境无法执行与内部系统相同的严格标准的风险。

  • **摩擦点:**监管曝光(GDPR、CCPA、DMA)和“网络钓鱼”攻击,合作伙伴试图通过重复的粒度查询来三角测量用户的身份。

数据科学家将数据洁净室视为高级建模的安全港。他们最关心的是实用程序保护,确保隐私措施不会使数据在统计上变得无用。

  • **摩擦点:**对于机器学习 (ML)、类似建模和流失预测所需的粒度属性,高延迟和受限访问。

此角色仅关注价值实现的时间 (TTV)。他们担心的是,数据洁净室项目通常会成为需要几周数据工程支持的技术瓶颈。

  • **摩擦点:**复杂的设置流程、手动数据清理,以及需要编写代码才能获得简单重叠结果的“空白页”问题。

虽然传统架构侧重于在用户层之前构建数据层,但我们与“业务优先”方法一致的战略方法颠倒了这种模式。我们优先考虑无代码点击的方法,这允许业务用户生成见解并立即采取行动。

**“见解到行动”工作流:**该架构设计为活动工作区,而不是被动存储库。通过提供用例模板(例如,细分重叠、激活和市场活动绩效),我们使业务用户能够自助获取见解。这确保了见解(例如优化的类似细分)可以立即在整个营销生态系统中激活,而无需数据工程师手动移动文件。

**零复制联盟作为战略资产:**为了最大化 TTV,该架构采用了零复制逻辑。与传统的引入延迟和安全风险的 ETL 流程不同,我们的架构将查询直接聚合到数据所在的位置(例如,Snowflake、BigQuery 或 Amazon S3)。这将组织的现有数据投资转化为战略资产,允许业务用户实时处理最新数据,同时保持严格的管理并消除数据冗余的成本。

数据清理室出现在广告中,作为对 Cookie 弃用和隐私条例的回应,但已经发展到跨行业的客户分析、受众细分和激活用例。根据 2025 年零售媒体状况报告,66% 的组织现在以某种容量使用洁净室,这主要是由于需要隐私安全的协作来提供可衡量的业务成果。 各部门的模式是一致的:数据归其所有者所有,计算受控制,并且只共享隐私安全的见解。

**挑战:**营销人员需要衡量市场活动的有效性,避免重复的广告印象,并优化覆盖范围/频率,但不能再依赖第三方 Cookie 或设备标识符。

洁净室解决方案:

  • 广告商提供散列客户或市场活动曝光数据
  • 发布者贡献印象和参与信号
  • 洁净室计算覆盖范围、频率、属性和提升
  • 通过批准的平台激活,无需导出原始数据

**业务成果:**无尘室提供将广告印象与实际交易联系起来的闭环归因、隔离真实市场活动的增量分析,以及跨渠道的统一测量 — 传统数字广告无法提供的功能。

**行业证据:**测量是当今最成熟的洁净室用例,Pinterest、Disney 和 Paramount 等主要媒体网络都创建了自己的洁净室。

**挑战:**CPG 品牌在零售媒体上花费巨大,但缺乏购买结果的可见性。零售商拥有丰富的销售点数据,但必须违反隐私承诺才能公开这些数据。

洁净室解决方案:

  • 零售商和 CPG 公司将零售位置的销售点数据与市场营销数据结合起来,优化促销活动
  • 品牌贡献散列 CRM 或忠诚度标识符
  • 无尘室链接广告曝光到店内/在线购买
  • 激活保留在零售商的媒体生态系统中

业务成果:

  • 零售商无需出售原始客户信息即可将第一方数据转化为货币
  • 品牌获得闭环属性,显示哪些市场活动推动了购买
  • 零售媒体网络的扩展没有隐私风险 **行业证据:**零售媒体网络,例如 Walmart 的 Luminate 和 Kroger Precision Marketing,提供洁净室,帮助 CPG 品牌使用零售商数据分析客户行为并优化营销策略。

**挑战:**欺诈网络跨机构运营,但由于 GLBA 等法规和新兴的隐私法,银行不能公开共享客户或交易数据。

洁净室解决方案:

  • 多家银行汇集匿名数据,识别指示欺诈的模式,例如不寻常的跨银行活动
  • 联合分析或模型在共享欺诈信号中运行
  • 没有机构可以看到另一个机构的客户级别数据

业务成果:

  • 更早发现跨机构欺诈模式
  • 通过丰富的信号集减少误报
  • 无需集中敏感数据的法规遵从性

**行业证据:**Experian 和 Trans Union 的金融服务解决方案提供洁净室技术,使银行和保险公司能够在欺诈检测和风险评估方面进行合作,同时保持严格的数据隐私控制。

**挑战:**制药公司需要真实患者结果进行药物开发,但数据驻留在医院 EHR 系统中,受 HIPAA 和类似法规的保护。

洁净室解决方案:

  • 医生和药物研究人员在洁净室内共享数据,以了解患者对治疗的反应。
  • 患者数据保留在提供商环境中。
  • 研究人员通过洁净室进行批准的统计分析。
  • 差异隐私会阻止重新识别。

业务成果:

  • 统计上有效的按比例真实世界证据
  • 通过将匿名患者数据与试验条件匹配,在不违反医疗隐私法的情况下找到合格的候选人,简化了临床试验的患者招募
  • 减少对有限临床试验人群的依赖

**行业证据:**Datavant 等专注于医疗保健的洁净室为研究人员和医疗保健组织提供了符合 HIPAA 的环境,以便为临床试验和药物开发安全分析患者数据。

除了这些主要用例之外,洁净室还支持:

  • **供应链优化:**制造商和供应商协作共享库存详细信息、生产计划和需求预测,从而在保护专有信息的同时实现更好的协调。
  • **并购尽职调查:**当一家公司收购另一家公司时,尽职调查需要检查财务预测和客户数据库,而无需直接共享敏感信息;无尘室揭示了客户细分的一致性和合规风险等见解。
  • 媒体和娱乐:发布者向广告商证明了受众价值,同时保护了订阅者的身份,实现了由可信评测支持的优质 CPM,而不是概率定向 在 AdTech、零售、金融服务、医疗保健和媒体领域,Data Clean Room 已成为基础 Trust 基础设施。它们实现了以前被隐私、监管或竞争约束所阻止的高价值协作。洁净室是核心架构组件,可实现安全的受管协作 — 在不放弃数据控制或合规性的情况下释放见解和实现货币化。

数据无尘室是一个安全的受管环境,它使多方能够在不公开或交换原始数据的情况下产生联合见解。批准的分析、AI 和激活工作负载会就地执行,并仅返回符合策略的输出,而不是复制数据集。在激活需要个人级记录时,数据会直接传递到预期目标,而不会暴露给协作方。

在架构上,洁净室将协作从数据共享转移到受控计算。每个参与者保留对其数据的保管,而运行时强制执行控制查询行为、输出约束、同意和使用策略。

通过保护隐私的标识符对齐机制,进一步实现了协作,允许来自不同方面的数据集进行关联,而不会暴露基础标识符 — 本文档后面将更详细地介绍这一功能。 因此,数据无尘室是隐私监管的多云 AI 驱动企业的基础基础设施,这些企业基于零复制、聚合数据策略运营。

洁净室概述

早期的数据清理室遵循集中的“掩体”模式。所有参与者都需要将数据复制到中立的第三方环境中进行分析。这种方法虽然在概念上简单明了,但引入了严重的摩擦。数据移动增加了延迟和成本,使法律和合规协议复杂化,并迫使组织放弃对敏感数据的直接控制。在受监管的行业中,这些权衡往往使协作不切实际。

现代数据洁净室已经向分布式的联盟模式发展。数据保留在所有者的环境中,分析通过联合查询执行到位。洁净室本身作为治理层,拦截每个查询,在执行时强制执行隐私和策略控制,并仅返回批准的汇总输出。

维度 传统无尘室 ( " 地堡"模型) 现代洁净室(分布式/联合模式)
数据位置 数据被复制到集中的第三方环境中 数据保留在所有者的环境中
数据移动 需要物理传输和复制数据集 没有原始数据移动,查询运行到位
控制和监管 部分放弃给第三方平台的监护 各方保留的原始数据所有权和保管权
架构模型 集中聚合 分布式联合计算
治理执行 移动数据后应用的策略 在查询执行时强制执行的策略
隐私模型 严重依赖合同和程序控制 通过运行时控制和聚合阈值在技术上强制执行
延迟 由于摄取和同步而导致更高的延迟 更低的延迟,近乎实时的联合查询
成本结构 更高的存储、转移和复制成本 减少重复,计算发生在数据驻留的地方
合规性复杂性 由于跨境数据移动而导致的复杂法律协议 简化合规性,因为数据不会离开源边界
扩展性 扩展需要更多的存储和数据复制 在不复制数据的情况下扩展分布式计算
监管行业适应性 由于监护和居住问题,通常不切实际 更好地与主权、同意和监管约束保持一致

Salesforce Data 360 就是这种联合模式的示例。发布者和广告商可以在云平台上协作并运行分析,而原始数据不会离开平台的安全边界。数据保管得以保留,风险得以降低,协作变得更加快速和易于扩展。

这种从共享数据到共享计算的转变重新定义了企业协作中的 Trust。洁净室不再是存储数据的目的地,而是管理如何安全地生成见解的系统。

要作为核心架构功能运行,企业级数据无尘室必须满足一组小范围的无协商要求。

数据无尘室的最根本要求是零复制架构。传统的数据协作依赖于将数据复制到共享环境的 ETL 漏斗。这增加了延迟、成本、安全风险和监管风险,同时创建了多个敏感数据的非受管副本。

现代化的数据洁净室消除了这一问题。数据保留在原始记录系统中,无论是云数据仓库、运营平台还是 SaaS 应用程序。洁净室在这些分布式源中使用联合查询,并仅返回批准的、隐私安全的结果。

通过避免物理数据移动,零复制无尘室减少了攻击面,保留了数据驻留和所有权,并与数据结构和联合数据架构原则自然保持一致。

现代数据策略取决于在不移动数据的情况下进行协作的能力。Salesforce Data 360 提供了一个灵活的框架,通过两个主要模型将您的企业连接到全球数据生态系统:

**本地 Salesforce 到 Salesforce 连接:**在此模型中,两个 Salesforce 客户之间直接进行协作。共享元数据层允许提供商和消费者通过简单的配置立即连接。这使得团队能够生成联合见解,而不会延迟复制数据,也没有复制数据的风险,从而确保信息在原始位置保持安全。

**外部 Salesforce 到云集成(AWS 和 Snowflake):**在此模型中,Salesforce 和外部云环境之间存在协作。零复制联盟允许组织桥接不同的基础设施,而无需数据移动的成本或风险。这使团队能够解决身份分散问题,扩大覆盖范围,同时将数据保存在其驻留云中,维护集中治理并消除出口费用。

零复制和聚合架构防止原始数据被移动或复制,但它们本身并不保证隐私。在这些模型中,主要风险从数据存储转移到数据计算。

敏感信息仍然可以通过分析输出泄露,即使只返回聚合结果。常见的攻击向量包括重复或重叠的查询(区分攻击)、对非常小的群体进行分析以及使用外部 Knowledge 进行推理。因此,隐私问题超出了访问控制的范围,而成为查询执行的动态要求。

Enterprise Data Clean Room 必须将隐私增强技术 (PET) 视为强制性的系统级控制,而不是可选的分析功能或政策指导。 从架构的角度来看,这意味着:

  • 隐私由平台强制执行,而不是由分析师强制执行
  • 控制在用户、合作伙伴和工作负载之间保持一致
  • 隐私保证是确定性、可重复和可审计的
  • 系统定义允许哪些计算、如何形成结果以及何时必须阻止查询
核心 PET 功能

**差别隐私:**差分隐私 (DP) 提供了数学保证,即任何个人的存在或不存在都不会对查询结果产生重大影响。实际上,这意味着洁净室会自动将校准的统计噪声注入输出,并跟踪每个数据集的定义的隐私预算。每个查询都会消耗该预算的一部分,一旦用完,就会阻止进一步的查询。 对于架构师来说,DP 的价值在于可证明性。隐私风险在数量上是有界限的,这有利于进行可辩护的合规,并减少对主观策略解释的依赖。

**安全标识符定线:**许多协作场景需要识别数据集之间的重叠,例如共享客户或客户。公开原始标识符将违反数据最小化原则。相反,洁净室级架构依赖于在洁净室边界内执行的确定性散列或令牌化。进行比较时不会向任何一方透露原始标识符,从而在没有数据披露的情况下实现类似联接的行为。

**聚合阈值和结果抑制:**当结果来自非常小的群体时,即使是完全匿名的输出也会受到影响。为了防止这种情况,企业数据洁净室必须强制执行最小聚合阈值,并自动抑制低于它们的结果。这些阈值必须不可覆盖,以确保一致地防止小段泄漏。

如果没有在执行层强制执行隐私增强技术 (PET),Data Clean Room 就有成为依赖于人为判断和合同协议的基于Trust的环境的风险。通过将 PET 直接嵌入平台,隐私成为结构属性,而不是程序属性。这使得团队和合作伙伴之间的协作无需重新协商 Trust,而监管者和风险团队可以使用客观的数学评测而不是主观的政策来评估担保。

对于企业架构师,PET 是将数据洁净室从安全 Sandbox 提升到可信协作结构的关键机制,能够支持企业级的受监管的多方分析和 AI 工作负载。

在多方协作中,Trust 通过可见性来维护。企业级数据洁净室必须提供参与者和数据之间每次交互的“纸质跟踪”。

查询日志:记录每次 SQL 执行,捕获请求者的身份、时间戳和使用的特定查询逻辑。

**策略实施日志:**系统不仅必须记录查询的内容,还必须记录对结果应用了哪些隐私策略(例如聚合阈值或差异隐私)。

**零篡改记录:**使用不可变审计跟踪(专用数据模型对象),数据洁净室确保日志不会被任何参与者更改或删除,为监管机构提供单一版本的真实情况。

Salesforce 通过允许组织在数据上分析和协作而无需共享原始数据集来实现现代数据洁净室。Salesforce Data 360 构建于零复制的聚合架构上,在执行时强制实施隐私、同意和治理,确保见解安全、合规且完全可操作。通过将无尘室直接嵌入企业数据生命周期,Salesforce Data 360 将其从利基分析工具转变为可扩展的可信基础设施,以实现 AI 驱动的多方协作。

Data 360 洁净室架构

在基础设施层,Salesforce Data 360 在 Hyperforce 上运行,Hyperforce 是 Salesforce 的云原生运行时,在统一控制平面后抽象超大规模资源(AWS、Azure、GCP)。此架构允许数据保持在区域内,以满足主权和居住要求,同时支持全球受管洁净室操作。

重要的是,此基础支持跨云洁净室协作,包括与 AWS 洁净室的本机互操作性。使用 Data 360 作为编排和治理层,企业可以与直接在 AWS 上操作的合作伙伴协作,而不会强制将数据迁移到 Salesforce 管理的存储中。查询被推送到源位置,隐私规则被一致地强制执行,并且只有合规的聚合结果在平台之间交换。

合规性和 Trust 在基础设施和执行边界强制执行,而不是在应用程序层改造 — 为大规模多云、多方协作提供了持久的基础。

Data 360 实施可跟踪的端到端数据漏斗,确保无尘室操作基于协调的、受治理和身份感知的数据,而不是原始提取。 关键阶段包括:

  • 连接:通过现成的连接器、API、SDK、MuleSoft 或零复制连接器进行数据接收和虚拟化
  • 保留:以本机格式存储原始数据 (Parquet / Iceberg)
  • 协调:映射到规范数据模型对象 (DMO),以实现一致的连接
  • 统一:身份解析创建 Golden Records
  • 派生见解:计算见解计算受管边界内的聚合度量
  • 行动:受管输出流向 Salesforce 组织、营销平台、广告网络、外部数据平台或其他洁净室,结束见解到行动的循环

此漏斗确保洁净室根据企业级数据运行,而不是临时提取。

与需要单独配置和 SQL 开发的独立数据无尘室平台不同,Salesforce 无尘室本地嵌入到 Data 360 中。这允许重复使用 DMO、身份规则、同意模型和治理策略,消除了重复的安全层。 Salesforce 的模板驱动的洁净室模型是一个密钥加速器,使用:

  • 现成的模板,支持常见的协作模式,例如受众重叠、抑制、覆盖范围和提升测量。
  • 自定义模板允许架构师和高级用户定义针对行业或合作伙伴特定需求的可重用分析逻辑,而不会暴露原始数据或策略复杂性。 这种方法标准化了协作,同时仍然允许灵活性,使洁净室能够作为可重复的企业功能进行扩展,而不是一次性的分析项目。

Data 360 解决了传统洁净室的常见故障模式:激活间隙。其 Golden Path 框架确保可以立即对洁净室内生成的见解采取行动,而无需导出原始数据。

  • 设置和发现:合作伙伴共享模式元数据,并利用模板在合同最终确定之前评估可行性。
  • 分析:预构建和自定义模板推动了重叠分析、抑制、类似建模和提升测量,所有这些都在受管边界内执行。
  • 激活:批准的细分会直接推送到 Marketing Cloud、广告平台或合作伙伴系统,并仅共享聚合的合规结果。

模板成为意见明确的执行路径,确保协作从分析到激活可以预测。

部署 Salesforce Data 360 Clean Room 不仅仅是一项配置练习,它还是一项严格的架构工作流,跨越数据就绪、治理设计、安全连接和运营监控。

在接触数据或配置之前,架构师必须明确界定:

  • 我们要回答什么问题?
  • 预期的结果是什么?(例如,重叠分析、提升测量、抑制、欺诈检测)
  • 需要什么级别的聚合?
  • 适用哪些法规或合同约束?
  • 什么激活路径会使用结果?

了解协作者的目标会决定接下来的一切 — 连接密钥、身份规则、治理阈值和成本建模。无尘室是专门构建的环境。嘿,应该围绕定义的分析目标进行设计,而不是通用的数据泄露。

在协作开始之前,企业数据必须在结构和语义上做好准备。洁净室放大了基础数据的优势和劣势。垃圾扔进来,垃圾扔出去 在这里更真实

**摄取:**将源系统(例如 Salesforce CRM、Marketing Cloud、AWS S3 和 Google Cloud Storage)连接到 Data 360。尽可能使用零复制连接器(例如 Snowflake),以避免不必要的数据移动或重复。

**语义映射:**将数据流映射到 Customer 360 数据模型。将电话号码(E.164 格式)、国家/地区/州代码(ISO 标准)和电子邮件地址等关键字段标准化。不对齐(例如,一方使用“CA”,另一方使用“California”)会静默地失败连接,并降低匹配率。

**身份解析:**配置确定性(精确匹配)和概率性(模糊匹配)规则,以创建统一个人(黄金记录)。该统一实体是洁净室匹配的表面。 身份解析的质量直接影响协作价值。更高的匹配精度提高了重叠率、分析置信度,并减少了假阴性。

在数据协调后,必须配置洁净室本身来定义协作边界。

**许可证验证:**请确认所有参与组织都拥有必要的 Data 360 和无尘室权利。

**数据空间范围:**洁净室对象必须限定在特定数据空间的范围内。只有映射到该数据空间的对象对洁净室可见。这确保了协作在逻辑上是隔离的,而无需仅为洁净室创建新的数据空间。

**定义治理规则:**在执行查询之前,以声明方式建立策略:

  • **聚合阈值:**例如,每个输出至少 100 个记录
  • **连接键:**例如 Email_Hash_SHA256
  • **允许操作:**仅聚合函数,例如计数、求和、AVG
  • **显式限制:**阻止行级导出(选择 *)

治理规则在执行时强制执行,使隐私和合规成为系统级属性,而不是程序指导。

洁净室通常跨越组织和平台边界。连接必须明确,并严格控制。

客户链接:

  • **Salesforce 到 Salesforce:**使用 Data Cloud One 或批准的跨组织共享机制。
  • **多云场景:**在启用查询之前,验证区域对齐和驻留。

**身份验证和授权:**为具有最低权限原则的专用集成用户配置基于 OAuth 的访问 — 将访问严格限制在必要的数据空间,并避免管理权限。 安全故障通常由权限过大的集成用户造成,而不是由加密或平台控制中的弱点造成。

上线后,重点转移到运营监督、查询质量和成本管理。

**查询执行:**分析师或工作流通过计算见解或批准的 SQL 界面执行重叠分析和聚合。所有查询会自动强制执行聚合阈值和隐私控制。

**审计和可追溯性:**Salesforce Data 360 洁净室以审计数据模型对象 (DMO) 的形式提供审计跟踪。这将捕获有关查询活动的元数据,包括谁执行了查询、查询何时运行以及应用了什么策略。审计 DMO 支持合规报告、治理验证和取证可追溯性 — 确保协作既隐私安全又可审查。

**消耗监控:**Data Cloud 使用基于消耗的信用模型。关键驱动因素包括:

  • 已处理行(例如,1M 行 = 基准信用单位)
  • 查询复杂性
  • 身份解析操作(更高的乘数)
  • 批量摄取(较低的乘数)

**数字钱包和提醒:**使用 Digital Wallet 跟踪实时消耗,并在 50%、75% 和 90% 阈值时配置警报。将峰值与特定工作负载进行关联,以避免意外成本。 请注意,零复制不会降低计算成本。在删除物理重复时,将在源系统上执行。架构师必须管理查询模式、联接选择性和执行频率,以控制成本和性能。

在现代企业中,Trust 不会绑定到数据洁净室。这是一个架构结果。Salesforce Data 360 持续自动地实施治理、安全和合规,将洁净室从策略驱动的环境转移到平台治理的系统。 无论协作发生在 Salesforce 内部、合作伙伴之间还是云之间,执行时间控制(锁定的身份、审计跟踪和差别隐私)都一致适用。

架构师最重要的转变是Trust是在执行过程中强制执行的,而不是事先假设的。Salesforce Data 360 通过一些核心平台控制来实现这一点:

  • **锁定身份:**合作伙伴访问权限以加密方式与已验证的 Salesforce 组织身份绑定,防止欺骗或未经授权的参与。
  • **审计跟踪:**记录每个查询、联接、细分重叠和激活,以实现完全的可审计性和监管合规性。
  • **差别隐私:**行级检查在结构上是不可能的。对输出进行汇总和统计边界。协作者只能看到隐私安全的结果,例如到达度量或提升百分比,而不能看到个人交易或身份。 这些控制用数学保证和平台级强制执行取代了 contract Trust,降低了运营和法律风险。

随着 AI 客服人员越来越多地与洁净室数据进行交互,Salesforce 引入了 Einstein Trust 层。它充当敏感企业数据和外部 LLM 之间的架构气闸。这确保了洁净室见解可以安全地为 AI 驱动的决策提供支持,而不会暴露基础数据。

主要功能:

  • **零数据保留:**发送到 LLM 的数据是短暂的。模型提供商无法存储培训的提示或响应。
  • **毒性语言检测和 PII 屏蔽:**输入和输出会自动扫描,PII 根据 Data 360 中配置的数据屏蔽策略进行屏蔽。

数据空间在组织内提供逻辑隔离,并应符合监管、地理和合作伙伴关系边界,例如:

  • 欧盟数据空间
  • 北美数据空间

只有分配到数据空间的数据集在其洁净室内可见,防止意外的跨界暴露。 权限集提供了对谁可以创建或管理洁净室、执行查询或激活细分的精细控制。数据感知权限在数据模型对象中强制执行字段级限制,例如,营销人员可能看到细分名称和受众规模,但看不到收入或健康指标。 安全性在语义层强制执行,允许业务用户使用安全的自助服务,而无需持续的 IT 监督。

同意信号通过 Data 360 自动传播到洁净室执行。默认情况下,撤销同意的用户被排除在分析和激活之外 — 确保合规性是系统强制执行的,而不是手动监管的。

Salesforce Data 360 将治理、安全性和合规性视为一流的架构原素,而不是可选的加载项。通过将执行时间可审计性、锁定身份、差别隐私、数据空间、同意感知身份解析和 Einstein Trust 层结合起来,企业可以在合作伙伴、多云系统和 AI 驱动的工作负载之间扩展洁净室协作,所有这些都不会影响 Trust、隐私或监管合规性。

要获取数据洁净室的全部价值,架构师必须将它们视为核心架构基础设施,而不是孤立的分析工具。以下优先级定义了一条务实和可扩展的前进道路: **使协作成为一流的架构问题:**外部数据协作的设计应与内部集成具有相同的严谨性。洁净室应与数据平台、集成层和 AI 系统一起嵌入企业参考架构,而不是作为临时扩展进行部署。随着互操作性的扩展(例如,Data 360 洁净室与 AWS 洁净室的集成以及未来的跨洁净室兼容性),架构师必须设计预测多平台生态系统的协作模式,而不是单供应商孤岛。

默认在源位置设计隐私

**设计数据流动性:​架构师首先应该考虑联合和零复制访问,**而不是默认设置为繁重的 ETL 和中央复制。将计算移到数据(在适当时)可以减少不必要的重复,降低成本,并保持真相来源的完整性。“连接与复制”应该是有意识的架构决策,而不是继承的习惯。

**缩小见解到行动的差距 :**停留在分析上的洁净室无法提供业务价值。架构必须将洁净室输出本地连接到激活系统和 AI 工作流。反馈循环、性能测量和下游执行必须从一开始就设计。

**准备 Agentic Enterprise:**随着 AI 客服人员越来越多地使用企业数据,无尘室将作为受控执行环境,客服人员可在其中操作,而不会暴露原始数据。将洁净室战略与 AI 治理和 Trust 框架相协调的架构师将是下一阶段的最佳人选。

现代数据洁净室代表了企业数据架构的根本转变。它们通过在不暴露数据的情况下进行协作,解决了数据效用和隐私之间的长期紧张关系。

Salesforce Data 360 等架构表明,这种权衡不是“非此即彼”的考虑。通过零复制模式将数据存储与激活分离,并将隐私增强技术直接嵌入执行,企业可以在不放弃对其数据的控制的情况下就高价值分析进行协作。隐私从合同义务转变为架构保证。

最重要的是,无尘室将数据从静态的孤立资产转换为受管的可操作资源。当本地连接到激活和 AI 层时,见解不再停留在仪表板中。它们直接流向决策、市场活动和自主系统 - 在企业规模上关闭数据、操作和结果之间的循环。

Yugandhar Bora 是 Salesforce 的软件工程架构师,专门从事数据和智能应用程序平台中的数据架构。他领导企业架构审查委员会 (EARB) 专注于数据治理和统一数据模型的举措,同时为自动化平台配置解决方案做出贡献。

Birendra Kumar Singh 是 Salesforce 技术人员的主要成员,专门从事 Data 360 中的平台和数据架构。他是激活平台的核心成员,并领导了“洁净室”计划,该计划专注于为 Data 360 客户提供数据洁净室基础设施。

Priyanka Kshirsagar 是 Salesforce 的高级产品经理,领导 Data 360 Clean Room — 她从头开始构建这一功能,使企业客户能够在保护隐私的环境中协作处理第一方数据。她推动了基于客服人员的 AI 和 ML 用例的愿景,包括在洁净室上进行类似建模和身份丰富,并已通过普遍上市和一级 Dreamforce 发布会将该产品推向市场。