이 텍스트는 Salesforce의 자동 번역 시스템을 사용하여 번역되었습니다. 이 콘텐츠에 대한 피드백을 제공하고 다음에 원하는 내용을 알려주려면 저희의 설문 조사을 참조하십시오.
엔터프라이즈는 Salesforce 및 기타 외부 데이터 레이크(예: Snowflake, Google BigQuery, Databricks, Redshift 또는 Amazon S3)에 모두 데이터를 저장합니다. 다른 소스 시스템에서 데이터를 사일로 지정하는 것은 데이터의 전체 기능을 활용하려는 기업에게 어려움을 야기합니다.
여러 데이터 레이크 전반에 걸쳐 데이터를 결합하기 위해 작업하는 설계자는 해당 데이터를 가장 효과적으로 통합하는 방법에 대한 주요 아키텍처 결정에 직면하게 됩니다. Data 360은 각각 다른 장단점과 장단점을 제공하는 여러 가지 데이터 통합 옵션을 제공합니다.
이 가이드는 데이터를 통합할 때 대기 시간, 비용, 확장성, 거버넌스, 복잡성에 대한 요구 사항에 가장 적합한 패턴을 평가하는 프레임워크를 제공하므로 데이터 수집, Zero Copy 데이터 연합 또는 하이브리드 접근 방식을 사용할 시기를 선택할 수 있습니다. 가이드는 각각 다른 요구를 충족하는 다양한 데이터 수집 및 데이터 연합 방법 중에서 선택하는 데도 도움이 됩니다.
외부 데이터 레이크하우스를 Data 360과 통합하려면 데이터 새로 고침, 거버넌스, 파이프라인 효율성 간의 제약을 주의 깊게 고려해야 합니다. 예를 들어, Zero Copy 데이터 연합 실시간 쿼리를 사용하면 데이터의 새로 고침이 극대화되지만 네트워크를 통해 더 많은 데이터를 이동할 때 파이프라인 효율성이 저하될 수 있습니다. 따라서 대부분의 실제 구현에서 다중 클라우드 레이크하우스 생태계 내의 수집 및 연합 조합이 최적의 경로입니다. 이 하이브리드 접근 방식은 실시간 개인 설정 및 사기 감지와 같은 낮은 대기 시간 운영 워크로드와 규제 보고 및 내역 추세 분석과 같은 분석 워크로드를 모두 원활하게 지원하는 확장 가능, 관리 가능, 상호 운용 가능한 아키텍처를 보장합니다. 이 결정 가이드는 이러한 제약을 탐색하고 올바른 전략을 선택하는 방법을 이해하는 데 도움이 됩니다.
- 데이터 수집: 데이터를 Salesforce Data 360에 복사하여 관리되는 정규 데이터 모델을 만듭니다. 다음을 수행해야 하는 경우에 적합합니다.
- 전체적인 Customer 360 구축: 편파 소스를 통합하고 신뢰할 수 있는 단일 프로필로 변환합니다.
- ** 엄격한 규정 준수:** 데이터 액세스 및 계보를 엄격하게 제어할 수 있는 중앙 집중식으로 감사 가능한 사본을 만듭니다.
- Zero Copy Federation: 중복 없이 외부 소스를 실시간으로 쿼리하여 실시간 개인 설정, 실시간 대시보드, 빠른 소스 온보딩을 활성화합니다. 균형을 맞추어야 하는 제약이 있는 두 가지 기본 옵션:
- 라이브 및 캐싱(가속 쿼리): Snowflake, Google BigQuery, Redshift 또는 Databricks와 같은 외부 데이터 플랫폼에 존재하는 데이터에 대한 대화형 분석 및 실시간 대시보드에 가장 적합합니다. 소스 시스템으로 프로세싱을 푸시하여 비용이 많이 드는 느린 데이터 중복을 방지합니다.
- 파일 통합: 클라우드 데이터 레이크(S3, ADLS)의 데이터에 대한 대규모 배치 처리 및 AI 모델 교육에 가장 적합합니다. 열려 있는 테이블 형식으로 파일을 직접 쿼리하여 ETL 및 데이터 과학 워크로드에 대한 대용량 데이터 집합을 잠금 해제하여 비용이 많이 들고 느린 수집을 방지합니다.
- 하이브리드 모델: 통합 프로필에 대한 수집을 연합하여 신선함, 옴니채널 참여, Agentforce 기반 작업, AI/ML 교육을 지원합니다.
-
하이브리드 아키텍처: 데이터 수집 및 데이터 연합을 혼합해야 하는 경우가 많습니다.
- 정규 데이터 모델 및 핵심 관리를 위해 중요한 데이터에 대한 데이터 수집을 사용합니다.
- Zero Copy를 통해 다른 모든 데이터를 통합하여 수집 데이터 파이프라인을 구축하고 유지 관리하는 운영 오버헤드를 최소화합니다.
-
데이터 수집 주기 문제: 비즈니스 가치, 대기 시간 요구, 운영 복잡성을 기반으로 주기를 선택합니다.
- 시간에 민감한 워크플로를 실시간으로 사용합니다(개인화, 실시간 대시보드, Agentforce 작업).
- 약간 긴급한 프로세스(캠페인, 운영 보고서)의 경우 거의 실시간입니다.
- 내역 또는 저속 데이터 집합의 경우 배치
-
연합 패턴을 지연 및 성능에 맞춥니다. 액세스 패턴 및 신선도, 성능, 비용에 대한 요구 사항에 가장 적합한 항목을 선택합니다.
- 실시간 쿼리를 사용하여 운영 대시보드 및 실시간 개인 설정을 수행할 수 있으며, 대기 시간이 매우 적습니다.
- 쿼리가 자주 쿼리되었지만 약간 오래된 결과가 허용되므로 성능과 비용의 균형을 유지할 수 있는 경우 캐싱(가속 쿼리)을 사용합니다.
- 처리량이 많은 대규모 분석 또는 배치 워크로드에 파일 통합 사용하십시오. 이는 내역 데이터 집합이나 시간이 중요한 데이터 집합에 적합합니다.
-
거버넌스를 데이터 보존 요구 사항에 맞게 조정:
- 중앙 집중화된 거버넌스가 중요할 때 수집을 사용합니다.
- 외부 소스에 엄격한 관리를 적용하면서 분산된 관리를 허용하는 경우 연합을 사용합니다. Zero Copy는 행 수준 보안(RLS) 및 데이터 마스킹과 같은 소스 수준 정책을 준수합니다.
-
고가치 워크플로를 위한 수집 우선 순위 지정: ID 확인, 규제 보고, 운영 활성화와 같은 중요한 프로세스에 선택적으로 수집을 적용합니다.
-
비용 및 복잡성은 결정을 주도합니다. 실시간 수집은 비싸고 복잡할 수 있습니다. 설계자는 데이터 온보딩, 저장, 변환 비용을 Zero Copy를 통해 직접 쿼리하는 비용과 비교해야 합니다.
올바른 통합 패턴(데이터 수집, 제로 복사 또는 하이브리드 접근 방식)을 선택하면 다중 클라우드 플랫폼에서 대기 시간, 거버넌스, 운영 효율성, 비용에 직접적인 영향을 미칩니다. 이 결정은 실시간 인사이트, AI 기반 활성화, 맞춤형 참여를 신뢰할 수 있고 대규모로 전달하는 방법을 결정합니다.
이 표에서는 엔터프라이즈 사용 사례 및 결과와 함께 기능, 제약, 이점에 초점을 맞춘 Salesforce Data 360의 데이터 수집 및 제로 복사 패턴을 기술적으로 비교합니다. 설계자는 성능, 비용, 규정 준수에 균형을 맞추는 하이브리드 멀티 클라우드 데이터 플랫폼을 설계하기 위한 참조로 사용할 수 있습니다.
| 패턴 유형 | 모드/도구 | 혜택 | 고려 사항 | 결과 |
|---|---|---|---|---|
| 데이터 수집 | 실시간: CDC 지원을 통해 수집 API를 통한 2초 미만의 지연 수집 연속 스트리밍 파이프라인. | - 즉각적 인사이트 - 대기 시간이 낮은 운영 및 개인 설정 사용 사례에 적합 - 이벤트 중심 워크플로 지원 |
- 높은 비용 - 복잡한 아키텍처 - 저 대기 시간 소스 시스템 필요 - 대용량 소스는 과도한 스트리밍으로 인해 파이프라인이 채워질 수 있습니다. - 입출력 집약 - 선택적 필드 및 필터링을 고려하여 오버헤드 줄이기 |
Agentforce: - 실시간 사기 경고, 리테일 개인 설정, 운영 경고 Analytics: - 초과 대시보드, KPI 모니터링 규정 준수: - 규제된 워크플로에 대한 지속적인 고객 레코드 업데이트 |
| 스트리밍: 네이티브 커넥터를 통해 1~3분마다 마이크로 배치 수집 | - 균형 잡힌 비용 및 새로 고침 비교 - 실시간 대비 더 간단한 아키텍처 - 증분 업데이트 지원 |
- 약간의 대기 시간 - 중요한 하위 초 결정에 적합하지 않을 수 있습니다. - 배치 크기가 메모리/계산에 영향을 미칩니다. - I/O가 보통 - 예측 가능한 반복 업데이트 패턴에 가장 적합 - 프로세싱 부하를 줄이기 위해 윈도우가 포함된 집계를 고려합니다. |
Agentforce: - 적시에 캠페인 트리거, 근시 참여 Analytics: - 권장 사항 엔진, 근접 대시보드 규정 준수: - 감사 기능이 있는 자주 업데이트 |
|
| 배치: 커다란 볼륨 로드를 커넥터 또는 API를 통해 예약합니다. 개체 저장소 및 ETL/ELT 파이프라인을 지원합니다. | - 대량 데이터 집합의 비용 효율성 - 쉽게 구현 - 내역 분석을 신뢰할 수 있음 |
- 데이터 대기 시간 - 시간이 많은 작업에 적합하지 않음 - 로드 기간 동안 I/O 집약성 - 네트워크 처리량이 대용량 파일의 지체 지점이 될 수 있습니다. - 내역 집계 또는 규제된 보고 워크플로에 가장 적합 |
Agentforce: - IT 지원 티켓(Jira/ServiceNow), 집계된 워크플로 Analytics: - 내역 분석, 추세 평가 규제 준수: - 규제 보고, 환자/ 청구 데이터 집계 |
|
| 영제 복제본 | Live Query: 외부 시스템에서 직접 쿼리, 스키마 읽기, 데이터 중복 없음 | - 최대 새로 고침 - 최소 저장소 오버헤드, 실시간 운영 인사이트 지원 |
- 소스 성능에 종속 - 쿼리 용량이 많은 경우 대기 시간에 영향을 미칠 수 있습니다. - 입출력 최소화를 위한 조건자 푸시다운 및 집계가 있는 쿼리에 적합합니다. - 대량 데이터 집합에서 필터링되지 않은 쿼리 방지 |
Agentforce: - 실시간 활동에 적응하는 동적 워크플로 Analytics: - 운영 대시보드, 실시간 보고 규정 준수: - 소스에서 행 수준 보안 및 마스킹 준수 |
| 고속 쿼리(캐싱): 연합 쿼리에 대해 캐시된 로컬 복제본. 15분~7일 사이에 구성할 수 있습니다. 최적화된 쿼리 실행 | - 대기 시간 줄이기 - 반복 실시간 쿼리보다 비용이 낮음 - 자주 액세스하는 패턴의 성능 향상 |
- 캐시 관리 필요 - 중단은 캐시 간격에 따라 다릅니다. - 빈도가 높은 쿼리에 가장 적합 - 초과 결정에 적합하지 않음 |
Agentforce: - 빠른 결정을 위한 사전 집계된 참여 메트릭 Analytics: - BI 대시보드, 세분화, 분석 보고 규정 준수: - 감사 로그가 있는 일관된 규제 대시보드 |
|
| 파일 통합: 객체 저장소 또는 호수(S3, Iceberg, Google BigQuery, Redshift)의 대규모 기록 데이터 집합에 직접 액세스합니다. | - 대규모 데이터 집합 처리 - Data 360의 최소 저장소 - AI/ML 워크로드 지원 |
- 읽기 전용 - 쿼리 성능은 외부 시스템 처리량에 따라 다릅니다. - 처리량이 많은 배치 작업에 최적화됨 - 실시간 대시보드에 적합하지 않음 |
Agentforce: - (일반적이지 않음 - 일괄 처리 중) Analytics: - ML/AI 교육, 내역 분석, 페타바이트 규모 보고 규정 준수: - 중복 없이 외부 데이터 집합에 대한 관리 액세스 |
데이터 수집을 사용하면 데이터가 소스에 남아 있는 Zero Copy와 달리 데이터가 Data 360에 물리적으로 복사되고 완전히 관리됩니다. 중앙 집중식 관리 및 감사를 허용하는 Data 360 내에서 변환을 계산합니다.
데이터 수집을 사용하여 규정 준수 및 운영 관리를 위해 Salesforce Data 360에 정규 관리 데이터 집합을 저장합니다. 전체 제어, 감사, 추적 가능성이 필요한 경우 수집을 사용합니다. 중앙 집중식 계산 및 거버넌스가 중요한 규제 또는 가치가 높은 워크플로에 적합합니다.
수집은 ID 확인, 규제 보고, 미션 크리티컬 AI 중심 워크플로 및 고객 참여를 위한 신뢰할 수 있는 기반을 구축하는 데 가장 적합합니다.
데이터 수집 방법은 데이터 수집에 사용하는 커넥터에 따라 다릅니다. 일부 커넥터는 다양한 수집 방법을 제공하며, 다른 커넥터는 배치 또는 스트리밍 모드에서만 작동합니다. Data 360을 참조하십시오. Data 360 커넥터 및 사용 가능한 방법의 전체 목록에 대한 통합 및 커넥터입니다.
- 실시간
- 스트리밍 파이프라인 또는 변경 데이터 수집(CDC)을 사용하여 초과 수집
- 시간이 중요한 워크플로(사기 감지, 개인 설정, 운영 대시보드)에 가장 적합합니다.
- Data 360 내에서 변환 및 집계를 푸시하여 다운스트림 I/O를 줄이고 계산 사용량을 최적화합니다. 증분 CDC를 사용하여 데이터 섞기를 최소화합니다.
- 스트리밍
- 1~3분마다 소규모 증분으로 수집합니다.
- 캠페인 오케스트레이션, 거의 실시간 참여, 운영 보고에 적합한 신선함과 비용의 균형을 맞춥니다.
- 마이크로 배치를 사용하여 입출력 급증을 제어합니다. 가능한 경우 소스에서 데이터를 집계하여 전송량을 줄이고 저장소를 최적화합니다.
- 배치(예약 로드)
- 대규모 데이터 집합을 정기적으로 수집합니다(시간별, 매일, 매주).
- 내역 데이터 집합, 규제 보고, 규정 준수 사용 사례에 비용 효율적이고 신뢰할 수 있습니다.
- 성능 및 비용을 최적화하기 위해 소스 저장소와 동일한 지역의 지역성을 계산하십시오.
- 데이터 수집을 위한 사용 사례
- Customer 360 통합 프로필 생성: 고객 ID 및 특성에 대한 신뢰할 수 있는 단일 소스를 구축합니다.
- 규제 준수 데이터 집합 유지: 중요한 데이터에 대한 거버넌스, 계보, 감사 가능성을 적용합니다.
- 캠페인 오케스트레이션 중앙 집중화: 마케팅, 세일즈, 서비스가 모두 일관되고 신뢰할 수 있는 데이터 집합에서 작동하도록 합니다.
- 설계 관행
- 보관 보고 또는 정기 스냅샷 등 과거 또는 저 대기 허용 요구 사항에 대한 배치 수집을 추천합니다.
- CDC 또는 스트리밍 API를 사용하여 운영 및 개인 설정 워크플로를 최신 상태로 유지하여 실시간에 가까운 업데이트를 보장합니다.
- 비용 및 효율성을 최적화하기 위해 전체 데이터 집합을 다시 로드하는 대신 증분 로드를 적용하여 저장소 및 계산 성장을 제어합니다.
- 수집 파이프라인을 계산 로캘 및 증분 처리에 맞춰 네트워크 I/O를 줄입니다. Data 360 내에서 변환을 적용하여 불필요하게 원시 데이터를 이동하지 않도록 합니다.
- 비용 고려 사항
- 실시간 수집: 가장 높은 컴퓨팅 및 파이프라인 비용; 개인 설정, 운영 대시보드 또는 Agentforce 구동 작업과 같은 시간에 민감한 가치가 높은 워크플로에 적합합니다.
- 스트리밍 수집: 캠페인 오케스트레이션 또는 운영 보고와 같은 약간의 지연을 허용할 수 있는 자주 업데이트에 적합한 계산 및 저장 비용을 중재합니다.
- 배치 수집: 계산 비용 및 예측 가능한 저장소 절감 - 내역 데이터 집합 또는 저주량 업데이트에 가장 적합합니다. 특정 커넥터를 사용하여 Salesforce 조직에서 배치 데이터를 수집하는 것은 무료입니다.
- 새로 고침 모드: 증분 새로 고침 모드를 선택하면 총 수집 및 계산 비용이 절감됩니다. 가능한 경우 증분 새로 고침을 사용하여 모든 수집 유형 전반에서 효율성을 최적화하는 것이 좋습니다.
- 비용은 소스에서 Data 360으로의 I/O 용량에도 영향을 받습니다. 배치 크기, 파티션, 지역 정렬을 최적화하면 전송 비용이 절감되고 성능이 향상됩니다.
- 산업 시나리오
- 금융: 감사 가능성 및 규정 준수는 협상할 수 없는 고객 파악(KYC), AML(Anti Money Laundering) 및 사기 감지에 필요한 데이터 집합을 수집합니다.
- 헬스케어: 환자 ID 확인 및 HIPAA 준수 레코드에 수집을 사용하여 안전하고 통합된 보기를 활성화합니다.
- 소매: 세일즈 지점(POS), 전자상거래, 충성도 프로그램 데이터를 통합 프로필로 통합하여 세분화 및 개인 설정
- Telecom: 정규 관리형 구독자 데이터로 이탈 방지 및 사용량 분석을 지원합니다.
| 기능 | 실시간 수집 | 스트리밍 수집 | 배치 수집 |
|---|---|---|---|
| 지연성과 신선함 | 변경 데이터 수집(CDC)을 지원하는 수집 API를 통해 초과 대기 시간 수집 연속 스트리밍 파이프라인을 제공합니다. 대기 시간이 낮은 운영 사용 사례에 가장 적합합니다. | 네이티브 커넥터를 통해 1~3분마다 마이크로 배치 수집 증분 업데이트를 지원합니다. 약간의 대기 시간이 예상됩니다. | 데이터 대기 시간이 예상됩니다. 예약된 대용량 로드. 정기 수집(시간별, 매일, 매주). 시간이 많은 작업에 적합하지 않습니다. |
| 기본 사용 사례 | 대기 시간이 낮은 운영 및 개인 설정 사용 사례에 적합합니다. 시간이 중요한 워크플로에 사용됩니다. 이벤트 중심 워크플로를 지원합니다. 실시간 사기 경고 및 운영 경고에 사용됩니다. | 매우 긴급한 프로세스에 적합합니다. 캠페인 오케스트레이션, 실시간 참여, 운영 보고에 사용됩니다. 적시에 캠페인 트리거에 사용됩니다. | 대량 데이터 집합의 경우 비용 효율적입니다. 내역 분석을 신뢰할 수 있습니다. 내역 집계 또는 규제된 보고 워크플로에 사용됩니다. 내역 또는 저속 데이터 집합에 가장 적합합니다. |
| 아키텍처 복잡성 및 I/O | 비용이 많이 들고 복잡한 아키텍처입니다. 저 대기 시간 소스 시스템이 필요합니다. 입출력 집약적입니다. 대용량 소스는 포화 파이프라인을 야기할 수 있습니다. | 실시간보다 더 간단한 아키텍처입니다. 입출력은 보통입니다. 예측 가능한 반복 업데이트 패턴에 가장 적합합니다. 배치 크기는 메모리/계산에 영향을 미칩니다. | 구현하기 쉽습니다. 로드 기간 동안 I/O 집약성 네트워크 처리량은 대량 배치의 지체 지점이 될 수 있습니다. |
| 비용 고려 사항 | 가장 높은 계산 및 파이프라인 비용. 중요한 시간에 중요한 가치가 높은 워크플로에 대해서만 유효합니다. | 계산 및 저장소 비용을 중재합니다. 균형 잡힌 비용 및 새로 고침 대비 접근 방식을 제공합니다. 약간의 지연을 허용할 수 있는 자주 업데이트에 적합합니다. | 계산 비용 및 예측 가능한 저장소를 절감합니다. 내역 데이터 집합 또는 낮은 빈도 업데이트에 권장됩니다. Salesforce 내부 파이프라인을 통한 수집은 무료입니다. |
| 설계 관행 | 증분 CDC를 사용하여 데이터 섞기를 최소화합니다. 선택적 필드를 필터링하고 사용하여 오버헤드를 줄입니다. | 마이크로 배치를 사용하여 입출력 급증을 제어합니다. 프로세싱 부하를 줄이려면 윈도우가 포함된 집계를 고려하십시오. | 보관 보고 또는 정기 스냅샷의 경우 이 옵션을 사용하십시오. 비용을 최적화하기 위해 소스 저장소와 동일한 지역의 지역성을 계산하십시오. |
데이터 중복 없이 외부 시스템을 실시간으로 쿼리하려면 Zero Copy를 사용하여 대규모 또는 임시 데이터 집합에 대한 유연성, 새로 고침, 확장 가능한 액세스를 활성화합니다. 라이브 대시보드, 탐색 분석, AI/ML 모델 교육, Salesforce Data 360을 통해 직접 실시간 고객 참여에 가장 적합합니다.
Zero Copy를 사용할 경우 아키텍처는 사용 가능한 세 가지 데이터 연합 메서드를 추가로 결정해야 하며, 각각은 신선도, 성능, 비용 사이에 고유한 제약을 제공합니다.
- Live Query
- 데이터 중복 없이 외부 시스템(Snowflake, Google BigQuery, Redshift, Databricks 등)에 대해 직접 쿼리를 실행합니다.
- 조건자 및 집계를 푸시하여 네트워크를 통한 데이터 이동을 최소화하고 Salesforce Data 360 계산의 I/O를 줄일 때 최적화됩니다.
- 실시간 인사이트 및 대기 시간이 낮은 운영 대시보드에 가장 적합합니다. 외부 시스템의 성능에 따라 다릅니다.
- 캐싱(고속 쿼리)
- Salesforce Data 360에 연합 데이터의 캐시된 사본을 임시로 저장합니다.
- 구성 가능한 기간(분~일)으로 자주 액세스하는 데이터 집합에 대한 반복 쿼리 비용 및 대기 시간을 줄입니다.
- 데이터는 영구적으로 복사되거나 완전히 관리되지 않으며, 소스에서 예약된 새로 고침을 통해 최신 상태를 관리합니다.
- 파일 통합
- 개체 저장소의 대규모 데이터 집합에 대한 직접적인 읽기 전용 액세스 권한을 제공합니다(예: S3, GCS with Iceberg).
- 데이터를 이동하지 않고 AI/ML 워크로드, 내역 분석, 페타바이트 규모 보고에 가장 적합합니다.
- 쿼리 성능은 개체 형식, 분할, 네트워크 I/O에 크게 의존합니다. 최적화되지 않은 경우 대규모 스캔에서 상당한 I/O를 생성할 수 있습니다.
- 사용 사례
- 실시간 맞춤화 및 적응형 워크플로우: 고객 동작이 변화함에 따라 동적 제안, 권장 사항, 차선 조치를 제공합니다.
- 실시간 대시보드 및 운영 분석: 외부 웨어하우스에서 직접 비즈니스에 중요한 대시보드 및 KPI를 강화합니다.
- 대형 외부 데이터 세트를 사용하는 AI/ML 모델 교육: 파일 통합 이동하지 않고 데이터 레이크 및 창고에서 페타바이트 규모의 데이터를 활용합니다.
- 산업 시나리오
- 소매/미디어: 클릭스트림 또는 콘텐츠 상호 작용 데이터를 연합하여 맞춤형 권장 사항 및 실시간 고객 참여를 활성화합니다.
- 금융: 중요한 데이터를 복제하지 않고 외부 창고를 쿼리하여 사기 감지 및 위험 점수 매기기를 거의 실시간으로 실행합니다.
- Tech/Enterprise: 데이터 집합이 여러 시스템에 있는 클라우드 간 보고, IT 서비스 대시보드, 운영 분석을 지원합니다.
- 설계 관행
- Live Query
- 신선도가 중요할 경우 높은 QPS 및 낮은 대기 시간 쿼리에 사용합니다.
- 외부 시스템에 조건자 및 집계를 푸시하여 네트워크를 통한 데이터 교체를 줄입니다.
- 불필요하게 대용량 데이터를 스캔하는 쿼리를 피하십시오. 파티션 자르기 및 필터링을 고려하십시오.
- 파일 통합
- 수집하지 않고 개체 저장소에서 페타바이트 규모의 데이터 집합에 액세스합니다.
- Salesforce 계산과 동일한 클라우드 지역에 개체 저장소를 유지하여 대기 시간 및 탈퇴 비용을 최소화합니다.
- 분할된 열 형식(Parquet/ORC) 및 푸시다운 필터를 사용하여 입출력 및 네트워크 전송을 줄입니다.
- 쿼리 및 조건자 푸시다운을 활용하여 소스에서 데이터를 필터링하고 집계하여 데이터 이동을 줄입니다.
- 필요한 경우를 제외하고 I/O, 대기 시간, 비용이 증가하므로 지역 간 데이터 액세스를 방지하십시오.
- 캐싱(고속 쿼리)
- 자주 액세스하는 데이터 집합을 캐시하여 비용과 성능의 균형을 맞춥니다.
- 새로 고침 간격을 구성하여 새로 고침과 쿼리 비용의 균형을 맞춥니다.
- 규정 준수: 연합 시스템 내에서 직접 행 수준 보안(RLS) 및 마스킹 정책을 활용하여 소스에 관리를 적용합니다. 다음은 플랫폼 전반에서 균일한 RLS 및 마스킹에 대한 모범 사례입니다.
- 중앙 집중식 엔터프라이즈 ID 사용: Salesforce Data 360의 사용자 및 엔티티를 외부 시스템의 ID에 해당하는 고유한 중앙 집중식 엔터프라이즈 식별자에 매핑합니다.
- 보안 정책 조정: 매핑된 ID를 기반으로 연합 시스템의 행 수준 보안 및 마스킹 정책이 적용되는지 확인합니다. 이렇게 하면 외부 데이터를 쿼리할 때 규정 준수를 유지할 수 있습니다.
- ID 스키마 표준화: 모든 데이터 소스에서 일관된 ID 특성(이메일, 사용자 ID, 고객 ID 등)을 유지하여 불일치 및 액세스 위반을 방지합니다.
- Live Query
- 비용 고려 사항
- Live Query: Pay-per-query 모델 - 외부 레이크하우스 계산에 비용이 발생하고 QPS가 높은 경우 급증할 수 있습니다. 가치가 비용 변수보다 큰 신선도에 중요한 사용 사례에 가장 적합합니다.
- 고속 쿼리(캐싱): 소스 시스템에 대한 호출을 줄여 라이브 쿼리와 비교하여 쿼리 비용을 절감하지만 캐시 채우기 및 새로 고침에 대한 배치 데이터 수집 비용을 늘립니다. 자주 액세스하는 데이터 집합에 가장 적합합니다.
- 파일 통합: 개체 저장소에서 데이터로 저장하는 가장 저렴한 저장소 옵션이지만 쿼리 비용은 파일 크기, 분할, 축소에 따라 다릅니다. 페타바이트 규모의 내역 또는 대량 데이터에 가장 적합합니다.
| 결정 지점 | 라이브 쿼리 | 캐싱(가속 쿼리) | 파일 통합 |
|---|---|---|---|
| 데이터 소스 위치 | 외부 데이터 레이크하우스(Snowflake, Google BigQuery, Redshift, Databricks). | 외부 데이터 레이크하우스(Snowflake, Google BigQuery, Redshift, Databricks) | 개체 저장소 또는 클라우드 데이터 레이크(S3, ADLS, GCS)에서 Iceberg와 같은 열려 있는 테이블 형식을 사용하는 경우가 많습니다. |
| 용도/사용 사례 | 대화형 분석 및 실시간 대시보드에 이상적입니다. 실시간 개인 설정 및 동적 워크플로에 가장 적합합니다. | 쿼리가 자주 이루어지지만 결과가 약간 오래된 경우에 적합합니다. BI 대시보드 및 세분화에 적합합니다. | 대규모 배치 처리 및 AI/ML 모델 교육에 가장 적합합니다. 내역 분석 및 페타바이트 규모 보고에 적합합니다. |
| 신선도/대기 시간 | 최대한의 새로 고침, 쿼리가 실시간으로 직접 실행됩니다. 초과 결정을 지원합니다. | 약간 오래된 결과는 허용됩니다. 새로 고침은 캐시 간격에 따라 다르며 15분에서 7일 사이에 구성할 수 있습니다. | 처리량이 많은 배치 작업에 최적화됩니다. 실시간 대시보딩에 적합하지 않습니다. |
| 액세스 패턴 | 드물거나 특정 쿼리에 가장 적합합니다. QPS가 높은(초당 쿼리), 대기 시간이 낮은 쿼리에 대해 사용합니다. | 빈도가 높은 읽기 시나리오에 가장 적합합니다. 자주 사용하는 액세스 패턴에 대한 성능을 개선합니다. | 읽기 전용 액세스. 수집하지 않는 페타바이트 규모의 데이터 집합에 적합합니다. |
| 성능 드라이버 | 외부 소스 시스템의 성능에 크게 의존합니다. 조건자 및 집계를 소스로 푸시할 수 있는 경우 최적화됩니다. | 반복 실시간 쿼리와 비교하여 대기 시간을 줄입니다. 성능은 캐시 관리 및 간격에 따라 다릅니다. | 성능은 개체 형식, 파티션 분할 및 외부 시스템 처리량에 크게 의존합니다. 분할된 열 형식(Parquet/ORC)을 사용합니다. |
| 비용 영향 | 쿼리별 결제 모델. 외부 레이크하우스 계산에 따른 비용입니다. 자주 사용하지 않는 쿼리에 비용 효율적이지만, 초당 QPS(쿼리) 용량이 많은 경우 비용이 급증할 수 있습니다. | 반복 실시간 쿼리보다 비용이 낮습니다. 외부 소스를 반복적으로 쿼리할 필요가 줄어듭니다. 캐시 저장소 및 새로 고침 오버헤드를 추가합니다. | 가장 저렴한 저장소 옵션입니다. 쿼리 비용은 파일 크기 및 분할에 따라 다릅니다. |
| 핵심 고려 사항 | 불필요하게 대량의 데이터를 스캔하는 필터링되지 않은 쿼리를 피하십시오. | 캐시 관리가 필요합니다. 초과 결정에는 적합하지 않습니다. | 쿼리 성능은 분할 및 조건자 푸시다운을 통한 최적화에 크게 의존합니다. |
하이브리드 아키텍처를 사용하면 아키텍처가 Data 360에서 중요 데이터 집합을 앵커링하여 중앙 집중식 관리를 수행하고 연합 쿼리를 활용하여 대규모 외부 데이터 집합에 대한 신선함, 중복을 줄이고 확장 가능한 액세스를 할 수 있습니다. 이 접근 방식은 입출력, 현지, 비용, 규정 준수 요구 사항의 균형을 맞춥니다.
데이터 수집 및 복제 제로를 결합하여 실시간 실행 가능한 인사이트를 제공하여 균형 잡힌 거버넌스, 신선함, 운영 효율성을 위해 하이브리드 접근 방식을 사용합니다. 추적 가능성, RLS, 마스킹이 필요한 규제된 가치가 높은 데이터 집합에 대한 수집을 사용하고, 신속성 및 성능이 중요한 임시 또는 대용량 데이터 집합에 대한 연합을 사용합니다.
- 사용 사례
- 옴니채널 참여: 내역 고객 데이터를 실시간 동작과 결합하여 상황에 맞는 일관된 환경을 제공합니다.
- AI/ML 파이프라인: 선별된 정규 데이터 집합에서 모델을 교육하고 외부 소스의 원시 또는 실시간 신호로 보강합니다.
- 조합 규정 준수 및 민첩성 요구 사항: 중요한 데이터에 엄격한 관리를 적용하지만 운영 유연성을 위해 연합을 적용합니다.
- 산업 시나리오
- 소매: ID 확인 및 프로필 통합에 수집을 사용하고 실시간 제안 및 개인 설정을 위해 연합합니다.
- 헬스케어: 수집을 통해 금형 환자 레코드를 유지하면서 즉각적인 컨텍스트를 위해 IoT 장치 스트림 및 센서 데이터를 연합합니다.
- 재무 서비스: 규제된 데이터를 규정 준수 관리 레이크에 수집하고 사기 감지 및 위험 모니터링을 위해 외부 쿼리를 연합합니다.
- 설계 관행
- ** 수집을 통한 앵커 거버넌스:** 높은 가치 또는 규제된 데이터를 정규 모델로 수집하여 Trust 및 규정 준수를 보장합니다.
- 신선을 위한 연합 사용: 외부 레이크하우스에서 중복 없이 실시간 또는 대규모 데이터 액세스를 제공할 수 있습니다.
- 잔액 비용 vs. 성능: 프로필 워크로드를 통해 수집할 항목과 연합을 결정하여 불필요한 저장소 또는 쿼리 비용을 최소화합니다.
- 계층형 거버넌스 적용: 연합 시스템의 자체 보안 제어(예: RLS, 마스킹)를 활용하면서 수집된 데이터에 중앙 집중식 관리를 적용합니다.
- 하이브리드 파이프라인을 설계할 때 내역 데이터 집합을 증분적으로 수집하고 연합 소스에 집계 또는 필터를 푸시하여 입출력 및 계산 사용을 최적화합니다.
- 비용 고려 사항
- 새로운 기능이 필요한 경우 규정 준수 또는 중요 데이터 수집과 연합을 결합하여 총 비용 대비 성능을 최적화합니다.
- 수집 및 연합을 혼합할 때 입출력 및 계산 분포를 고려합니다. 반복 쿼리의 소스 시스템에서 계산 비용을 줄이려면 자주 액세스하는 읽기가 많은 연합 데이터 집합에 캐싱(가속 쿼리)을 사용합니다.
다음은 이 논리를 적용하는 방법을 보여주는 일반적인 원형입니다.
- "단일 진리의 근원" 아치타입: 중앙 집중화 및 거버넌스
- 시나리오: 전체 글로벌 엔터프라이즈에 대해 규정 준수 및 통합 Customer 360 프로필을 작성해야 합니다. 데이터는 다양한 시스템에서 가져오며 엄격한 GDPR 및 CCPA 규정을 준수해야 하며 모든 마케팅 및 서비스 상호 작용을 위한 신뢰할 수 있는 소스로 제공됩니다.
- 권장 패턴: 데이터 수집. 우선 순위는 지배, Trust 및 통제입니다. 데이터를 Data 360에 수집하면 소스 시스템에서 격리되는 완전히 감사 가능한 정규 프로필을 만들 수 있습니다.
- "실시간 인사이트" 아키타입: 이동하지 않고 분석
- 시나리오: 데이터 과학 팀은 Snowflake의 대규모 지속적으로 업데이트되는 트랜잭션 테이블에서 탐색 쿼리를 실행해야 합니다. 동시에 경영진은 동일한 데이터를 기반으로 하는 실시간 BI 대시보드를 원합니다. 페타바이트의 데이터를 매일 이동하는 작업은 너무 느리고 비싸습니다.
- 권장 패턴: Zero Copy Federation. 우선 순위는 속도, 민첩성, 대규모 비용 효율성입니다. Zero Copy를 사용하면 데이터 중복의 오버헤드 및 대기 시간 없이 기존 데이터 웨어하우스의 엄청난 기능을 실시간 쿼리할 수 있습니다.
- "하이브리드 인텔리전스" 아키타입: 핵심 관리, 극단화
- 시나리오: 데이터 레이크의 실시간 동작 신호(예: 웹 사이트 클릭)를 사용하여 관리되고 수집된 고객 프로필을 보강하려는 경우 핵심 프로필의 안정성이 필요하지만 실시간 데이터의 즉각성이 필요하면 즉각적인 개인 설정이 가능합니다.
- 권장 패턴: 하이브리드 접근법. 데이터 수집을 사용하여 고객 데이터의 안정적이고 관리되는 핵심을 만듭니다. 그런 다음, Zero Copy를 사용하여 변동성이 높은 실시간 "Edge" 데이터를 연합하고 쿼리 시간에 조인하여 완전한 즉시 보기를 제공합니다.
엔터프라이즈 데이터 전략은 단일 통합 패턴을 선택하는 것이 아니라 상호 운용 가능한 데이터 에코시스템 내에서 유연성을 제어하는 아키텍처를 구성하는 것입니다. 비즈니스 요구를 기반으로 각 소스 데이터 시스템에 적합한 데이터 통합 방법을 선택하면 데이터 수집 및 데이터 연합의 강점 모두를 결합하는 하이브리드 접근 방식으로 이어집니다.
- 규정 준수, ID 확인, 운영 워크플로를 위해 임무에 중요한 관리 데이터 집합을 Salesforce Data 360에 수집합니다.
- 스토리지를 복제하지 않고 실시간, 탐색, AI 기반 분석을 위해 Zero Copy를 통해 데이터를 통합합니다.
Hyperforce Salesforce Data 360은 다중 지역의 복원성과 확장성을 제공합니다. 아이스베거 테이블이 있는 개방형 레이크하우스를 사용하면 Snowflake, Databricks, S3 아이스베거와 같은 플랫폼과의 계산 분리 및 상호 운용성이 가능해 진정으로 상호 운용 가능한 멀티 클라우드 데이터 에코시스템의 기반을 형성할 수 있습니다.
데이터 에코시스템이 발전함에 따라 신선성, 비용, 성능, 규정 준수의 균형을 지속적으로 유지하여 아키텍처 유연성을 유지합니다. 통합 액세스 권한을 사용하여 수집된 관리 데이터를 통합하여 플랫폼을 향상시킵니다. 이를 통해 클라우드, 지역, 비즈니스 도메인 전반에서 실시간 인텔리전스, AI 활성화, 엔터프라이즈 규모 개인 설정이 가능합니다.
모든 규모를 충족하는 솔루션은 대부분의 비즈니스에 적합하지 않습니다. 최적의 전략은 올바른 패턴을 올바른 비즈니스 동인에게 매핑합니다.
Yugandhar Bora는 데이터 및 인텔리전스 응용 프로그램 플랫폼 내 데이터 아키텍처를 전문으로 하는 Salesforce의 소프트웨어 엔지니어링 아키텍처입니다. 그는 데이터 거버넌스 및 통합 데이터 모델에 초점을 맞춘 EARB(Enterprise Architecture Review Board) 이니셔티브를 이끌고 자동화된 플랫폼 프로비저닝 솔루션에 기여합니다.
Jan Fernando는 Salesforce의 치프 아키텍처 사무실의 주 아키텍처입니다. 그는 2012년에 Salesforce에 합류하여 스타트업 생태계에서의 풍부한 경험을 얻었습니다. CFO 사무실에 합류하기 전에 플랫폼 조직에서 10년 이상 근무하여 몇 가지 핵심 기술 전환을 이끌었습니다.