Arquitectura de Data 360 | Integración y Data 360 | Fundamentos

Las plataformas de datos han evolucionado durante más de tres décadas. Inicialmente, la industria estaba dominada por bases de datos operativas/OLTP locales, centralizadas y estructuradas (principalmente relacionales). Esto se amplió para incluir almacenes de datos plataformas OLAP/Big Data que se utilizaron principalmente para el procesamiento analítico y permanecieron relacionales y centralizadas. El almacenamiento en la nube impulsó arquitecturas distribuidas como almacenes de datos, lagos y almacenamiento desglosado. Sin embargo, las plataformas de operaciones y las plataformas analíticas permanecieron separadas. Hoy en día, la computación en nube y la revolución de la IA están cambiando fundamentalmente la arquitectura de la plataforma de datos.

Las compañías ya invierten en plataformas de Big Data maduras como Snowflake, Databricks, BigQuery y Redshift. Pero estas plataformas sirven como silos de datos. Los clientes no están derivando valor de negocio de sus datos porque no se puede actuar sobre los datos directamente dentro de los flujos de negocio y las aplicaciones. Estas soluciones carecen de procesamiento de IA generativa de Agentes y no pueden entregar acceso a datos en tiempo real, de modo que no pueden entregar personalización dirigida por IA en el momento de la implicación del cliente y otras funciones líderes de la industria.

El futuro de las plataformas de datos se caracteriza por una infraestructura de datos unificada, flexible, accesible y abierta. Esta nueva arquitectura está construida sobre tendencias de computación y almacenamiento modernas (GPU, gran memoria, SSD de NVMe y almacenamiento en la nube) para integrarse con la computación en la nube y la IA. Pueden entregar perspectivas en tiempo real, potenciar la toma de decisiones autónoma e impulsar aplicaciones en tiempo real. Esto incluye el aumento de la IA de agentes, la IA predictiva, los análisis, las bases de datos OLTP de alta escala en tiempo real, los lagos de datos y los lagos. Estas modernas plataformas de datos están diseñadas para la sencillez, escalabilidad, agilidad, desempeño, seguridad, disponibilidad y eficiencia de costos.

Las siguientes tendencias de datos dirigen la arquitectura de plataforma de datos de próxima generación.

IA, aprendizaje automático y Analytics en el núcleo: El aumento de la IA de Agentes cambiará fundamentalmente el desarrollo, la implementación y el uso/acceso de la plataforma de datos. La IA agente comprenderá la intención de plática/consulta, planificará, generará flujos de trabajo y automatizará la toma de decisiones. La memoria agente (a corto y largo plazo) está construida a partir del historial de pláticas para personalizar la planificación y las decisiones de los agentes, el modelado de pláticas en tiempo real y la asistencia de personalización crítica en plataformas de datos. Los agentes ayudarán a automatizar “capacidades” operativas como la gobernanza de datos (por ejemplo, seguridad, cumplimiento, Trust), desempeño (por ejemplo, escalado automático para concurrencia, rendimiento y latencia), conmutación por error y disponibilidad, observabilidad y mantenimiento. Análisis con tecnología de IA, pronósticos, procesamiento de lenguaje natural (NLP) para preguntas/respuestas de análisis y análisis en datos no estructurados (texto como PDF, imágenes, audio, video) serán estándar, permitiendo a las compañías obtener perspectivas más profundas desde diversos orígenes de datos.
Descentralización de datos pero acceso a datos unificado: Los agentes necesitan datos de compañía para derivar perspectivas y tomar decisiones, así como para automatizar actividades de negocio. Los datos están inherentemente descentralizados en las compañías, en aplicaciones y plataformas de datos dispares. Pero no es fácil unificar los silos de forma transparente entre diferentes unidades de negocio dentro de la compañía y con socios fuera de la compañía. La unificación de datos implica el uso compartido de datos, ya sea a través del ingreso desde orígenes o la federación con orígenes de datos; datos sin procesar desde la preparación, Armonización y modelado de datos para el procesamiento analítico y de IA; almacenamiento y gestión de datos a escala para un acceso eficiente con CTS bajo; y acceso a datos a través de varios mecanismos y herramientas de consulta y análisis, profundamente integrados con las plataformas de almacenamiento y acceso a datos subyacentes
Casas de campo abiertas basadas en la nube: Las plataformas de Big Data basadas en la nube (OLAP) están convergiendo en la adopción de formatos de archivo abiertos (Parquet) y formatos de tabla (Iceberg) que permiten la federación de datos (entrada de datos) y la colaboración (salida de datos).
Procesamiento de datos no estructurado: Con la aparición, el avance y la adopción de la IA generativa, las empresas están empezando a obtener perspectivas valiosas y valor de negocio a partir del corpus de datos de la compañía que constituyen grandes volúmenes de documentos de texto, transcripciones de audio, grabaciones de video y otros medios. El procesamiento de datos no estructurado, incluyendo fragmentación, vectorización, búsqueda semántica y gráficos Knowledge, hacen posible estas perspectivas. Técnicas como RAG (generación aumentada de recuperación) y CAG (generación aumentada de caché) se están convirtiendo en controladores principales de búsqueda rápida y agente en el corpus de datos.
Knowledge Management: Knowledge va más allá del contenido sin procesar en sí (documentos, artículos, videos). Representa el aumento de ese contenido derivando significado, depurando metadatos y colocándolos en contexto para desarrollar una comprensión compartida del contenido en una organización o compañía. Knowledge está estructurado de forma general. Knowledge management implica gestión de contenido, extracción Knowledge, representación a través de modelos como gráficos y navegación.
Acceso a datos enriquecido: Acceso a datos enriquecido significa que las herramientas de datos, análisis e IA deben ser accesibles para una variedad de personas incluyendo usuarios finales, usuarios de negocio, administradores y analistas. La accesibilidad se logra a través de mecanismos como la consulta de conjunto (con consulta relacional, de palabra clave y semántica), la consulta de lenguaje natural a SQL (NL2SQL), el acceso en tiempo real, etc.
Procesamiento en tiempo real: Las aplicaciones agentes toman decisiones en tiempo real basándose en el estado actual y en nuevos eventos, personalizando respuestas y acciones, lo que requiere acceder, procesar y actuar sobre datos en tiempo real. El procesamiento en tiempo real requiere datos actualizados (latencia de datos) y acceso interactivo (latencia de acceso). Estos datos y la latencia de acceso requieren que la plataforma de datos subyacente admita el acceso a datos actualizado desde establecimientos operativos y analíticos, el procesamiento de acceso de baja latencia (búsquedas y consultas de puntos), la alta escala de datos y el alto rendimiento.
Seguridad, gobernanza y residencia de datos: La IA conversacional y agente simplifica la interfaz de usuario de la aplicación, permitiendo a cualquiera, desde consumidores a empleados y otros agentes de IA, interactuar con aplicaciones conversacionalmente utilizando lenguaje natural hablado o escrito. Los valiosos datos personales y de clientes que deben almacenarse y modelarse para aplicaciones Agentic deben protegerse y gobernarse con políticas de acceso y colaboración bien definidas. Cada vez más, muchos clientes deben cumplir con las leyes que requieren la residencia de datos en su propio país o región, especialmente aquellos en el gobierno o que trabajan con gobiernos.

Salesforce Data 360 está diseñado para el futuro abordando estas tendencias de datos. Data 360 es una plataforma de datos nativa de la nube dirigida por metadatos que unifica datos en silos en toda la compañía, permitiendo a las organizaciones almacenar, modelar y procesar sus datos para activar aplicaciones de análisis, IA, aprendizaje automático y Agentes.

Este documento es una guía esencial para arquitectos de negocio y CTO. Detalla la arquitectura, las funciones, los principios de diseño y los casos de uso de Data 360. Presenta los fundamentos de la arquitectura de Data 360 como un iniciador, seguido de una serie de profundizaciones en sus diferenciadores clave como la interoperabilidad con plataformas de datos existentes, incluyendo estrategia de múltiples organizaciones, seguridad, gobernanza y privacidad, activación en tiempo real y Salas blancas de datos.

Salesforce Data 360 está diseñado en torno a un conjunto principal de principios que hacen que los datos de compañía sean operativos, de confianza y en tiempo real.

Apertura e interoperabilidad: Construido para ecosistemas de múltiples nubes. Se federa con plataformas de datos como Snowflake, Databricks, BigQuery y Redshift sin duplicación, ampliando Customer 360 preservando al mismo tiempo las inversiones existentes.
Separación de almacenamiento-cálculo: Amplia el almacenamiento y el procesamiento (por lotes, transmisión e interactivo) de forma independiente. Ofrece elasticidad y eficiencia para cargas de trabajo de alto volumen y alto desempeño.
Almacenamiento y procesamiento de múltiples modelos: Admite varios tipos de datos estructurados y no estructurados como texto, audio de imagen y video. Proporciona almacenamiento eficiente, procesamiento en tiempo real y por lotes, indexado ampliable, búsqueda, consulta y análisis unificados.
Diseño dirigido por metadatos: Las aplicaciones se definen por metadatos en vez de por código. Los metadatos se tratan como un activo de primera clase, lo que permite una gobernanza unificada, flexibilidad e integración profunda en Salesforce Platform.
Procesamiento híbrido en tiempo real: Admite consultas de baja latencia y toma de decisiones instantánea, junto con procesamiento por lotes y cargas de trabajo analíticas.
Datos inteligentes y activos: Ingresa, analiza y distribuye continuamente perspectivas directamente en flujos de trabajo de negocio. Potencia la automatización sin código, de código bajo, procódigo y dirigida por IA con el contexto más actual.
Gobierno y privacidad por diseño: Linaje, control de acceso, residencia, cifrado de datos y cumplimiento están integrados. Trust y confianza regulatoria se refuerzan en cada nivel.
Arrendamiento de uno a varios: Una organización de Data 360 centralizada sirve como la única fuente de la verdad para Customer 360, admitiendo sin problemas entornos de Salesforce de múltiples organizaciones ampliamente utilizados por clientes de Salesforce.

Estos principios garantizan que Data 360 hace que los datos sean abiertos, inteligentes y con capacidad de acción en tiempo real.

Salesforce Data 360 es una plataforma de datos moderna construida sobre principios de diseño que abordan tendencias de datos actuales. Sus funciones de arquitectura garantizan que los datos de la compañía sean de confianza, unificados y con capacidad de acción en tiempo real, en sintonía con sus principios rectores.

Cloud-Native Foundation: Se ejecuta en Hyperforce, implementado en Hyperscalers (como AWS), con infraestructura inmutable basada en microservicios. Proporciona ampliación elástica, seguridad de confianza cero, entrega continua y cumplimiento global.
Metadatos dirigidos por Salesforce (principal): Los metadatos se diseñan, modelan y almacenan como metadatos de Salesforce permitiendo el uso inmediato por TODAS las aplicaciones de Salesforce. Dichos metadatos se almacenan en un RDBMS que cumple completamente ACID. Garantiza la gobernanza, la coherencia del ciclo de vida y la integración profunda con Salesforce Lightning Platform.
Almacenamiento de Lakehouse: Construido sobre Apache Iceberg y Parquet, combinando la escala de lago de datos con la regulación de almacén que admite la evolución de esquemas, desplazamientos en el tiempo y actualizaciones de gran volumen. Data 360 almacena, modela y procesa datos estructurados y no estructurados con almacenamiento a escala extrema con estándares abiertos modernos y con funciones de procesamiento de datos y transformación enriquecidas para cargas de trabajo dirigidas por lotes y eventos.
Oportunidades en curso de datos de extremo a extremo con ingreso flexible: Cubre el ciclo de vida completo (ingrese, prepare, modele, unifique, analice y active), reduciendo la dependencia de soluciones de puntos fragmentadas. Admite lotes, casi en tiempo real y transmisión con más de 270 conectores y MuleSoft. El enfoque ELT-first permite una disponibilidad de datos rápida con flexibilidad de transformación descendente.
Interoperabilidad de datos de compañía con marcos de trabajo abiertos y federación: Unifica datos de silos en toda la compañía con federación bidireccional Cero copia con Snowflake, Databricks, BigQuery y Redshift evitando la migración o duplicación de datos.
Clasificación, modelado y organización de datos: Data 360 organiza los datos como datos ingresados sin procesar, datos limpios y almacenados y datos modelados de acuerdo con el esquema de información común conocido como SSOT (Fuente de verdad única). Dichos objetos SSOT forman la base para definir modelos de datos semánticos (SDM) y otros modelos depurados y específicos de la aplicación.
Modelado de datos semánticos integrado para análisis ampliables con API de consulta semántica abiertas, dirigiendo Tableau Next y activando análisis específicos de la aplicación.
Motor de consultas SQL de alto desempeño compatible con una consulta SQL de Data 360 unificada entre datos estructurados, no estructurados y gráficos.
Almacenes de datos de baja latencia: Almacenamiento de valores clave para datos en caliente con tiempos de respuesta de milisegundos. Activa la personalización y los escenarios dirigidos por eventos en tiempo real. Recopila y procesa datos de implicación de clientes en tiempo real. Unifica identidades, interacciones y pláticas en un único gráfico de perfil y contexto de Customer 360 de confianza.
Oportunidades en curso de procesamiento de datos no estructuradas para una compatibilidad flexible y ampliable con almacenamiento de datos no estructurados, fragmentación, generación de integración (vectorización), extracción de metadatos (aumento), resumen, indexación, extracción de Knowledge, procesamiento de documentos inteligente, creación de memoria a corto y largo plazo (conversación), etc.
Palabra clave nativa, Vector e Indexado híbrido para un acceso de datos no estructurado preciso y eficiente como búsqueda rápida y agente, RAG, extracción Knowledge, derivación de memoria agente, etc.
Servicios Perfil, Personalización, Contexto para la activación de aplicaciones AI/ML y Agentes.
Gobierno y seguridad integrados en cada capa para el seguimiento del linaje, el enmascaramiento de datos, la residencia de datos y la seguridad de confianza cero garantizando el cumplimiento y Trust.
Tela de computación elástica: Tela de computación nativa de Kubernetes con múltiples arrendatarios. Ejecuta Spark para procesamiento distribuido e Hyper para cargas de trabajo de SQL. Se amplía elásticamente entre diversos trabajos y admite el aislamiento para la ejecución de código no de confianza.

Todo esto se ejecuta en Hyperforce, la base de Salesforce en la nube. Hyperforce proporciona:

Seguridad Zero Trust con políticas de cifrado, aislamiento y menos privilegios.
Resistencia a través de implementaciones de múltiples regiones. Aunque Salesforce Data 360 se beneficia de la resistencia de múltiples regiones de Hyperforce y la tolerancia a fallos a nivel de plataforma, la verdadera recuperación de desastres (DR) de nivel de compañía demanda una arquitectura más amplia similar a cualquier plataforma de datos con funciones clave: oportunidades en curso de ingreso reproducibles, replicación y rehidratación dirigida por metadatos entre todos los ecosistemas dependientes.
Observabilidad con monitoreo, mediciones y rastreo integrados.
Escala automatizada y conciencia de FinOps para la eficiencia sin desbordamiento de costos.

Data 360 no sustituye las inversiones de compañía existentes. En su lugar, Data 360 hace que los datos que ya tiene sean de confianza, gobernados y con capacidad de acción, proporcionando implicación en tiempo real dirigida por IA donde más importa. En resumen, Salesforce convierte todos los datos de compañía incluyendo datos externos como objetos dirigidos por metadatos (de Salesforce) y activa aplicaciones Agente para el descubrimiento, la toma de decisiones y la realización de acciones.

La siguiente figura ilustra la Arquitectura de referencia de Data 360:

Data 360 Reference Architecture: diseño por capas que unifica, gobierna y activa datos en toda la compañía

Consideremos un hipotético Agentforce Loan Agent en capas sobre Data 360 para describir un flujo de arquitectura de ejemplo. Supongamos que el Agente de préstamos es un agente de cara al cliente donde los clientes (consumidores) solicitan préstamos y obtienen aprobaciones de préstamos instantáneas.

Data 360 realiza estos pasos según lo programado, preparando datos para su uso por el Agente de préstamos.

Data 360 ingresa datos de Cuenta de cliente estructurados desde CRM y los almacena en el lago de datos.
Data 360 procesa datos de política financiera y préstamo de compañía no estructurados.
Data 360 federa datos personales desde una fuente de datos externa como Snowflake.
Data 360 transforma y modela datos ingresados y federados.
Data 360 crea y mantiene el gráfico de datos de perfil.

Cada vez que un cliente solicita un préstamo, se realizan estas acciones.

Un cliente inicia sesión en el Agente de préstamos, que inicia una sesión de cliente en la capa en tiempo real. El perfil unificado del cliente se extrae en la capa en tiempo real.
El cliente completa una solicitud de préstamo proporcionando la información requerida.
El cliente carga documentos financieros (como devoluciones de impuestos, inversiones, extractos bancarios) en Data 360 para el procesamiento de datos no estructurado.
Los datos cargados se fragmentan y vectorizan (generación de incrustación) y se crean índices (palabra clave y vector).
A continuación, el cliente rellena el documento de solicitud de préstamo y lo carga. Data 360 extrae el importe y la duración del préstamo en tiempo real.
El Agente de préstamos recupera datos financieros relevantes utilizando la consulta Data 360 y la búsqueda híbrida sobre el perfil y otros índices precreados.
El Agente de préstamos activa un Agente de aprobación con datos de préstamos y otros datos de perfil financiero para tomar la decisión de aprobación de préstamos.
El Agente de préstamos responde al cliente con una decisión.
Esta interacción completa entre el cliente y el Agente de préstamos también se captura y se almacena en Data 360.

El ejemplo anterior proporciona una descripción general de componentes de arquitectura de Data 360 utilizados para crear una aplicación Agente como un Agente de préstamos. En la siguiente sección describimos los componentes y las capas de arquitectura de Data 360.

En esta sección, profundizaremos en los elementos constructivos fundamentales de Salesforce Data 360, comenzando con su sólido modelo de almacenamiento y explorando posteriormente los mecanismos para conectar, ingresar y preparar datos. Luego examinaremos cómo se almacenan, modelan y procesan los datos estructurados y no estructurados, lo que culmina en una comprensión de sus funciones de Armonización, Unificación, Recuperación y Activación inteligente.

Salesforce Data 360 se basa en un modelo de almacenamiento por niveles pero integrado que combina los puntos fuertes de un lago con almacenamiento en tiempo real. La capa de lago proporciona almacenamiento escalable y rentable para grandes volúmenes de datos históricos y por lotes, permitiendo análisis avanzados y casos de uso de aprendizaje automático. El almacenamiento en tiempo real, por otro lado, está optimizado para el acceso de baja latencia y actualizaciones de alta frecuencia, garantizando que las interacciones, los perfiles y las señales de implicación de los clientes estén siempre actualizados. Juntos, estos niveles funcionan a la perfección, permitiendo que los datos se muevan de forma fluida entre contextos históricos y en tiempo real, proporcionando profundidad e inmediatez en una base de datos unificada para la personalización, la IA y la activación.

Data 360 cuenta con una arquitectura de lago nativa basada en Iceberg/Parquet, diseñada para gestionar la gestión y el procesamiento de datos a gran escala para escenarios por lotes, de transmisión y en tiempo real que admiten datos estructurados y no estructurados, cruciales para aplicaciones de IA y análisis.

En lagos de datos basados en la nube como Azure, AWS o GCP, la unidad de almacenamiento fundamental es un archivo, normalmente organizado en carpetas y jerarquías. Lakehouse mejora esta estructura introduciendo abstracciones estructurales y semánticas de nivel superior para facilitar operaciones como consultas y procesamiento de IA/ML. La abstracción principal es una tabla con metadatos que define su estructura y semántica, incorporando elementos de proyectos de código abierto como Iceberg o Delta Lake, con capas semánticas adicionales agregadas por Data 360.

Diagrama de capas de abstracción de lago de Data 360

Capas de abstracción en Lakehouse:

Abstracción de archivos Parquet: En la base, el almacenamiento consta de archivos de lago de datos (por ejemplo, S3 en AWS o Blob en Azure) en formato Parquet. Los datos para una tabla de origen se almacenan entre múltiples particiones como archivos Parquet, siendo cada tabla una recopilación de estos archivos.
Abstracción de tabla Iceberg: Las tablas están organizadas como carpetas, con particiones de datos almacenadas como archivos Parquet en estas carpetas. Las modificaciones en una partición dan como resultado nuevos archivos Parquet como instantáneas. Iceberg gestiona un archivo de metadatos para cada tabla, detallando esquemas, especificaciones de particiones e instantáneas.
Abstracción de tablas de Salesforce Cloud: Basándose en Iceberg, esta capa agrega metadatos semánticos como nombres de columna y relaciones, junto con configuraciones como tamaño de archivo de destino y compresión. Abstrae tablas entre varias plataformas como Snowflake y Databricks, protegiendo aplicaciones de Data 360 de especificaciones de plataforma de almacenamiento subyacentes.
Biblioteca de acceso: a lago Esta biblioteca proporciona acceso a la Tabla de Salesforce Cloud, gestionando datos y metadatos, y resume los mecanismos de almacenamiento subyacentes para desarrolladores de aplicaciones.
Extracción de Big Data Service: Esto incluye marcos de trabajo de procesamiento como Hyper para consultas y Spark para el procesamiento en cualquier plataforma de tabla de nube.

Para dar cobertura a aplicaciones de análisis y agentes en tiempo real, Data 360 aumenta el almacenamiento de Big Data de Lakehouse con Establecimiento de baja latencia. Capa en tiempo real de Data 360 procesa señales en tiempo real y datos de implicación en memoria. Sin embargo, dado que la capacidad de almacenamiento basado en memoria es limitada, todos los datos no pueden ajustarse y el procesamiento podría no realizarse en tiempo real. Data 360 agrega un establecimiento de baja latencia (LLS) para eliminar dichas limitaciones, permitiendo el procesamiento en tiempo real ampliable.

El establecimiento de baja latencia es una capa de almacenamiento NVMe (SSD) a escala de petabytes en Lakehouse. No todos los datos deben mantenerse en el establecimiento de baja latencia. Es una caché duradera. La mayoría de los datos llegan finalmente a Lakehouse para la persistencia a largo plazo. Los datos en sesión en la capa en tiempo real se pueden enjuagar al establecimiento de baja latencia para un acceso rápido posterior. Por ejemplo, en una plática de agente, los mensajes recientes se pueden procesar en memoria; los mensajes antiguos se pueden enjuagar en el establecimiento de baja latencia. Si se requiere una plática anterior, se puede acceder a ella en unos milisegundos desde el establecimiento de baja latencia. El almacenamiento basado en NVMe permite almacenar grandes cantidades de datos y acceder a ellos en latencias de milisegundos. Los datos pueden llegar al almacenamiento de Lakehouse Cloud para la persistencia a largo plazo. Además, los datos de Lakehouse requeridos para el procesamiento en tiempo real o para aumentar experiencias en tiempo real se obtienen y se mantienen en el almacén de baja latencia. Por ejemplo, Contexto de perfil de cliente se obtiene previamente o se trae desde Lakehouse y se almacena en caché en el establecimiento de baja latencia. Del mismo modo, cualquier objeto de lago y otros objetos requeridos para el procesamiento en tiempo real durante el procesamiento en sesión también se pueden almacenar en caché en el establecimiento de baja latencia.

Almacén de baja latencia de Data 360 activa la capa Temporizador real en una verdadera jerarquía de almacenamiento con capas de almacenamiento Lakehouse de memoria (SSD), con datos que migran sin problemas entre estas capas. Tratamos la capa Tiempo real de Data 360 más adelante en este documento.

Salesforce Data 360 está diseñado para estandarizar, armonizar y activar todos los datos de clientes (estructurados y no estructurados) siguiendo un ciclo de vida riguroso que transforma la entrada sin procesar en un modelo de datos actual unificado.

El ciclo de vida se centra en tomar varias entradas de datos externos y estructurarlas en objetos modelados persistentes. Los datos modelados se pueden armonizar en perfiles unificados Customer 360.

Datos ingresados sin procesar y transformaciones iniciales

El proceso comienza con datos sin procesar ingresados tal cual desde sistemas de origen (CRM, Marketing, archivos, etc.). Esto incluye cargas de datos completas y eventos de cambio continuo (deltas), que se gestionan y combinan con datos persistentes para mantener un estado actual.

Las transformaciones en línea (por ejemplo, recortar, normalizar, concatenar) se aplican inmediatamente durante el ingreso para garantizar la calidad y limpieza preliminar de los datos.

Objetos de lago de datos (DLO): La capa persistente

Los DLO (Objetos de lago de datos) forman la capa de almacenamiento persistente principal en Data 360. Almacenan los datos limpios y transformados y sirven como el repositorio organizado a largo plazo para toda la información del cliente.

Las transformaciones de datos avanzadas (por ejemplo, uniones, agregaciones, perspectivas calculadas) se aplican a los DLO de origen para producir nuevos DLO derivados altamente depurados.

Los datos que están disponibles a través de Federación de datos de copia cero se representan directamente como DLO.

Organización de metadatos y datos no estructurados

Para contenido no estructurado (como texto, medios, documentos), Data 360 incorpora los datos extrayendo y manteniendo sus metadatos estructurados en DLO específicos denominados Objetos de lago de datos no estructurados (UDLO).

Estos DLO especializados funcionan como tablas de directorios, proporcionando un mapa a la ubicación física y el contexto de los activos no estructurados. Esta función permite a los arquitectos relacionar de forma transparente los metadatos de datos no estructurados con el resto de los datos de clientes estructurados, lo que permite la consulta y Armonización unificadas.

Objetos de modelo de datos (DMO): La capa armonizada

Los DMO (Objetos de modelo de datos) representan la capa de datos final, armonizada y estructurada.

Se crean asignando campos de DLO (desde DLO de metadatos de origen, derivados y no estructurados) al modelo de datos estándar Customer 360.

La capa de DMO actúa como la única fuente de confianza para todos los datos de clientes, permitiendo la creación, segmentación y activación de perfiles unificados en el ecosistema más amplio.

Un espacio de datos es el contenedor lógico fundamental para organizar todos los datos y metadatos en Data 360, incluyendo todos los DLO (estructurados y no estructurados) y DMO. Los espacios de datos ofrecen un entorno seguro y aislado para el procesamiento y modelado de datos.

Los espacios de datos actúan como límites lógicos y de gobernanza, permitiendo el multiarrendamiento interno separando datos para distintas entidades como unidades de negocio, regiones o marcas, manteniendo al mismo tiempo la visibilidad, el linaje y el cumplimiento de toda la compañía, sirviendo como la base para definir el control de acceso de grano grueso.

El aislamiento en espacios de datos se aplica en múltiples capas de la plataforma:

Aislamiento a nivel de datos: Cada DLO/DMO pertenece a un único espacio de datos, garantizando que las consultas, transformaciones y asignaciones de objetos no puedan cruzar los límites del espacio de datos a menos que se autoricen explícitamente.
Integración de control de acceso: Los conjuntos de permisos están vinculados de forma nativa a espacios de datos, permitiendo el control sobre operaciones de lectura, escritura y administrativas. Esto garantiza que solo los usuarios y servicios autorizados puedan acceder a objetos, perspectivas y activaciones en un espacio de datos.
Gobernanza y auditoría: Todas las operaciones en un espacio de datos se registran con seguimientos de auditoría de nivel de compañía, lo que permite la trazabilidad para el cumplimiento, la administración y la creación de reportes normativos.

El acceso y los permisos se gestionan a través de Conjuntos de permisos, garantizando visibilidad granular, actualizaciones controladas y prevención de fugas de datos entre dominios. Integrando límites de espacio de datos con la arquitectura de seguridad y gobernanza de Data 360, los arquitectos pueden implementar con confianza estrategias de gobernanza centralizadas y descentralizadas manteniendo la coherencia entre múltiples nubes y dominios de negocio.

La estructura de computación de Data 360 proporciona una capa unificada para gestionar y ejecutar todas las cargas de trabajo de Big Data, simplificando las complejidades de infraestructura subyacentes. Su componente principal es el controlador de procesamiento de datos (DPC).

DPC es un servicio de orquestación de procesamiento de datos integral y con múltiples cargas de trabajo que proporciona funciones de trabajo como servicio (JaaS) entre diversos entornos de computación en nube. Abstrae la complejidad de la infraestructura y unifica la ejecución de trabajos para marcos de trabajo como Spark (EMR en EC2 y EMR en EKS) y cargas de trabajo de Controlador de recursos de Kubernetes (KRC). Al servir como una pasarela de plano de control centralizada, DPC orquesta, programa y monitorea trabajos entre múltiples planos de datos, garantizando fiabilidad, capacidad de ampliación, eficiencia de costos y una experiencia de desarrollador coherente.

La necesidad de DPC proviene de las limitaciones de interactuar directamente con sistemas de gestión de clústeres nativos como EMR.

Abstracción de infraestructura y nube

Aunque EMR ofrece API para clústeres, tareas y pasos, aún carga a los equipos de clientes con tareas de gestión de infraestructura críticas como aprovisionamiento, ampliación, ajuste de desempeño y optimización de costos. DPC soluciona esto ofreciendo una API simplificada a nivel de plataforma para el envío de trabajos. Admite la gestión de fallos automática, reintentos y equilibrio de carga dinámico. Proporciona eficiencia de costos a través de nodos basados en binpacking, spot y graviton. Proporciona seguridad sólida con aislamiento TLS, PKI, IAM y parches automatizados. Gestiona actualizaciones de versión de tiempo de ejecución de Spark y EMR para entregar mejoras de desempeño, parches de seguridad y mejoras de funciones.

Además, DPC proporciona una interfaz unificada que distingue entre la nube para enviar y gestionar trabajos de datos, abstrayendo las complejidades y las API propias del sustrato de nube subyacente (AWS, futuros proveedores). Esto garantiza que los equipos de clientes interactúen únicamente con una interfaz de envío de trabajos basada en API de Data 360 común que abstrae las complejidades de gestores de recursos subyacentes como Kubernetes e HILO. Esto permite a los equipos de clientes enviar trabajos de Spark a través de una API sencilla y unificada sin necesidad de gestionar módulos, conjuntos de nodos o configuraciones de clústeres de Spark directamente.

El ajuste manual de parámetros de Spark requiere habilidades especializadas, y configuraciones incorrectas pueden ralentizar la ejecución del trabajo. El equipo de DPC centraliza esta experiencia, proporcionando configuraciones optimizadas para evitar problemas de desempeño comunes. Este equipo especializado integra continuamente Knowledge desde la comunidad de código abierto para garantizar un desempeño óptimo entre todas las cargas de trabajo gestionadas por el controlador.

DPC no está limitado a Spark; admite una amplia gama de cargas de trabajo. Estos incluyen:

Cargas de trabajo de procesamiento en tiempo real
Función Entrega de eventos para acciones de datos
Gestión de Milvus (la base de datos vectorial para el indexado de datos no estructurados)
Infraestructura de almacenamiento de baja latencia

DPC también aprovecha el marco de trabajo Kubernetes Resource Controller (KRC), que admite cargas de trabajo como Trino para consulta, Entrega de eventos para acciones de datos, Trabajos de extracción de datos para conectores y Procesamiento en tiempo real. Para todas las cargas de trabajo de KRC, DPC proporciona funciones de trabajo como servicio centrales, gestionando el aprovisionamiento, la implementación y la gestión de computación en una abstracción de trabajos de alto nivel.

Arquitectura y beneficios de JaaS

El modelo Trabajo como servicio, proporcionado por DPC, garantiza una canalización de procesamiento de trabajos rentable y resistente.

Los usuarios proporcionan especificaciones de clúster sencillas, centrándose en CPU, memoria, almacenamiento, conteos de instancias y conteos y etiquetas de clúster mínimo/máximo requeridos para la coincidencia de clústeres. DPC luego gestiona automáticamente detalles de infraestructura abstractos, incluyendo la selección de SKU de máquinas virtuales óptimas, la gestión de flotas de instancias, la determinación del índice de Core frente a. Nodos de tareas y gestión On-Demand frente a Detecte instancias basándose en entradas. También gestiona la gestión de versiones de componentes y EMR y las actualizaciones sin tiempo de inactividad.

De forma crucial, DPC admite de forma inherente el arrendamiento múltiple, diseñado para comprender y aplicar límites de arrendamiento de Data 360 y separación de recursos. También garantiza la seguridad y el cumplimiento aplicando imágenes de máquinas certificadas por Salesforce, gestionando funciones de IAM específicas de servicio y garantizando el cifrado tanto en tránsito como en periodos de inactividad. Para el enrutamiento y el control de capacidad, la coincidencia de trabajo a clúster se gestiona utilizando Etiquetas de clúster, y el enrutamiento basado en capacidad utiliza una configuración de concurrencia de trabajo máxima para controlar de forma efectiva la utilización de recursos.

Cloud Agnostic Client Experience es un beneficio principal, ya que la complejidad de los entornos de nube subyacentes está oculta a los servicios de cliente, permitiéndoles centrarse exclusivamente en la lógica de negocio. Esto logra el objetivo de Abstracción de proveedor de nube. Por último, DPC permite un uso sencillo y un seguimiento de costos, lo que permite segmentar la utilización de clústeres y los costos por servicio para una contabilidad precisa. En general, DPC sigue una arquitectura conectable que permite integrar nuevos motores de ejecución (por ejemplo, Flink, Ray) y sustratos de nube (GKE/Dataproc) de forma transparente sin exponer detalles de infraestructura subyacentes a usuarios. Este diseño desvincula el plano de control de la capa de ejecución, garantizando una API coherente y una experiencia operativa independientemente del backend.

Data 360 afina y enriquece los datos sin procesar, salvando la brecha entre la información sin procesar y el consumo de negocio con capacidad de acción. Complementa el ciclo de vida del objeto de datos preparando datos complejos para una activación y análisis sofisticados. Data 360 admite varios tipos de procesamiento, incluyendo Transformaciones de datos por lotes y transmisión, Perspectivas calculadas por lotes y transmisión, Procesamiento de datos no estructurado y Resolución de identidad. Para activar estas diversas operaciones de forma eficiente, especialmente en tiempo real y entre conjuntos de datos masivos, se requiere un mecanismo sofisticado para gestionar los cambios de datos de forma efectiva.

Para lograr un procesamiento de datos eficiente casi en tiempo real, especialmente con tablas de tamaño de terabytes y millones de actualizaciones potenciales, Data 360 necesitaba un avance. Requería una forma de notificar a los sistemas con precisión cuando cambian los datos y luego identificar de forma eficiente qué datos cambiaron de modo que solo se procesen actualizaciones relevantes y solo cuando se actualizan. Este reto dio lugar a dos innovaciones complementarias: Eventos de cambio nativos de almacenamiento (SNCE) para notificar cuando cambia algo y Noticias en tiempo real de datos de cambios (CDF) para identificar qué cambió.

Eventos de cambio nativos de almacenamiento (SNCE)

SNCE cambió fundamentalmente Data 360 en una plataforma de datos reactiva e incremental. Este cambio implica pasar de sondear activamente el lago de datos a monitorear de forma pasiva eventos de confirmación atómica, utilizando un formato de evento estandarizado y un sistema de entrega de mensajes de alto rendimiento.

Cada operación de escritura correcta (INSERT, UPDATE, DELETE) en una tabla de Iceberg culmina en un intercambio atómico del puntero del archivo de metadatos actual de la tabla en el catálogo. La capa de almacenamiento de objetos subyacente (digamos S3) está configurada para emitir un evento de notificación nativo (como un evento S3) siempre que se redacte una nueva instantánea de metadatos en el directorio de la tabla.

Arquitectura de eventos de cambio nativa de almacenamiento

La biblioteca SNCE ofrece un método estandarizado para consumir estos eventos, y también puede enriquecerlos con metadatos de instantáneas bajo solicitud.

Esto permite que las oportunidades en curso de datos descendentes (como perspectivas calculadas de transmisión, resolución de identidad y segmentación) se suscriban y actúen solo cuando cambien los datos, potenciando significativamente la eficiencia evitando costosas exploraciones de tablas completas.

Cambiar noticias en tiempo real de datos (CDF)

Basándose en SNCE, las Noticias en tiempo real de datos de cambios (CDF) proporcionan un mecanismo simplificado para consumir y procesar los cambios de forma incremental.

CDF aprovecha instantáneas de Iceberg para generar de forma eficiente la transmisión de cambios. De forma crítica, el redactor Iceberg optimizado de Data 360 calcula y mantiene los cambios como parte de la operación de escritura en sí, haciendo que la generación de CDF sea altamente eficiente y minimizando la carga adicional. Esto permite procesar trabajos (como transformaciones de transmisión o perspectivas calculadas de transmisión) para procesar selectivamente solo los registros alterados evitando el costoso cálculo de diferencias de instantáneas.

Esta estrategia incremental proporciona varios beneficios para grandes conjuntos de datos, incluyendo ahorros de costos, latencia reducida y eficiencia mejorada. Activa funciones como transformaciones de transmisión y resolución de identidad incremental, que a su vez llevan a perspectivas más rápidas, cargas del sistema más predecibles, desempeño mejorado y gastos operativos más bajos.

Data 360 ofrece funciones de ingreso sólidas con compatibilidad nativa para productos de Salesforce, garantizando un flujo de datos transparente. Para fuentes externas, proporciona conectividad amplia a través de más de 270 conectores, API, SDK y MuleSoft. Además, Data 360 cuenta con federación de copia cero, lo que permite la BI y los análisis sin duplicación de datos.

El marco de trabajo del conector de Data 360 (DCF) es la base para la mayor parte de la conectividad de Data 360. Permite la entrada, federación y salida a través de una arquitectura unificada. DCF define los estándares para la creación y gestión de conectores, desde la interfaz de usuario para la configuración y la administración hasta la persistencia de metadatos, la extracción de datos y la entrega en Lakehouse o a través de consultas en vivo en orígenes externos. También admite opciones de conectividad privada (como vínculos privados, VPN y túneles seguros) para garantizar la seguridad y el cumplimiento de los datos de nivel de compañía al conectar con entornos de clientes o socios. Proporcionando un enfoque coherente entre todos los conectores, DCF potencia Data 360 para conectar de forma transparente en el ecosistema más amplio garantizando la capacidad de ampliación, la fiabilidad y la integración segura.

Data 360 proporciona conectividad sólida a un vasto ecosistema de orígenes de datos, admitiendo tanto productos nativos de Salesforce como numerosos sistemas externos. Esta amplia conectividad es crucial para unificar datos de compañía en silos y activar aplicaciones de IA/ML y Agentes.

Data 360 ofrece más de 270 conectores de forma nativa o a través de MuleSoft, API y SDK para dar cobertura a sus funciones de canalización de datos de extremo a extremo con ingreso por lotes, transmisión o en tiempo real. Estos conectores se pueden categorizar ampliamente por el tipo de sistema de origen que integran.

Conectores nativos de Salesforce

Estos conectores garantizan un flujo de datos sencillo y nativo desde productos de Salesforce.

Algunos ejemplos incluyen conectores para Salesforce CRM, Data Cloud One , Marketing Cloud Engagement, Marketing Cloud Account Engagement y B2C Commerce.

Aplicaciones externas y SaaS

Los conectores para varias aplicaciones de negocio y servicios en la nube permiten el ingreso de datos desde plataformas de software externas.

Algunos ejemplos incluyen Adobe Marketo Engage, Microsoft Dynamics 365, Mailchimp y Airtable.

Bases de datos y almacenes de datos

Data 360 se conecta a una variedad de plataformas de almacenamiento de datos relacionales y basadas en la nube.

Algunos ejemplos incluyen Amazon Redshift, Amazon DynamoDB, Amazon RDS (MySQL, PostgreSQL, Oracle), Google BigQuery y Microsoft SQL Server.

Almacenamiento de objetos de nube y sistemas de archivos

Estos conectores se integran con soluciones de almacenamiento de hiperescala para datos estructurados y no estructurados.

Algunos ejemplos incluyen Amazon S3, Google Cloud Storage (GCS) y Azure Blob Storage.

Servicios de transmisión y mensajería

Los conectores que gestionan transmisiones de datos continuas en tiempo real son críticos para escenarios dirigidos por eventos y procesamiento en tiempo real.

Un ejemplo es el Conector de Amazon Kinesis.

Plataformas de integración

El conector MuleSoft Anypoint amplía el alcance de Data 360 integrándolo con una gama más amplia de aplicaciones y bases de datos a través de Anypoint Exchange.

Conectores de almacenamiento de datos y objetos de nube no estructurados

Estos conectores son críticos para ingresar y hacer referencia a datos no estructurados (datos que carecen de un modelo predefinido) a funciones de IA generativa de energía.

Todos estos conectores están construidos sobre el marco de trabajo del conector de Data 360 proporcionando una experiencia coherente.

La transformación de datos es un componente arquitectónico fundamental en Data 360, diseñado para limpiar, enriquecer y dar forma a datos ingresados sin procesar en activos de datos normalizados con capacidad de acción alineados con el modelo de datos Customer 360. Este proceso es esencial para Armonización, mejora de la calidad y garantizar que los datos están listos para casos de uso descendentes como unificación, segmentación y activación de perfiles. Las transformaciones aprovechan los objetos de lago de datos de origen (DLO) y los objetos de modelo de datos (DMO) como entrada, produciendo los resultados en nuevos DLO o DMO respectivamente.

Data 360 proporciona dos paradigmas de transformación principales para tratar diferentes requisitos de velocidad de datos: transformaciones de datos por lotes y transformaciones de datos de transmisión.

Transformaciones de datos por lotes

Las transformaciones de datos por lotes están diseñadas para el procesamiento de gran volumen basándose en una programación definida o un desencadenador on demand. Este motor está optimizado para gestionar operaciones de reestructuración complejas que requieren muchos recursos.

El proceso Transformación por lotes se configura utilizando un lienzo de oportunidades en curso visual de código bajo que permite a los usuarios definir lógica de transformación de múltiples etapas. Este motor admite de forma exclusiva operaciones de reestructuración complejas vitales para la alineación de modelos de datos canónicos: estructuración y normalización de datos. Esto incluye el giro (descomposición de registros desnormalizados en múltiples registros normalizados) y el aplanamiento (reestructuración de datos jerárquicos, como JSON, en tablas estructuradas). El modo de ejecución del sistema admite la sincronización completa (procesando todos los registros) y un modo de procesamiento incremental altamente eficiente. El modo incremental reduce significativamente el tiempo de procesamiento y el consumo de recursos solo procesando registros que cambiaron desde la última ejecución correcta. Las transformaciones por lotes son ideales para tareas donde las actualizaciones en tiempo real no son esenciales, como agregaciones periódicas y reestructuración de datos compleja.

Transformaciones de datos de transmisión

Los datos de transmisión transforman los datos del proceso de forma continua e incremental casi en tiempo real a medida que fluyen al sistema, lo que los hace esenciales para casos de uso de baja latencia.

La interfaz principal es un enfoque SQL-first, donde las transformaciones se definen como una consulta SQL SELECT que se ejecuta continuamente en la transmisión entrante de cambios de registro. Este motor admite funciones de transformación principales, incluyendo la limpieza y estandarización de datos (por ejemplo, validación de PII y estandarización de formatos de datos) y el enriquecimiento y la combinación de datos (utilizando Uniones y Uniones). De forma crítica, admite uniones de búsqueda de transmisión para permitir el enriquecimiento de datos en tiempo real y búsquedas con datos de referencia estáticos o que cambian lentamente, garantizando actualizaciones de perfil instantáneas. Para optimizar el costo de servicio, la arquitectura emplea un diseño de trabajo de alta densidad (HD), que empaqueta múltiples definiciones de transformación de transmisión para un único arrendatario en un único trabajo de computación subyacente, maximizando la utilización de recursos. Las transformaciones de transmisión son esenciales para casos de uso como monitoreo de eventos, personalización inmediata y actualizaciones de perfil en tiempo real.

Data 360 revoluciona la gestión de datos al admitir la federación de copia cero y el uso compartido de datos, lo que elimina la necesidad de mover o duplicar datos. Esta función permite a los usuarios acceder de forma transparente y directa a datos desde diversos orígenes externos y compartir datos con entornos externos, reduciendo significativamente la complejidad, reduciendo los costos de almacenamiento y garantizando que todas las decisiones se basan en la información más actualizada y fiable.

Federación de datos de copia cero y arquitectura de colaboración de datos

Data 360 admite la federación de copia cero con almacenes de datos externos (Snowflake, Redshift), lagos (Google BigQuery, Databricks, Azure Fabric), bases de datos SQL y muchas otras fuentes. Sus capas de abstracción permiten la consulta directa de datos externos sin duplicación, reduciendo el tiempo de ingreso, los costos de almacenamiento y garantizando información actualizada.

Data 360 simplifica el acceso a datos externos y federados proporcionando una capa de metadatos unificada que abstrae objetos externos y de Salesforce. Esto permite que toda la plataforma Salesforce y sus aplicaciones utilicen estos datos de forma transparente.

Data 360 admite la federación basada en archivos y consultas, con consulta en vivo y aceleración de acceso como se muestra en la figura.

Las etiquetas (1) y (2) ilustran la consulta de Data 360 (incluyendo envíos de consultas en vivo) y la federación basada en archivos para acceder a datos desde lagos de datos/almacenes/orígenes de datos externos; y la etiqueta (3) resalta la aceleración del acceso federado desde lagos de datos/orígenes de datos externos.

Federación de consultas

El núcleo de la función de federación de Data 360 se encuentra en su capa de federación de consultas, que gestiona el complejo proceso de acceder a datos externos y realizar envíos de consultas inteligentes (ilustrado por la etiqueta 1). Data 360 se conecta y recupera datos desde orígenes utilizando el protocolo JDBC, mejorado con lógica adicional para una eficiencia mejorada. La Capa de federación de consultas es responsable de comprender y traducir diferentes dialectos de SQL, averiguar la parte más óptima de la consulta que se enviará a sistemas externos para un procesamiento eficiente, recuperar los resultados y realizar cualquier procesamiento posterior necesario para derivar perspectivas finales.

Almacenamiento en caché (Aceleración de consulta)

Para una utilidad mejorada, Data 360 proporciona una función de aceleración opcional para sus funciones federadas.

Cuando se activa Aceleración, Data 360 almacena en caché los datos federados para lograr un acceso más rápido y costos más bajos, ya que evita el acceso directo repetido a fuentes externas. Esta caché se trata como una capa de aceleración y se actualiza de forma incremental para reflejar rápidamente cualquier cambio en los datos de origen externo, garantizando que la vista acelerada permanece casi en tiempo real.

Federación de archivos

Data 360 admite la federación basada en archivos (ilustrada por la etiqueta 2) para acceder a datos desde fuentes y lagos de datos externos. La base técnica para esta función de copia cero se basa en la estandarización: los datos subyacentes deben tener el formato de archivo Apache Parquet y utilizar el formato tabular Apache Iceberg. Data 360 puede federarse en cualquier origen que exponga un Catálogo de REST de Iceberg (IRC) para el acceso a metadatos y almacenamiento, garantizando un acceso sencillo y regulado a archivos que residen fuera de la plataforma.

Con la federación basada en archivos, el cálculo de Data 360 gestiona todo el procesamiento de datos porque acceden directamente al almacenamiento subyacente. Esto elimina la necesidad de distribución de consultas y gestión de varios dialectos de SQL, que a menudo se requieren con la federación basada en consultas.

Además de esto, la función Cero copia también se amplía a orígenes de datos no estructurados como soluciones de almacenamiento de hiperescala (almacenamiento S3/GCS/Azure), Slack y Google Drive, a las que se puede acceder por las oportunidades en curso de procesamiento no estructurado de Data 360.

Data 360 facilita el uso compartido basado en consultas y archivos de datos que gestiona con almacenes y lagos de datos externos (ilustrado por las etiquetas 4 y 5 en el contexto de la figura original).

Colaboración basada en consultas

Para la colaboración de datos basada en consultas, Data 360 expone un controlador JDBC utilizando el que los motores y aplicaciones externos pueden obtener acceso seguro a los datos. Este mecanismo permite a los sistemas externos conectar, autenticar y ejecutar consultas en vivo directamente con los datos en Data 360.

Colaboración basada en archivos (Compartición de datos y DaaS)

El mecanismo principal para la colaboración basada en archivos implica dos conceptos: colaboración de datos y destino de colaboración de datos, que aprovechan la API de DaaS (Datos como servicio).

Control granular: El concepto de colaboración de datos permite a los clientes definir con precisión qué objetos (DLO, DMO, CIO, etc.) se comparten de forma externa, evitando la exposición de datos no intencionada.
Objetivos seguros: También controla el objetivo de colaboración de datos, garantizando que los datos solo estén disponibles para entornos externos autorizados explícitamente, cuentas u organizaciones de socios (por ejemplo, colaboración con una instancia específica de Redshift o Databricks).

La API de DaaS proporciona una interfaz segura y gobernada para que los motores externos consuman datos. Otorga acceso tanto a los metadatos esenciales como al almacenamiento de tablas subyacente mientras mantiene toda la semántica de Data 360. Esto garantiza que los motores externos accedan a los datos en un contexto coherente y significativo de forma segura.

Muchos clientes sensibles a la seguridad, especialmente grandes empresas, industrias reguladas y organizaciones del sector público, restringen todo el acceso a Internet a sus lagos de datos como parte de su postura de seguridad. Esta política, aunque esencial para el cumplimiento y la reducción de riesgos, también evita que Salesforce Data 360 y Agentforce se conecten a esos entornos a través de Internet pública.

La mayoría de estos lagos de datos están implementados en entornos hiperescalares como AWS, Azure o Google Cloud. Como Data 360 se ejecuta en AWS, el acceso a lagos de datos de clientes alojados en un proveedor de nube diferente requiere una conexión de red entre nubes. Sin una opción de conectividad privada y segura que omita Internet pública, los clientes a menudo no pueden o no desean adoptar Data 360 o Agentforce para casos de uso que se basan en esos lagos de datos.

Arquitectura de vínculos privados para conectividad entre nubes

Para solucionar esto, Data 360 admite conectividad privada a nivel de red con orígenes de datos gestionados por clientes entre nubes. En AWS, esto se activa a través de AWS PrivateLink, que permite a Data 360 conectarse directamente a extremos aprovisionados por el cliente, ya sea dentro de sus propias cuentas o en entornos de lago de datos externos (por ejemplo, Snowflake), sin atravesar la Internet pública.

Esta arquitectura garantiza que todo el tráfico permanezca completamente en la red principal de AWS, utilizando direcciones IP privadas y rutas de red no enrutables, satisfaciendo así estrictos requisitos de seguridad y cumplimiento al tiempo que permite un acceso sencillo a los datos de los clientes.

Para clientes con arquitecturas de múltiples nubes, Data 360 está ampliando la conectividad privada más allá de AWS a través de la compatibilidad de interconexión entre nubes. Esto permite rutas de red seguras y solo troncales desde Data 360 a lagos de datos y servicios alojados en Azure o Google Cloud, manteniendo los mismos principios que AWS PrivateLink: dirección IP privada, enrutamiento no público y cero exposición a Internet.

Los clientes pueden elegir entre dos modelos de implementación:

Interconexión gestionada por clientes: Integre circuitos privados existentes como Azure ExpressRoute, Google Cloud Interconnect o Equinix Fabric directamente con los VPC de Data 360.
Interconexión gestionada por Salesforce: Utilice una conexión llave en mano completamente gestionada donde Salesforce aprovisiona y opera el vínculo entre nubes, exponiendo extremos privados en la nube de destino.

En ambos modelos, la experiencia es coherente: Los servicios de Data 360 se conectan a fuentes de datos externas entre hiperescaladores como si fueran locales, permitiendo el ingreso, la activación y las consultas seguros sin atravesar la Internet pública.

Para arquitectos de compañía, una gobernanza de datos sólida no es solo una casilla de verificación de cumplimiento, sino un pilar fundamental para crear Inteligencia de clientes confiable, ampliable y con capacidad de acción. Salesforce Data 360 está diseñado con un marco de trabajo de gobernanza integral que garantiza la calidad, la seguridad y el cumplimiento de los mandatos normativos en todo su ciclo de vida de los datos.

Data 360 funciona como un núcleo de gobernanza centralizado, garantizando que todos los datos, desde el ingreso sin procesar hasta las perspectivas activadas, se gestionan con integridad y control.

Marco de trabajo de arquitectura de gobernanza de datos

Aunque el espacio de datos proporciona control de acceso de grano grueso para determinar el acceso a todos los objetos en un espacio de datos, las políticas basadas en ABAC proporcionan control de acceso de grano fino a objetos, campos y filas individuales en un espacio de datos. Data 360 adoptó el Control de acceso basado en atributos (ABAC) como su modelo de autorización principal para el control de acceso de grano fino. Esta opción estratégica proporciona flexibilidad y capacidad de ampliación superiores en comparación con el Control de acceso basado en funciones (RBAC) tradicional, particularmente crucial para entornos de negocio complejos y dinámicos con grandes cantidades de datos y necesidades de acceso variadas. ABAC permite que las decisiones de acceso se basen en atributos del usuario (por ejemplo, departamento, función, ubicación), los datos (por ejemplo, PII, sensibilidad, espacio de datos) y el entorno (por ejemplo, hora del día), en vez de solo funciones predefinidas. Esto permite políticas de acceso altamente granulares y contextuales que se adaptan a medida que cambian los datos y los atributos de usuario.

Idioma de política de CEDAR: En el centro de la implementación de ABAC de Data 360 está el uso del lenguaje de políticas CEDAR. Este lenguaje de políticas formal creado específicamente proporciona una forma precisa y verificable de definir reglas de autorización complejas, garantizando que las políticas son inequívocas y se pueden evaluar coherentemente a escala.

El sistema de gobernanza en Data 360 se adhiere a una arquitectura ABAC sólida y estándar:

Etiquetado, clasificación y creación de políticas (Punto de información de políticas - PIP):
- Data 360 proporciona mecanismos automatizados de Etiquetado y Clasificación, aprovechando LLM (Modelo de lenguaje grande) y ML (Aprendizaje automático) para identificar categorías de datos confidenciales (por ejemplo, PII.Email, PII.Phone, PII.Name) y otras taxonomías creadas específicamente (PHI, FinancialData) en Datos estructurados (por ejemplo, tabla Contactos) y Datos no estructurados (para ex desde Google Drive).
- De manera crucial, la propagación de etiquetas se produce a lo largo del linaje de datos (DLO -> DLO -> DMO), garantizando que las clasificaciones sigan automáticamente las transformaciones y derivaciones de datos, desde los datos ingresados sin procesar a la capa de DMO armonizada y a través de datos derivados creados desde definiciones de procesos.
- Finalmente, el panel de creación de políticas proporciona una experiencia sencilla para aprovechar los datos y los atributos de usuario para definir reglas de acceso dinámicas para una organización.
- Estos metadatos enriquecidos (incluyendo etiquetas, clasificaciones, políticas y linaje) se alimentan al Punto de información de políticas (PIP).
Servicio de autorización (Punto de aplicación de políticas - PEP):
- El Servicio de autorización actúa como el Punto de aplicación de políticas (PEP). Intercepta todas las solicitudes de acceso a datos desde varias capas de consumo (Consulta estructurada/no estructurada híbrida, Solicitud y recuperadores de RAG de GenAI, Enriquecimiento de CRM) y consulta el Punto de decisión de política para determinar si el acceso está permitido.
Motor de evaluación de políticas (Punto de decisión de política - PDP):
- Este motor sirve como el Punto de decisión de política (PDP). Toma el contexto de solicitud de acceso desde el PEP, junto con definiciones de políticas (en CEDAR) y atributos desde el PIP, para tomar una decisión de acceso autorizada.

Políticas de seguridad granulares: Las políticas definidas en CEDAR aplican varios niveles de seguridad, incluyendo:
- Seguridad a nivel: de objeto Control del acceso a DLO o DMO completos basándose en etiquetas asociadas con estos objetos.
- Seguridad a nivel de campo: Restringir el acceso a campos confidenciales específicos en un objeto basándose en etiquetas.
- Seguridad a nivel: de filas Filtrado de datos en objetos específicos para mostrar solo filas relevantes basándose en atributos de usuario.
- Enmascaramiento de datos dinámico: Enmascare dinámicamente ciertos datos (basándose en etiquetas) en el punto de acceso, sin alterar los datos subyacentes. Esto garantiza que la información confidencial está protegida mientras permite una amplia utilidad. Esto se aplica al enmascaramiento de campos en datos estructurados así como contenido en datos no estructurados.
Aplicación coherente: Todo el marco de trabajo de ABAC garantiza la aplicación coherente de políticas en todos los patrones de consumo de Data 360, ya sea consulta de datos directa, recuperación para aplicaciones de IA generativa (RAG) o enriquecimiento de experiencias de Salesforce CRM a través de Listas relacionadas, por ejemplo.
Integración profunda con Salesforce Platform: Las funciones de regulación de Data 360 se definen y se administran directamente en la plataforma principal de Salesforce. Esta integración permite a los administradores gestionar políticas de acceso, identidades de usuario y gestión de atributos utilizando herramientas de Salesforce familiares, garantizando una capa de gobernanza unificada y coherente en todo el ecosistema de Salesforce.

Al crear este sofisticado marco de trabajo de ABAC con políticas de CEDAR, Data 360 proporciona a los arquitectos un nivel de control y flexibilidad sin igual, garantizando que los datos de los clientes no solo sean sobre los que se pueden realizar acciones, sino que también sean seguros, compatibles y fiables en toda la compañía.

En todas las industrias, las organizaciones están haciendo mayor hincapié en la seguridad de los datos de extremo a extremo para garantizar la protección contra la fuga de datos, el acceso no autorizado, la manipulación o la destrucción. La mayoría de las plataformas de datos, incluyendo Data 360 hoy en día, proporcionan cifrado en periodos de inactividad utilizando una clave de cifrado gestionada por proveedores. Sin embargo, las empresas (especialmente las de sectores regulados) exigen cada vez más funciones de cifrado gestionado por clientes para datos en periodos de inactividad y en tránsito.

Este modelo permite a las compañías controlar sus propias claves de cifrado, garantizando que incluso en el caso altamente improbable de una brecha a nivel de plataforma o acceso no autorizado, los datos permanecen protegidos criptográficamente. Sin la clave de propiedad del cliente, ninguna entidad (incluyendo el proveedor de plataforma) puede descifrar o reconstruir los datos, manteniendo así la confidencialidad y el control completos.

Data 360 admite el almacenamiento y la gestión de datos estructurados (tablas), semiestructurados (JSON) y no estructurados de forma transparente entre mecanismos de ingreso, procesamiento, indexado y consulta de datos. Data 360 admite varios tipos de datos no estructurados más allá del texto, incluyendo audio, video e imágenes, ampliando el ámbito de la gestión y el análisis de datos. La figura siguiente ilustra los dos lados de la fundamentación (ingesta y recuperación).

Arquitectura de procesamiento y almacenamiento de datos no estructurada

Data 360 gestiona datos no estructurados almacenándolos en columnas como texto o en archivos para conjuntos de datos más grandes. Admite la federación de datos para contenido no estructurado, lo que permite la integración y gestión de datos desde múltiples orígenes.

Los datos se preparan y se fragmentan, se generan incrustaciones y se procesan para el indexado de palabras clave y el indexado de vectores. Data 360 aloja múltiples modelos listos para su uso y conectables para la generación de fragmentos e incrustaciones. Data 360 admite la transcripción automatizada y configurable de contenido de audio y video para su posterior procesamiento e indexación. El servicio de búsqueda se utiliza para el indexado de palabras clave. Para el indexado vectorial, Data 360 admite el indexado nativo (con Hyper) y también aprovecha bases de datos vectoriales como Milvus de código abierto. Data 360 también se integra con la plataforma Búsqueda de Salesforce para admitir el indexado de palabras clave en datos no estructurados. Este indexado multimodal integrado en Data 360 potencia la búsqueda en cualquier dato no estructurado, como se describe en la sección Búsqueda de compañía de agente más adelante en el documento.

Para la recuperación, Data 360 proporciona API para la búsqueda. Nuestra consulta unificada basada en Hyper facilita las consultas de conjunto entre índices estructurados, de palabras clave y vectoriales, manteniendo una visibilidad y permisos estrictos, mejorando así el RAG y la búsqueda.

Las oportunidades en curso de indexación de datos no estructuradas de Data 360 están diseñadas como una arquitectura modular ampliable que comprende cinco etapas principales:

Análisis
Procesamiento previo
Trozos
Postprocesamiento
Integración

Todas las etapas también admiten el procesamiento basado en LLM que permite a los clientes elaborar solicitudes personalizadas. Tanto la fase de preprocesamiento como la de postprocesamiento pueden incluir múltiples pasos secuenciales, lo que permite que las transformaciones complejas se compongan de forma flexible. Cada etapa está completamente dirigida por metadatos, lo que permite una configuración y extensión sencillas sin cambios de código.

Algunos ejemplos de procesamiento previo incluyen operaciones como la eliminación de ruido, la normalización de idiomas y la comprensión de imágenes (reconocimiento óptico de caracteres y títulos), mientras que las etapas de procesamiento posterior pueden incluir enriquecimiento de metadatos, agrupación semántica o técnicas avanzadas como fragmentación de Raptor.

Las oportunidades en curso admiten completamente la extensión de código de Data 360, permitiendo a los clientes y equipos internos conectar lógica personalizada en cualquier etapa. Los componentes de extensión de código son funciones Python ligeras cuyo ciclo de vida (ejecución, ampliación y gestión de fallos) está completamente gestionado por Data 360. Este enfoque garantiza que la innovación y el procesamiento específico del dominio se puedan introducir rápidamente manteniendo la coherencia operativa y la gobernanza en toda la plataforma.

Indexado de contexto

Para configurar RAG con procesamiento no estructurado, dos factores clave son:

Iteración rápida: La capacidad de validar rápidamente con consultas de prueba de muestra.
Contenido específico de persona: La capacidad de configurar contenido adaptado a la persona consumidora.

Indexado de contexto es una herramienta pensada para usuarios diseñada para tratar ambos aspectos. Esta interfaz de usuario interactiva funciona con una canalización en tiempo real (RT) que ejecuta las cinco etapas descritas anteriormente. Las oportunidades en curso utilizan GPU cuando es necesario para tareas como la generación de incrustaciones y el reconocimiento óptico de caracteres (OCR). Además, permite a los clientes probar rápidamente las oportunidades en curso de RAG con un agente antes de implementar la configuración para el procesamiento de contenido integral.

IA de documento

La IA de documentos de Data 360 permite leer e importar datos no estructurados o semiestructurados desde documentos como facturas, currículums, reportes de laboratorio y pedidos de compra. Esta función admite procesamiento interactivo ad hoc así como procesamiento por lotes masivo. Esta es una función clave que permite la automatización de procesos de negocio para nuestros clientes. Esto funciona con inteligencia artificial incluyendo modelos LLM y ML.

Las compañías poseen grandes cantidades de Knowledge distribuidas entre sistemas dispares como wikis, colaboraciones de archivos, sistemas de gestión de contenido, bases de datos internas y mucho más. Esta fragmentación dificulta a los empleados (especialmente agentes de servicio y representantes de ventas) y clientes la tarea de encontrar información relevante de forma rápida y eficiente. Los problemas clave incluyen: Falta de una experiencia de búsqueda única y unificada entre todas las fuentes Knowledge; Presentación y representación incoherentes de contenido de diferentes fuentes; Falta de regulación de acceso a información confidencial dispersa entre sistemas; y dificultad para aprovechar la fuente Knowledge autorizada en flujos de trabajo de negocio principales (por ejemplo, adjuntar artículos relevantes a un caso).

Enterprise Knowledge representa contenido depurado, manual o automáticamente, desde el conjunto más amplio de datos de la compañía. La depuración manual implica acciones deliberadas, como la creación de artículos de Salesforce Knowledge o el desarrollo Knowledge dentro de sistemas externos que se ingresan a continuación. Prevemos una depuración automatizada que utiliza procesos, como agentes y transformaciones de Salesforce, que ejecutan datos ingresados para generar capas depuradas, mezclando potencialmente contenido estructurado y no estructurado. Si se depura manualmente o automáticamente, de forma interna en Salesforce o de forma externa antes de la introducción, el resultado es contenido de valor añadido distinto de los datos sin procesar.

La solución Enterprise Knowledge Hub aprovecha las funciones de Data 360 para :

Ingreso y almacenamiento: CRM Connector está ingresando artículos de Salesforce Knowledge, y los conectores no estructurados del marco de trabajo del conector de datos (DCF) ingresan contenido sin procesar y metadatos desde orígenes externos. El contenido se ingresa en objetos de lago de datos no estructurados (UDLO) específicos de origen que se asignan al contenido en SFDrive (u origen en caso de copia cero).
Armonización y estructuración: Las Canalizaciones de Armonización procesan datos de UDLO y archivos, realizando limpieza, normalización, enriquecimiento (NLP, etc.), enmascaramiento de PII y transformación en el formato intermedio armonizado, almacenado en SF Drive y un UDLO armonizado (HUDLO) que se asigna a él.
Indización: Canalizaciones no estructuradas (UDS) se desencadena sobre el contenido armonizado y los índices de búsqueda están configurados para cada HUDMO.
Consumo: Las aplicaciones que consumen incluyen búsqueda, recuperación, representación y vinculación a objetos de negocio como Caso. La implicación mediante el consumo de aplicaciones se recopila para proporcionar análisis de uso (como clics, revisiones, etc.)

Las perspectivas calculadas (CI) en Data 360 permiten a los clientes definir y generar mediciones agregadas desde sus datos. Estas mediciones se utilizan a continuación para la implicación, el análisis, la segmentación y la activación puntuales de los clientes. Los datos agregados calculados por los CI se redactan en Lakehouse y se representan como un objeto de perspectiva calculada (CIO).

Existen dos tipos principales de perspectivas calculadas:

Perspectivas calculadas por lotes: Diseñado para agregación de datos compleja y de gran volumen, donde las mediciones se pueden calcular periódicamente (por ejemplo, diariamente o semanalmente).
Perspectivas de transmisión: Proporcione la capacidad de generar mediciones y acciones a partir de datos de eventos en tiempo real, permitiendo la implicación inmediata y de baja latencia de los clientes.

Las perspectivas calculadas se definen en objetos de modelo de datos (DMO) y también se pueden definir en otros objetos de perspectivas calculadas. El servicio de perspectivas calculadas gestiona la orquestación de trabajos por lotes y de transmisión.

Tanto los cálculos de perspectivas por lotes como de transmisión utilizan Spark. La diferencia clave es que las perspectivas de transmisión utilizan Transmisión estructurada de Spark, mientras que los CI por lotes se ejecutan utilizando trabajos periódicos y programados de Spark por lotes. Para la eficiencia de costos, el servicio de perspectivas calculadas agrupa CI para computarse juntos en el mismo trabajo de CI por lotes o trabajo de CI de transmisión, basándose en factores como dependencias y solapamiento de objetos de datos de origen.

SNCE y CDF desempeñan un papel significativo en el cálculo de Perspectivas de transmisión.

La resolución de identidad es responsable de transformar datos dispares desde múltiples orígenes en un único perfil unificado integral.

Es importante comprender que un perfil unificado no es un “registro de oro” y que la resolución de identidad no selecciona valores ganadores ni sustituye ningún dato existente mientras unifica perfiles. Los perfiles unificados sirven como un conjunto de claves que desbloquean sus datos de origen identificando todos los registros coincidentes que se relacionan con la misma entidad, dentro de un origen de datos o entre muchos orígenes. Con esta información, puede seleccionar los datos del sistema de origen correctos para utilizar para un caso de uso de negocio concreto.

La resolución de identidad puede consolidar una variedad de tipos de registro, incluyendo Particulares, Cuentas y Domicilios. También se puede utilizar para hacer coincidir prospectos con cuentas existentes. El proceso de unificación es esencial para lograr una vista completa Customer 360 e impulsar la implicación personalizada en tiempo real entre escenarios B2C y B2B.

Las oportunidades en curso de resolución de identidad están construidas sobre un marco de trabajo nativo de la nube altamente ampliable diseñado para gestionar volúmenes masivos de datos de forma continua. El proceso incluye tres etapas clave, basándose en un potente índice de búsqueda para gestionar el proceso de coincidencia:

Coincidencia (Selección de candidatos): El objetivo del proceso de coincidencia es buscar registros que puedan pertenecer a la misma entidad. Los registros se analizan con un conjunto personalizable de reglas, cada una de las cuales contiene un conjunto de criterios que definen qué datos coincidir en qué nivel de rigor. Para recuperar de forma eficiente posibles coincidencias desde el almacenamiento de datos, el sistema genera índices para encontrar registros coincidentes utilizando dos técnicas:
- Claves de bloqueo: Una clave de bloqueo es un valor generado a partir de los datos de un registro y reglas de coincidencia (como las primeras letras de un nombre, número de teléfono normalizado, etc.) para agrupar registros potencialmente similares entre sí. Cada registro tiene múltiples claves de bloqueo indexadas y almacenadas como un índice invertido, garantizando que el sistema solo realice comparaciones detalladas en pequeños grupos de registros, en vez de en todo el conjunto de datos.
- Hash sensible a la localidad (LSH): Para reglas de coincidencia con coincidencia parcial, los hash se generan basándose en incrustaciones desde modelos entrenados.
Coincidencia profunda: Después de que el paso de selección de candidatos cree grupos más pequeños de posibles coincidencias, el sistema comienza una comparación más detallada. En esta etapa, los modelos de IA y los algoritmos avanzados analizan cada par de registros para calcular un puntuaje de coincidencia probabilista. Este puntuaje cuantifica la probabilidad de que dos registros hagan referencia a la misma entidad comparando de forma inteligente campos que a menudo contienen faltas de ortografía, variaciones o diferencias de formato.
Agrupación y unificación: Una vez identificados los registros coincidentes desde los candidatos, se agrupan en un clúster. Este proceso incluye de forma crítica la resolución de coincidencias transitivas. Por ejemplo, si Registro A coincide con Registro B y Registro B coincide con Registro C, los tres están vinculados en el mismo clúster incluso si A y C nunca se compararon directamente. Estos clústeres completos forman la estructura fundamental del Perfil unificado. Este proceso de agrupación en clúster garantiza que todos los registros de origen relacionados están vinculados correctamente bajo un identificador único y persistente.
Reconciliación: Los valores de datos de todos los registros de origen en clúster se evalúan utilizando reglas de reconciliación definidas (por ejemplo, Más frecuente, Más reciente o Prioridad de origen) para rellenar el perfil unificado resultante con un extracto de datos de perfil. La reconciliación no sobrescribe ningún dato existente, ya que todos los datos de origen están disponibles utilizando las claves vinculadas al perfil unificado.

La arquitectura admite la resolución de múltiples tipos de entidades para realizar una variedad de casos de uso.

Coincidencia individual: Se centra en la creación de perfiles Particular unificado, que vinculan todos los identificadores personales conocidos (emails, números de teléfono, Id. de fidelidad, cookies) a una sola persona.
Coincidencia de cuenta: Se centra en la creación de los perfiles Cuenta unificada, que vinculan datos sobre cuentas. Al realizar coincidencias en nombres de compañías, el motor utiliza un modelo ajustado al realizar coincidencias parciales.
Coincidencia de domicilio: Amplía la lógica de coincidencia para agregar registros Particular unificado en grupos de individuos relacionados.
Coincidencia de entidad cruzada: Además de la unificación, la resolución de identidad también crea vínculos entre objetos de perfil utilizando las mismas reglas de coincidencia. Por ejemplo, un Prospecto puede vincularse a una Cuenta utilizando coincidencia parcial en Nombre de cuenta.

Para garantizar que el Perfil unificado está siempre actualizado, el motor de resolución de identidad funciona con una arquitectura casi en tiempo real. Esta arquitectura optimizada para la nube está diseñada para el procesamiento continuo, logrando tiempos de procesamiento rápidos. Aunque la velocidad de procesamiento varía dependiendo de cómo se reciben los datos de origen, se pueden procesar pequeños lotes de cambios por resolución de identidad con una frecuencia de hasta cada 15 minutos.

El sistema mantiene objetos de vínculo de identidad que asignan cada Id. de registro de origen a su Id. de perfil unificado correspondiente. Esta estructura de datos fundamental permite al motor realizar un seguimiento eficiente de las relaciones y propagar rápidamente cambios y actualizaciones en el Perfil unificado, garantizando que las experiencias de los clientes, como la personalización del sitio web, las recomendaciones de la siguiente mejor acción y la segmentación, siempre aprovechen los datos de clientes disponibles más actualizados.

La segmentación es el proceso principal de transformación de perfiles de clientes unificados en audiencias con capacidad de acción. Esta función es clave para potenciar experiencias personalizadas entre canales de marketing, comercio y servicio. La plataforma Salesforce Data 360 Segmentation está diseñada para operaciones a gran escala. Gestiona metadatos intrincados, trabajando con un modelo de datos que comprende miles de objetos y relaciones. La plataforma admite reglas complejas, filtros basados en agregación y clasificación basada en ventanas, todo ello garantizando un cálculo rápido y fiable a escala de petabytes.

Data 360 admite varios tipos de segmentos para cumplir distintos requisitos de negocio de velocidad, complejidad y jerarquía:

Segmento estándar: El tipo de segmento principal procesado por lotes. Se publica en una programación personalizable, con una cadencia Publicación estándar de un mínimo de 12 horas hasta 24 horas, o una cadencia Publicación rápida más rápida de 1 a 4 horas, que está optimizada para datos de implicación recientes.
Segmento en tiempo real: Este segmento se completa on-demand en milisegundos para una acción inmediata basándose en datos de perfil y eventos recientes. Está altamente optimizado para la personalización instantánea pero no puede utilizar criterios de exclusión o segmentos anidados.
Segmento de cascada: Una estructura jerárquica de subsegmentos utilizados para dar prioridad a un cliente en un segmento único y más valioso si reúnen los requisitos para múltiples criterios.
Segmento anidado: Esto permite reutilizar un segmento existente como un filtro para un nuevo segmento más específico (un ajuste de un segmento base), heredando la programación del segmento principal.

El motor de segmentación funciona en una arquitectura sólida nativa de la nube que garantiza velocidad, escala y resistencia.

El proceso principal está gestionado por un servicio de orquestación de trabajos que controla el ciclo de vida del segmento, generando la configuración de trabajo necesaria y desencadenando la ejecución. Esta capa de orquestación mantiene el estado y los metadatos en una base de datos dividida para su capacidad de ampliación.

Aunque la Consulta de Data 360 gestiona cálculos de conteo de segmentación, la capa de cálculo de Spark es responsable de calcular la pertenencia real a Segmentos. La aplicación Spark ejecuta consultas Spark SQL en datos de clientes extensos. Estos datos pueden residir en Data 360 Lakehouse, sistemas externos a través de la federación de datos Cero copia o una combinación de ambos.

El sistema está altamente optimizado a través de la generación de consultas inteligentes, que afina la consulta Spark SQL subyacente. Esto incluye técnicas como la poda de particiones inteligente para minimizar el escaneo de datos y la eliminación de subexpresiones redundantes. Para garantizar la fiabilidad del servicio, la arquitectura cuenta con una gestión de recursos adaptativa que ajusta dinámicamente los recursos de computación en base al tamaño y la complejidad de la carga de trabajo. Además, la Adhesión de SLO se gestiona de forma proactiva con duraciones adaptativas y lógica de reintento. Para una experiencia de usuario rápida, los conteos de segmentos acelerados utilizan un enfoque basado en muestreo para proporcionar estimaciones de tamaño rápidas durante la creación de segmentos, evitando una ejecución de consultas completa.

Finalmente, se mantiene un enfoque profundo en la observabilidad y la atribución de causas raíz a través de mediciones de ejecución integrales de Spark y clasificación automatizada de errores (por ejemplo, problemas del lado del cliente frente al sistema), reduciendo significativamente el tiempo de diagnóstico y garantizando una plataforma de datos altamente resiliente.

La activación es el paso final crítico en el ciclo de vida de Data 360. Su función principal es transformar perfiles de clientes estáticos, segmentados y unificados en datos con capacidad de acción y enriquecidos y entregar estos datos a extremos internos y externos (como Marketing Cloud, Commerce Cloud y plataformas Adtech). Este proceso está diseñado para desencadenar trayectorias de clientes personalizadas e interacciones casi en tiempo real. Admite funciones avanzadas como atributos relacionados, filtrado de suscripción de activación, filtrado de consentimiento, limitación y clasificación.

La activación ofrece tres métodos distintos para la entrega externa y el cumplimiento de canal:

Activación por lotes: Diseñado para operaciones programadas de gran volumen, como campañas de email a gran escala y actualizaciones de audiencia de publicidad. Los datos se entregan mediante su organización en Depósitos internos seguros (Almacenamiento de objetos de nube) o a través de Transferencia de archivos segura, seguido de un proceso de ingreso de API iniciado por el sistema de destino. Las activaciones por lotes pueden utilizar el modo de actualización especial (incremental) para reducir los volúmenes enviados y procesados por socios de Salesforce.
Activación de transmisión: Optimizado para casos de uso casi en tiempo real que requieren automatización dirigida por eventos. La entrega se logra a través de llamadas de API directas enviadas al extremo de destino.
Flujos desencadenados por activación: Este canal altamente plataformado proporciona un enfoque sin código/bajo código para integrar Datos de audiencia con cientos de plataformas de implicación activadas por API de clientes. Tras la finalización de la activación, Data 360 rellena un DMO de audiencia, que luego desencadena un flujo de alta escala. El motor de flujos consume posteriormente los datos de audiencia y utiliza funciones de plataforma como Servicios externos y Mule Outbound destinations para realizar llamadas al destino basado en API final. Este método reduce significativamente el tiempo necesario para incorporar nuevos destinos de activación.

La activación utiliza los mismos patrones que la segmentación para la gestión de trabajos, la ejecución distribuida y el monitoreo. Esto incluye los principios del servicio de orquestación de trabajos para la gestión del ciclo de vida y la capa de cálculo (Spark) para el procesamiento, y se basa en la telemetría de trabajos para la observabilidad del desempeño y el cumplimiento del objetivo de nivel de servicio (SLO).

Además de eso, la activación tiene:

Activation Target Management supervisa las conexiones, credenciales y configuraciones seguras para todos los extremos de destino. Garantiza que los formatos de datos y los protocolos de seguridad están estandarizados, garantizando una entrega saliente fiable en varias plataformas, incluyendo Marketing Cloud, socios de Adtech y otras aplicaciones externas.

La activación adapta la carga útil para objetivos específicos. Para Salesforce Marketing Cloud, esto incluye Filtrado consciente de unidad de negocio (BU), compatibilidad con múltiples EID y controles de polinización cruzada.

Gobernanza de comunicación actúa como controlador, garantizando que el uso de datos y la comunicación cumplen con las preferencias y los requisitos legales de los clientes. El modelo de consentimiento centralizado unifica todas las preferencias de los clientes, desde las anulaciones de suscripción globales hasta el consentimiento específico de canal y propósito, y se almacenan en el Perfil de particular unificado. Durante la ejecución, la plataforma aplica estrictamente estas políticas utilizando filtrado de exclusión para eliminar automáticamente individuos no consentidos de la carga final. Además, el sistema aplica reglas de selección de punto de contacto para garantizar que utiliza el punto de contacto único, más compatible y preferido para el canal previsto antes de transmitir cualquier dato. Este mecanismo de aplicación está protegido por el marco de trabajo de gobernanza subyacente, que emplea medidas de protección como el enmascaramiento de datos dinámico y controles de acceso para proteger campos de datos confidenciales durante el proceso de activación.

El verdadero valor de una plataforma de datos unificada radica en su capacidad de proporcionar acceso coherente y sin esfuerzo a todos sus activos de datos, independientemente de su origen o estructura. La función Consulta unificada de Salesforce Data 360 está diseñada con precisión para entregar esto, abstrayendo las complejidades subyacentes de diversos establecimientos de datos para proporcionar una única y potente interfaz de consulta.

La capa Consulta unificada ofrece acceso sofisticado para diversos patrones de consumo:

Consulta estructurada y no estructurada híbrida: Proporciona una amplia cobertura de SQL para consultar de forma transparente tanto datos estructurados como los metadatos estructurados de datos no estructurados. Esto se mejora por la capacidad de ampliación del operador a través de funciones de tabla, permitiendo la búsqueda especializada entre texto, imagen y tipos espaciales.
Desempeño acelerado con Hyper: Aprovechando Hyper, un motor de alto desempeño en memoria, Data 360 acelera las consultas analíticas complejas y los tableros interactivos, proporcionando respuestas casi instantáneas sobre conjuntos de datos masivos.
Enfoque unificado para IA y personalización: Este acceso unificado es crucial para generar resultados dirigidos y personalizados, facilitando directamente respuestas LLM más precisas utilizando Generación aumentada de recuperación (RAG) basando modelos de IA en datos de compañía enriquecidos.
Integración con consumo descendente: Sirve como la capa de acceso de datos fundamental para experiencias dirigidas por la interfaz de usuario, API sólidas, flujos de trabajo de IA generativa y enriquecimiento de CRM, conectando datos de forma transparente con la activación.

Al proporcionar una interfaz de consulta única, inteligente y de alto desempeño, la consulta unificada de Data 360 permite a los arquitectos crear aplicaciones ágiles dirigidas por datos que aprovechan al máximo su espectro completo de información de clientes.

Data 360 es una plataforma activa que admite la activación de oportunidades en curso en respuesta a eventos de datos. Por ejemplo, un evento significativo, como una caída en el saldo de cuenta de un cliente, puede desencadenar un flujo de Salesforce para orquestar una acción correspondiente. Del mismo modo, las actualizaciones en mediciones clave, como el gasto de toda la vida, se pueden propagar automáticamente a aplicaciones relevantes.

Las acciones de datos monitorean continuamente datos incrementales para cambios utilizando eventos de cambio nativos de almacenamiento (SNCE) y noticias en tiempo real de datos de cambios (CDF). Estos datos se evalúan con respecto a reglas de acción configuradas por el cliente, como monitoreo de umbral o cambios de estado. Cuando se cumplen estas reglas, se genera un evento de acción de datos. Este evento se enriquece con información adicional (por ejemplo, estado de fidelidad del cliente) y se envía inmediatamente a su destino configurado, como Salesforce Flow o una aplicación externa, para desencadenar orquestaciones de negocio.

Data 360 admite funciones nativas de CDP (Customer Data Platform), incluyendo funciones avanzadas de resolución de identidad y creando perfiles e identificadores individuales unificados junto con historiales de implicación integrales. Esta plataforma es experta en la gestión de marcos de trabajo de negocio a negocio (B2B) y de negocio a consumidor (B2C) admitiendo la resolución de identidad y gráficos de identidad que utilizan reglas de coincidencia exactas y parciales, como se describió anteriormente. Estos gráficos de identidad están enriquecidos con datos de implicación de varios canales, lo que ayuda a crear gráficos de perfil detallados con perspectivas analíticas y segmentos valiosos.

Un concepto clave que admite el perfil de cliente es el gráfico de datos. Data 360 ofrece un gráfico de datos de compañía en formato JSON, que es un objeto desnormalizado derivado de varias tablas de Lakehouse y sus interrelaciones. Esto incluye un gráfico de datos de "Perfil" creado por CDP que abarca el historial de compras y exploración de una persona, el historial de casos, el uso de productos y otras perspectivas calculadas, y es ampliable por clientes y socios. Estos Gráficos de datos están adaptados a aplicaciones específicas y mejoran la precisión de solicitudes de IA generativa proporcionando contexto de cliente o usuario relevante. La capa en tiempo real de Data 360 utiliza el gráfico Perfil para la personalización y segmentación en tiempo real. Prevemos modelar Contexto Agentforce que abarca Pláticas, Sesiones y memoria Agente como Gráficos de datos.

Además, el CDP permite la segmentación y activación efectivas entre diferentes plataformas como Marketing Cloud, Facebook y Google de Salesforce. Procesa perfiles de clientes por lotes, casi en tiempo real y en tiempo real, lo que permite la personalización y la toma de decisiones inmediatas. Esta función mejora las interacciones en escenarios B2C y B2B, garantizando que los negocios puedan responder de forma rápida y precisa a las necesidades y comportamientos de los clientes.

La capa en tiempo real de Data 360 está respaldada por Data 360 CDP y amplía sus conceptos para casos de uso en tiempo real. La capa en tiempo real de Data 360 está diseñada para procesar eventos como transmisiones de clics web y móviles, visitas, datos de carritos y pasos por caja en latencias de milisegundos, mejorando la personalización de la experiencia del cliente. Monitorea continuamente la implicación de los clientes y actualiza el perfil de clientes desde Customer 360 con datos de implicación en tiempo real, segmentos y cálculos para una personalización inmediata.

Por ejemplo, cuando un consumidor adquiere un artículo en un sitio web de compras, la capa en tiempo real detecta e ingresa rápidamente este evento, identifica al consumidor y enriquece su perfil con información de gasto de toda la vida actualizada. Esto permite la personalización de su experiencia en el sitio en subsegundos. Además, esta capa incluye funciones para desencadenar y responder en tiempo real, lo que permite acciones inmediatas basadas en interacciones de clientes.

La plataforma Subsegunda en tiempo real impulsa esta transformación a través de varias funciones clave:

Gráficos de datos en tiempo real: Un perfil Customer 360 se crea utilizando un gráfico desnormalizado que incluye objetos clave y campos más relevantes para las marcas. Estos Gráficos de datos permiten el procesamiento de datos en tiempo real y entregan contenido con capacidad de acción y perspectivas en milisegundos
Ingreso y transformación en tiempo real: Ingrese eventos y perfiles de usuario en milisegundos desde orígenes web y móviles.
Resolución de identidad en tiempo real: Combine perfiles de clientes entre dispositivos, unificando usuarios desconocidos y conocidos al instante.
Perspectivas calculadas en tiempo real: Calcule mediciones como el valor de vida útil (LTV) o el historial de visitas de usuarios en milisegundos para activar Personalización u Ofertas para web, ChatBot o Agente de servicio.
Segmentación en tiempo real: Segmente audiencias sobre la marcha, personalizando mensajes e interacciones en tiempo real.
Acciones en tiempo real: Permita a las marcas evaluar cada implicación de usuario y realizar acciones a través de Salesforce Flow u otros canales de comunicación relevantes.

En Data 360, creamos una nueva plataforma en tiempo real con oportunidades en curso en tiempo real, almacenamiento de baja latencia y una capa de procesamiento de datos de subsegundos. A medida que se ingresan datos interactivos rápidamente desde canales Web y móviles, pasan por una serie de procesos rápidos.

Nuestros SDK web y móviles y las API en tiempo real recopilan datos de aplicaciones web/móviles (en futuras interacciones de Agentic) y los envían a nuestro servidor de baliza. Estos datos se enrutan a continuación a la Capa en tiempo real para el procesamiento de milisegundos y la Capa Lakehouse para la integración con datos por lotes/transmisión. La capa Tiempo real procesa los datos en tiempo real entrantes en el contexto de un perfil de usuario (anónimo o que inició sesión) como la actualización del valor de gasto total o de vida útil del usuario, etc. para la personalización en tiempo real en sesión. La Capa en tiempo real está respaldada por memoria principal y almacenamiento NVme (SSD) para almacenar datos en tiempo real y perfiles de clientes. Una vez que los datos están en la Capa en tiempo real, pasan por los siguientes procesos antes de actualizarse en Gráfico de datos en tiempo real:

Ingreso sencillo y transformaciones: Los datos se ingresan y se transforman para su posterior procesamiento.
Resolución de identidad: Las reglas de coincidencia exactas se aplican para unificar perfiles con todos los conjuntos de reglas de coincidencia existentes, de modo que los especialistas en datos no tienen que crear nuevos conjuntos de reglas de resolución de identidad específicamente para tiempo real.
Perspectivas computadas: Se evalúa cada implicación, se ejecutan cálculos sencillos como la suma y el conteo en milisegundos y los datos se actualizan en el Gráfico de datos en tiempo real.
Segmentos en tiempo real: Cada dato de implicación se evalúa para determinar si cumple los criterios para segmentos en tiempo real definidos, y los usuarios se agregan a segmentos aptos en milisegundos.
Acciones y desencadenadores en tiempo real: Cada implicación se evalúa con reglas definidas para desencadenar acciones en un intervalo de objetivos en tiempo real cuando se cumplen las reglas en milisegundos.
API y gráfico de datos en tiempo real: El gráfico de datos en tiempo real, que también incluye una API en tiempo real, permite a las marcas recuperar datos en formato JSON actualizados para cada usuario, garantizando que todas las interacciones de clientes estén informadas por los datos más actualizados.

La personalización se basa en saber a quién dirigirse, cuándo y dónde entregar contenido y recomendaciones relevantes, qué decir y con qué frecuencia. La plataforma de servicios de personalización es el orquestador de las decisiones que se toman para optimizar el logro de objetivos a través de experiencias personalizadas.

Los Servicios de personalización ofrecen las siguientes funciones:

Conjunto coherente de modelos y formas de interpretar datos de perfil, actividad y activo en Data 360
Experimentación integrada de plataforma (A/B/n, Bandido de múltiples brazos)
Integración de objetivos en tiempo de diseño (configuración), tiempo de entrenamiento de ML y tiempo de ejecución (inferencia de ML)
Compatibilidad de interacción en tiempo real y por lotes a escala B2C (usuarios anónimos, alto volumen externo interactivo/en tiempo real, alto volumen de lotes internos)
Analytics dirigido por Data 360
Patrones para integrar el modelo de IA y el servicio de otras partes (internas y externas)
Integración en el ecosistema de metadatos principal (características PLACA)
Implementaciones de OOTB de casos de uso dirigidos por IA de alto valor (Recomendaciones/decisiones con varios algoritmos de ML incluyendo bandas contextuales para la selección de promoción/contenido, recomendaciones de productos, decisiones de precios, etc.)

Topología de servicio de personalización

Oportunidades en curso de decisiones
- Servir solicitudes externas para decisiones de personalización incluyendo aumento de perfil, experimentación y recomendaciones.
Motor de recomendaciones
- Servicio en tiempo de ejecución de recomendaciones basadas en reglas o ML.
Gestor de índices
- Gestiona/Orquesta flujos de trabajo para procesos asíncronos incluyendo entrenamientos de ML para modelos de recomendación
Servicio de objetos de proceso
- Responsable de sincronizar metadatos de personalización entre principales y externos
Motor de atribución y experimentación
- Atribución de Analytics y experimentación de recomendaciones de personalización

Data 360 está diseñado como una plataforma sólida y enriquecida específicamente para dar cobertura a las experiencias de agentes emergentes. Alcanzamos estas funciones construyendo sobre varios servicios de Data 360 existentes y a través de una integración profunda con Agentforce.

SentOS - Diagrama de arquitectura de Data 360

Nuestro enfoque de Búsqueda de compañía de agentes se basa en los siguientes principios:

Los datos de compañía se mantienen en establecimientos o servicios aislados, con los permisos seguros necesarios para el acceso. La capacidad de acceder a estos datos y procesarlos mientras mantiene los permisos de origen es vital para garantizar Trust.
La clasificación cruzada y la relevancia entre el conjunto completo de datos permiten mejores resultados, lo que a su vez puede proporcionar un mejor contexto para experiencias de agentes.

Para entregar estas experiencias, Búsqueda de compañía de agente está construida sobre estos componentes arquitectónicos clave:

Conectores: El amplio conjunto de conectores disponibles en Data 360 permite a uno acceder e ingresar datos desde una amplia variedad de orígenes.
Procesamiento de datos no estructurado: Esto es fundamental para gestionar contenido no tabular, permitiendo al sistema derivar significado y contexto desde diversos datos.
Gobernanza: Garantizar la seguridad de nivel de compañía, el cumplimiento y los controles de acceso para todos los datos consumidos por la búsqueda. La compatibilidad con permisos de visibilidad de origen garantiza que los datos sean accesibles solo para usuarios autorizados, tanto para experiencias de búsqueda sencilla como de agentes. Para garantizar una recuperación rápida, los permisos de seguridad se evalúan y aplican de forma nativa por los backends de búsqueda en la etapa más temprana del acceso a los datos.
Capa de recuperación unificada: Para abordar el reto de los datos en silos, los conectores se alimentan a una capa de recuperación unificada integral. Esta capa proporciona un único punto de acceso a todos los datos, independientemente de que permanezcan en sistemas externos a los que se accede a través de Búsqueda federada o se gestionen de forma nativa a través de índices avanzados para la copia cero y los datos ingresados.
Comprensión de consulta inteligente: Antes de la recuperación, el sistema utiliza mecanismos con tecnología de IA para interpretar la intención del usuario. Además de integrar representaciones de la consulta para la coincidencia de vectores semánticos, puede reescribir y ampliar búsquedas basadas en palabras clave para mejorar la precisión.
Búsqueda híbrida y consulta avanzada: Para encontrar la información más relevante, la plataforma utiliza múltiples estrategias en paralelo. La búsqueda híbrida proporciona coincidencia de palabras clave precisa con la búsqueda de vectores semánticos en fragmentos de datos optimizados, mientras que la búsqueda de registro completo recupera simultáneamente documentos completos. Ambas se combinan para garantizar la relevancia semántica y la cobertura de contenido completa.
Clasificación jerárquica: Después de recuperar los datos, una arquitectura de clasificación jerárquica de múltiples etapas puntúa, combina y vuelve a clasificar los resultados desde cada origen y método. Este proceso crea una lista única y unificada que aflora la información más pertinente para el usuario o agente.

La IA generativa está cambiando el consumidor principal de la búsqueda de compañía de usuarios humanos a modelos de lenguaje grande (LLM). Búsqueda de Data 360 está diseñada desde cero para servir a ambos. Está optimizado para gestionar las consultas más largas y complejas de los agentes y devolver los resultados contextuales enriquecidos necesarios para el consumo programático y los bucles de razonamiento. Al mismo tiempo, el sistema puede gestionar las consultas más cortas y a menudo ambiguas típicas de usuarios humanos, proporcionando funciones como miniprogramas y resaltando para una evaluación rápida en una interfaz de usuario.

La entrega definitiva de experiencias de búsqueda de agentes combina ambos enfoques:

Resultados de búsqueda directa: la aplicación puede mostrar una lista tradicional de resultados clasificados utilizando una API dirigida por metadatos construida sobre la base de búsqueda unificada de Data 360.
Respuestas conversacionales auténticas de múltiples turnos: las respuestas de agentes se aplican mediante la integración nativa con Agentforce. Esta experiencia conversacional está dirigida por un agente principal que orquesta acciones y consultas, delegando todas las tareas de recuperación de información a un agente de búsqueda interno especializado.

Este Agente de búsqueda especializado está optimizado para la recuperación de información de compañía. Utiliza un bucle de razonamiento para formular y ejecutar búsquedas paralelas para explorar diferentes aspectos de la solicitud de un usuario. Utiliza un potente conjunto de herramientas, incluyendo la búsqueda unificada de Data 360 para todos los tipos de datos y lenguajes de consulta estructurados para recuperar datos precisos desde tablas y entidades.

A través de esta síntesis arquitectónica, Data 360 potencia la creación de experiencias de búsqueda de negocio de agentes altamente inteligentes, conscientes del contexto y con capacidad de acción.

La capacidad de ampliación es una función clave en Salesforce Platform. La extensión de código proporciona capacidad de ampliación en Data 360, permitiendo a los usuarios pro-código ejecutar lógica Python personalizada directamente dentro del entorno de Data 360, complementando sus funciones declarativas enriquecidas y de código bajo. Utilizando Extensión de código, los usuarios pueden ampliar de forma segura funciones principales de Data 360 como Transformaciones y Canalizaciones de datos no estructuradas (troceado personalizado).

Nuestro diseño para Extensión de código prioriza la flexibilidad, la seguridad, la eficiencia y una experiencia de desarrollador simplificada. Admite dos modelos de ejecución principales, cada uno adaptado a necesidades arquitectónicas específicas:

Modelo de secuencias: de comandos
- Objetivo: Para una lógica personalizada integral que requiere interacción directa con Data 360 Lakehouse.
- Funciones: Los clientes redactan secuencias de comandos Python completas utilizando el SDK de extensión de código, lo que permite el acceso de lectura y escritura a Lakehouse a través de las API de SDK. Ideal para la preparación de datos personalizados/complejos o la manipulación de datos a medida.
- Aislamiento y seguridad: Aunque las secuencias de comandos acceden a Lakehouse, su ejecución está confinada a un entorno seguro y aislado dentro del tiempo de ejecución de Data 360, evitando la interferencia con otros procesos o el acceso no autorizado al sistema.
Modelo de funciones:
- Objetivo: Análogo a una función sin servidor, para cálculos modulares sin estado invocados desde oportunidades en curso de Data 360 existentes (por ejemplo, fragmentación personalizada en una oportunidad en curso no estructurada).
- Funciones: Las funciones proporcionadas por el cliente toman entrada, computan y devuelven salida.
- Aislamiento y seguridad: Estas funciones están diseñadas para un aislamiento estricto; no tienen acceso directo a Lakehouse. Su ejecución es sandbox, sin estado y con recursos limitados, lo que las hace adecuadas para pasos de procesamiento centrados y sin estado, garantizando la seguridad, la ejecución predecible y minimizando el radio de explosión.

Trayectoria de datos integrada: Extensión de código en sus oportunidades en curso

Tanto el modelo de secuencia de comandos como el de función tienen como objetivo ejecutar código de cliente de forma segura, evitando que el código de un arrendatario afecte a otros u obtenga acceso no autorizado a los datos de otros arrendatarios, recursos de Salesforce o recursos externos. Esta seguridad se logra a través de una arquitectura por capas (defensa en profundidad). Esta arquitectura proporciona un entorno de ejecución aislado para el código personalizado de cada arrendatario, incorporando varias barandillas. Estos incluyen el aislamiento lógico a nivel de Kubernetes (K8s), el aislamiento de red, el sandbox en tiempo de ejecución y los permisos de menor privilegio, todo ello complementado con monitoreo operativo y preparación de la respuesta ante incidentes para la detección y la respuesta.

Para dar cobertura a un ciclo de vida de desarrollo sólido, Extensión de código ofrece:

Escritoría y depuración externas: Los desarrolladores pueden crear y depurar código Python en entornos familiares como VSCode, aprovechando el SDK.
Implementación flexible: El código personalizado se puede empaquetar e implementar utilizando utilidades de SDK, la interfaz de usuario de Data 360 o la API, lo que permite la integración en CI/CD.

Registros operativos: El acceso a registros de ejecución detallados proporciona transparencia y ayuda a solucionar problemas en producción.

Ofreciendo estas funciones de extensión de código seguras y flexibles, Data 360 permite a los arquitectos adaptar la plataforma a sus requisitos de procesamiento de datos más exclusivos y complejos, consolidando realmente su función como un tejido de datos de compañía ampliable.

A medida que las empresas aceleran la adopción de la IA, la mayoría mantiene ecosistemas de ML heterogéneos, incluyendo Amazon SageMaker, la IA de Google Vertex y entornos basados en Python personalizados, alojando modelos que dirigen predicciones críticas para la misión, como el puntuaje de riesgo de crédito, la propensión a abandonos, recomendaciones de productos y decisiones de la siguiente mejor acción.

Tradicionalmente, la integración de estos modelos externos en Salesforce requería capas de API a medida, oportunidades en curso de ETL u orquestación de middleware, introduciendo duplicación de datos, gastos generales de gobernanza, latencia y complejidad operativa: retos que entran en conflicto con una visión de Customer Data Platform (CDP) unificada, compatible y en tiempo real.

Aportar su propio modelo (BYOM): Entregado a través de Einstein Studio en Data 360, soluciona estos desafíos activando la invocación directa de modelos entrenados externamente en flujos de trabajo de Salesforce, lógica Apex y herramientas de automatización, sin mover o replicar datos. A través de la federación de copia cero, Data 360 actúa como la única fuente de verdad gobernada, exponiendo datos Customer 360 armonizados para inferencia en extremos externos. Las salidas de predicción vuelven a fluir en tiempo real, potenciando procesos de negocio con inteligencia ampliable.

BYOM cierra de forma efectiva la brecha entre la ciencia de datos y la ejecución operativa desvinculando el desarrollo de modelos, los datos gobernados y las capas de consumo. Preserva la independencia de la plataforma, reduce la complejidad de la integración, acelera la implementación de la IA y mantiene la gobernanza sobre datos confidenciales.

La arquitectura funciona del siguiente modo: Data 360 proporciona una base de datos Customer 360 unificada, mientras Einstein Studio orquesta conexiones a plataformas ML externas (SageMaker, IA de Vertex o extremos personalizados). Los modelos externos ejecutan inferencias en tiempo real, por lotes o modos de transmisión. Las capas de Salesforce (Flow, Apex y las API de consulta) consumen resultados para entregar perspectivas personalizadas, automatizadas y analíticas entre Sales, Service, Marketing e Industry Cloud.

Desde el punto de vista de la compañía, BYOM ofrece:

Integridad y gobernanza de datos: Elimina copias de datos no controladas y aplica el cumplimiento de políticas.
Democratización de IA: Hace que los modelos complejos sean accesibles para usuarios no técnicos a través de herramientas de Salesforce.
Aceleración de tiempo a valor: Los modelos externos se activan inmediatamente en procesos de Salesforce.
Escalabilidad y compatibilidad de arquitectura híbrida: Activa la implementación de múltiples nubes de cargas de trabajo de IA.
Arquitectura de IA preparada para el futuro: Admite estrategias de IA componibles, desvinculando datos, modelo y capas de consumo para agilidad operativa.

Aportar su propio LLM (BYO-LLM): Ofrece el mismo mecanismo de capacidad de ampliación pero para modelos generativos. Activando la invocación directa de LLM externos, permitimos a los clientes utilizarlos en Agentforce Platform en lugar de modelos proporcionados por Salesforce. Para empresas BYO-LLM permite:

Acceso a modelos ajustados
Integración de modelos no proporcionados actualmente por Salesforce
Uso de modelos en cuentas proporcionadas por el cliente

Las empresas modernas operan en un panorama de datos complejo caracterizado por dos retos arquitectónicos principales:

Fragmentación intraempresarial: Las organizaciones de gran tamaño utilizan con frecuencia múltiples organizaciones de Salesforce (a menudo segmentadas por región, unidad de negocio o adquisición histórica) y numerosos otros sistemas de datos. Esta fragmentación crea silos de datos internos, lo que hace imposible establecer una vista única, de confianza y unificada del cliente para la implicación en tiempo real en todo el negocio. El reto es unificar estos datos sin consolidarlos físicamente o duplicarlos en todos los sistemas, garantizando que la gobernanza permanece intacta.
Colaboración entre empresas: Las compañías a menudo necesitan compartir datos con socios y proveedores para marketing conjunto, medición e inteligencia de negocio. El reto es activar esta colaboración mientras protege datos confidenciales y patentados y cumple con leyes de privacidad como el RGPD y CCPA, así como barreras competitivas.

Salesforce Data 360 aborda estos retos con un marco de trabajo Trust by Design de copia cero creado sobre el principio de compartir el acceso y las perspectivas en vez de mover o duplicar datos.

Salesforce Data 360 soluciona los retos de colaboración y fragmentación de datos con Data Cloud One, Colaboración de datos entre Data 360 y Salas limpias de datos de privacidad. Estas soluciones unifican datos de clientes, permiten el intercambio de datos seguro y proporcionan perspectivas que preservan la privacidad. Con un enfoque de copia cero, Trust by Design, las organizaciones pueden liberar el potencial de datos para la implicación en tiempo real, las asociaciones mejoradas y la toma de decisiones inteligente. Cada una de estas opciones de colaboración de datos tiene diferentes propósitos.

Habilitación de compañía interna con Data Cloud One

Data Cloud One es la solución arquitectónica fundamental para empresas que operan con múltiples organizaciones de Salesforce. Su propósito va más allá del simple uso compartido de datos; está diseñado para establecer una vista de cliente única y de confianza y activar funciones de plataforma Data 360 completas en toda la organización.

Este mecanismo se centra en una instancia designada de Home Org Data 360, que sirve como la autoridad central para la gestión de datos y la creación del perfil de cliente unificado. La organización de inicio es la organización en la que se aprovisiona Data 360. Se establece una conexión de Data Cloud One entre Data 360 y otras organizaciones de Salesforce, denominadas Organizaciones complementarias. Como parte de la conexión de Data Cloud One, Data 360 comparte uno o más de sus espacios de datos con cada organización complementaria, proporcionando acceso a datos y metadatos en cada espacio de datos compartido. Esto se logra a través de un modelo de federación de copia cero y sincronización de metadatos entre organizaciones.

Data Cloud One también permite a las organizaciones de compañía aprovechar la instancia Data 360 de la organización de inicio para sus propias necesidades de activación, personalización e inteligencia. Esta estrategia es esencial para eliminar la fragmentación de datos interna y garantizar que todas las unidades de negocio se activen en el mismo perfil de cliente, gobernado y unificado, maximizando el desempeño de las inversiones de la implementación principal de Data 360.

Colaboración de datos entre organizaciones de Data 360

Para entornos internos distribuidos (donde la centralización completa no es factible) y para la colaboración con socios externos de confianza, la colaboración de datos de Data 360 a Data 360 conecta instancias independientes de Data 360.

Compartir datos entre organizaciones de Data 360

Este modelo de colaboración de copia cero establece una conexión entre arrendatarios de Data 360 separados aprovisionados en diferentes organizaciones de Salesforce con el fin de un intercambio seguro de objetos de datos (DLO, DMO y CIO). Una vez conectado, todo el objeto de datos se vuelve accesible en el destinatario Data 360. El administrador de Data 360 del destinatario puede establecer reglas de gobernanza para gestionar el acceso de los usuarios a estos datos.

Privacidad-Primera colaboración con la colaboración de salas blancas de Data 360

Cuando la colaboración requiere los niveles más altos de privacidad y cumplimiento, o cuando las preocupaciones de la competencia prohíben el uso compartido de datos sin procesar, Data 360 Clean Rooms tiene un mandato arquitectónico.

Arquitectónicamente, la colaboración de salas blancas de Data 360 está construida sobre el marco de trabajo Colaboración de copia cero utilizado por la colaboración de datos de Data 360 a Data 360, pero con capas adicionales de regulación y restricciones computacionales aplicadas. La Sala blanca de Data 360 proporciona un entorno informático seguro y controlado donde las partes pueden unir sus conjuntos de datos basándose en claves anónimas. Su propósito principal es permitir el análisis conjunto y la generación de perspectivas sin exponer los datos patentados subyacentes. El entorno aplica reglas programables estrictas como umbrales de agregación mínimos e identificadores no exportables. Estas reglas garantizan que solo se deriven y compartan perspectivas aprobadas, de mejora de la privacidad y agregadas. Esto hace que Salas limpias sea esencial para casos de uso como la medición de campañas entre plataformas y el análisis de solapamiento de audiencia confidencial.

Data 360 está diseñado como una estructura de datos inteligente, ampliable y de confianza necesaria para impulsar la IA de próxima generación. Su diseño arquitectónico soluciona el problema de los datos fragmentados, permitiendo a las organizaciones unificar, procesar y activar todos los datos de clientes a escala, utilizando la federación de datos de copia cero para garantizar la eficiencia.

Su sólida Organización de datos establece una vista armonizada desde los DLO (incluyendo datos no estructurados) a los DMO, todo ello protegido dentro de espacios de datos particionados. Las versátiles funciones de procesamiento de datos de Data 360, incluyendo transformaciones por lotes y transmisión, perspectivas calculadas, procesamiento de datos no estructurado y resolución de identidad, están impulsadas por la arquitectura incremental de SNCE y CDF, garantizando un procesamiento eficiente casi en tiempo real y ahorros de costos significativos.

La capacidad de ampliación se proporciona por la arquitectura Extensión de código, activando de forma segura la lógica Python personalizada a través de secuencias de comandos o Funciones aisladas para requisitos exclusivos. Además, un marco de trabajo de gobernanza de datos integral, construido sobre el control de acceso basado en atributos (ABAC) con políticas de CEDAR, garantiza seguridad granular, enmascaramiento de datos dinámico y aplicación coherente en todo el consumo de datos. Esto culmina en funciones de segmentación y activación sofisticadas, traduciendo perfiles de clientes unificados en estrategias de implicación dinámicas de múltiples canales con capacidad de respuesta en tiempo real.

De manera crucial, la capacidad de Data 360 para unificar datos vastos y diversos, proporcionar contexto en tiempo real a través de su consulta unificada (incluyendo búsqueda estructurada/no estructurada híbrida y aceleración Hyper) y aplicar una regulación estricta es primordial para potenciar agentes de IA inteligentes. Proporciona los datos de confianza, actualizados y relevantes necesarios para fundamentar flujos de trabajo de IA generativa (RAG) y alimentar las funciones de múltiples turnos orientadas a la acción de agentes con tecnología Agentforce, garantizando que operan con precisión y precisión.

Proporcionando una plataforma preparada para el futuro donde los datos de origen se transforman en perspectivas con capacidad de acción, Data 360 sirve como una base arquitectónica indispensable para organizaciones que crean experiencias de clientes de Agentic. Es la columna vertebral vital que convierte los datos de los clientes en experiencias de clientes sofisticadas y personalizadas que impulsan el éxito para las organizaciones modernas de hoy.