Arquitectura de datos

Gestión de datos en almacenes de datos distribuidos

Corporación Actian

17 de julio de 2019

almacén de datos distribuido

La integración de datos, al igual que las iniciativas de transformación digital que respalda, es un viaje y no un destino. Todas las empresas se encuentran en algún punto del camino desde el pasado hasta el estado deseado de integración futura que les gustaría alcanzar. Si su empresa existe desde hace varios años, es probable que tenga varias bases de datos, almacenes de datos y almacenes de datos, desarrollados para funciones empresariales independientes, que ahora deben integrarse para proporcionar la perspectiva holística que requieren los procesos empresariales transformados digitalmente.

Puede que tenga la ambición de fusionar todos sus datos en un único almacén de datos (un esfuerzo potencialmente plurianual); también podría decidir conservar sus sistemas heredados; o podría optar por reestructurar sus datos de una forma nueva y distribuirlos por almacenes de datos regionales. Cualquiera de estos escenarios tiene algo en común: tendrá que gestionar consultas distribuidas durante bastante tiempo (si no indefinidamente).

Los responsables de TI aceptan cada vez más la necesidad de las consultas distribuidas, pero, al mismo tiempo, están cada vez más preocupados por las implicaciones en el rendimiento tanto de los sistemas operativos como de los análisis que deben aprovechar los datos de los almacenes distribuidos. Las plataformas de integración basadas en la nube y los almacenes de datos híbridos ofrecen una respuesta a algunos de estos retos.

¿Por qué son problemáticas las consultas distribuidas?

Las consultas distribuidas que abarcan varios almacenes de datos suponen un reto para el rendimiento debido a la latencia causada por las uniones remotas, las operaciones iterativas y los grandes conjuntos de datos que (además de procesarse dentro de una base de datos) también deben atravesar la infraestructura de red. A medida que los análisis se vuelven más complejos y los conjuntos de datos subyacentes aumentan (ambas situaciones habituales), la consulta requiere más tiempo para procesarse.

Esto no es un gran problema para las operaciones de procesamiento por lotes, pero los casos de uso de los datos integrados se centran cada vez más en proporcionar información en tiempo real. Esto puede formar parte de un proceso transaccional que esté realizando un agente (como la comprobación del historial de pedidos, el almacenamiento o la compilación de una visión de 360 grados del cliente, etc.) o puede tratarse de supervisión y análisis en tiempo real para impulsar la prise de décision operativas prise de décision. En cualquier caso, los usuarios finales tienen poca tolerancia a los retrasos en el procesamiento de datos y esperan que los datos sean correctos, sólidos y actuales (en tiempo real).

¿Cómo afrontar el reto de las consultas distribuidas?

Los equipos informáticos disponen de varias opciones para resolver los problemas de rendimiento de las consultas distribuidas.

  1. Fusionar almacenes de datos distribuidos en una única instancia: aunque parece la solución más eficiente, a menudo no es una alternativa rentable debido a las inversiones en infraestructuras heredadas, los costes de migración y la interrupción del negocio.
  2. Separar las consultas y realizar el procesamiento de agregación en la capa de aplicación - Muchas pequeñas empresas han utilizado este enfoque, confiando en servicios Web o aplicaciones cliente para combinar datos de fuentes distribuidas. Aunque evita los problemas de las consultas distribuidas, la infraestructura de aplicaciones suele tener menos capacidad y velocidad de procesamiento que la infraestructura de bases de datos y, como resultado, rara vez se consiguen las ganancias de rendimiento deseadas.
  3. Añadir una capa de agregación de almacén de datos operativos a la arquitectura de la solución - Este enfoque está demostrando ser el método más eficaz para lograr de haute performance procesamiento de datos de haute performance a escala empresarial. Deje los datos en los sistemas de origen y replique la información que necesita para las consultas en una capa especializada de almacén de datos creada específicamente para la agregación y el servicio de solicitudes de consulta en tiempo real. Estos sistemas a menudo pueden implementarse con una modificación mínima del código de la aplicación y pueden escalarse utilizando servicios en la nube para soportar incluso grandes conjuntos de datos empresariales.

Es probable que los almacenes de datos distribuidos formen parte del ecosistema informático de las empresas durante muchos años. Tomar décisions éclairées sobre cómo gestionar los datos en estos almacenes y respaldar las operaciones de consulta distribuida en tiempo real es esencial para ayudar a su empresa a pasar de la transformación digital básica a la prise de décision y la agilidad empresarial basadas en datos en tiempo real.

Las plataformas de gestion des données en la nube de Actian pueden ayudar. Además de proporcionar una plataforma de integración basada en la nube híbrida basada en Actian DataConnect, Actian también permite a las organizaciones implementar almacenes de datos en plataformas en la nube y sur site.

logo avatar actian

Acerca de Actian Corporation

Actian hace que los datos sean fáciles. Nuestra plataforma de datos simplifica el modo en que las personas conectan, gestionan y analizan los datos en entornos en la nube, híbridos y locales. Con décadas de experiencia en gestión de datos y análisis, Actian ofrece soluciones de alto rendimiento que permiten a las empresas tomar decisiones basadas en datos. Actian cuenta con el reconocimiento de los principales analistas y ha recibido premios del sector por su rendimiento e innovación. Nuestros equipos comparten casos de uso probados en conferencias (por ejemplo, Strata Data) y contribuyen a proyectos de código abierto. En el blog de Actian, tratamos temas que van desde la ingesta de datos en tiempo real hasta el análisis basado en IA. Conozca al equipo directivo https://www.actian.com/company/leadership-team/