Gestión de datos en almacenes de datos distribuidos
Corporación Actian
17 de julio de 2019

La integración de datos, al igual que las iniciativas de transformación digital que respalda, es un viaje y no un destino. Todas las empresas se encuentran en algún punto del camino desde el pasado hasta el estado deseado de integración futura que les gustaría alcanzar. Si su empresa existe desde hace varios años, es probable que tenga varias bases de datos, almacenes de datos y almacenes de datos, desarrollados para funciones empresariales independientes, que ahora deben integrarse para proporcionar la perspectiva holística que requieren los procesos empresariales transformados digitalmente.
Puede que tenga la ambición de fusionar todos sus datos en un único almacén de datos (un esfuerzo potencialmente plurianual); también podría decidir conservar sus sistemas heredados; o podría optar por reestructurar sus datos de una forma nueva y distribuirlos por almacenes de datos regionales. Cualquiera de estos escenarios tiene algo en común: tendrá que gestionar consultas distribuidas durante bastante tiempo (si no indefinidamente).
Los responsables de TI aceptan cada vez más la necesidad de las consultas distribuidas, pero, al mismo tiempo, están cada vez más preocupados por las implicaciones en el rendimiento tanto de los sistemas operativos como de los análisis que deben aprovechar los datos de los almacenes distribuidos. Las plataformas de integración basadas en la nube y los almacenes de datos híbridos ofrecen una respuesta a algunos de estos retos.
¿Por qué son problemáticas las consultas distribuidas?
Las consultas distribuidas que abarcan varios almacenes de datos suponen un reto para el rendimiento debido a la latencia causada por las uniones remotas, las operaciones iterativas y los grandes conjuntos de datos que (además de procesarse dentro de una base de datos) también deben atravesar la infraestructura de red. A medida que los análisis se vuelven más complejos y los conjuntos de datos subyacentes aumentan (ambas situaciones habituales), la consulta requiere más tiempo para procesarse.
Esto no es un gran problema para las operaciones de procesamiento por lotes, pero los casos de uso de los datos integrados se centran cada vez más en proporcionar información en tiempo real. Esto puede formar parte de un proceso transaccional que esté realizando un agente (como la comprobación del historial de pedidos, el almacenamiento o la compilación de una visión de 360 grados del cliente, etc.) o puede tratarse de supervisión y análisis en tiempo real para impulsar la prise de décision operativas prise de décision. En cualquier caso, los usuarios finales tienen poca tolerancia a los retrasos en el procesamiento de datos y esperan que los datos sean correctos, sólidos y actuales (en tiempo real).
¿Cómo afrontar el reto de las consultas distribuidas?
Los equipos informáticos disponen de varias opciones para resolver los problemas de rendimiento de las consultas distribuidas.
- Fusionar almacenes de datos distribuidos en una única instancia: aunque parece la solución más eficiente, a menudo no es una alternativa rentable debido a las inversiones en infraestructuras heredadas, los costes de migración y la interrupción del negocio.
- Separar las consultas y realizar el procesamiento de agregación en la capa de aplicación - Muchas pequeñas empresas han utilizado este enfoque, confiando en servicios Web o aplicaciones cliente para combinar datos de fuentes distribuidas. Aunque evita los problemas de las consultas distribuidas, la infraestructura de aplicaciones suele tener menos capacidad y velocidad de procesamiento que la infraestructura de bases de datos y, como resultado, rara vez se consiguen las ganancias de rendimiento deseadas.
- Añadir una capa de agregación de almacén de datos operativos a la arquitectura de la solución - Este enfoque está demostrando ser el método más eficaz para lograr de haute performance procesamiento de datos de haute performance a escala empresarial. Deje los datos en los sistemas de origen y replique la información que necesita para las consultas en una capa especializada de almacén de datos creada específicamente para la agregación y el servicio de solicitudes de consulta en tiempo real. Estos sistemas a menudo pueden implementarse con una modificación mínima del código de la aplicación y pueden escalarse utilizando servicios en la nube para soportar incluso grandes conjuntos de datos empresariales.
Es probable que los almacenes de datos distribuidos formen parte del ecosistema informático de las empresas durante muchos años. Tomar décisions éclairées sobre cómo gestionar los datos en estos almacenes y respaldar las operaciones de consulta distribuida en tiempo real es esencial para ayudar a su empresa a pasar de la transformación digital básica a la prise de décision y la agilidad empresarial basadas en datos en tiempo real.
Las plataformas de gestion des données en la nube de Actian pueden ayudar. Además de proporcionar una plataforma de integración basada en la nube híbrida basada en Actian DataConnect, Actian también permite a las organizaciones implementar almacenes de datos en plataformas en la nube y sur site.
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.