Sin categoría

¿Qué son las herramientas ETL?

Transmisión de ETL pipeline

ETL es el acrónimo de extraer, transformar y cargar. El objetivo del proceso ETL es extraer datos brutos de los sistemas de origen, refinarlos y cargarlos en un almacén de datos de destino donde puedan utilizarse para la prise de décision empresariales.

¿Qué son las herramientas ETL?

Los ingenieros y profesionales de datos utilizan las herramientas ETL para poblar un almacén de datos con datos de calidad suficiente como para poder confiar en ellos a la hora de prise de décision. Las herramientas ETL proporcionan los medios para simplificar y gestionar el proceso ETL, lo que permite ampliar el movimiento de datos a los almacenes de datos mediante la automatización.

Las herramientas ETL facilitan la conectividad con las fuentes de datos y ofrecen funciones para filtrar, fusionar y rellenar huecos de datos utilizando una base de datos de puesta en escena. Los datos de salida del proceso de staging y nettoyage des données se cargan en el almacén de datos de destino. Las herramientas ETL permiten supervisar de principio a fin el proceso de transferencia y transformación de datos y ofrecen funciones de programación para una gestión operativa continua. La mayoría de las herramientas se centran en el contenido y el formato de los datos utilizando tecnología de transferencia de archivos de terceros para mover los datos en flujos o lotes.

Tipos de herramientas ETL

Las herramientas ETL pueden segmentarse en las siguientes categorías, aunque muchas herramientas abarcan varios segmentos:

  • Herramientas ETL por lotes: que programan las transformaciones y transferencias de datos de un día para otro o en microlotes.
  • Herramientas ETL en tiempo real - que admiten el flujo de datos o la replicación de datos a través de CDC (Captura de Datos Modificados).
  • Herramientas ETL locales: ofrecen herramientas de estudio de diseño descargables para facilitar el desarrollo.
  • Herramientas ETL basadas en la nube - que ofrecen déploiement a través de múltiples plataformas en la nube.

¿Es SQL una herramienta ETL?

Existe una clase de ETL conocida como ELT, que carga datos sin procesar en la base de datos de destino, donde se transforman dentro de la misma base de datos. El lenguaje de consulta estructurado(SQL) puede utilizarse para algunas funciones ETL, pero carece de los aspectos de supervisión y gestión de las principales herramientas ETL. SQL puede utilizarse para realizar transformaciones de datos mediante funciones incorporadas. El propio SQL puede filtrar, combinar y ordenar datos. Si la tecnología del almacén de datos admite datos externos, en algunos casos puede omitirse la etapa de carga de datos. Sin embargo, el uso de datos externos conlleva una importante pérdida de rendimiento.

Muchas bases de datos comerciales ofrecen capacidades SQL distribuidas para que pueda crear talos remotos utilizando, por ejemplo, CREATE REMOTE-TABLE-NAME AS SELECT * FROM LOCAL-TABLE-NAME. Los datos pueden moverse a través de nodos remotos utilizando INSERT INTO NOMBRE-TABLE-LOCAL como SELECT * FROM NOMBRE-TABLE-REMOTA.

¿Es SSIS una herramienta ETL?

Microsoft SSIS (SQL Server Integration Services) es una herramienta ETL capaz de crear flujos de trabajo para soportar canalizaciones de datos para almacenes de datos de SQL Server. SSIS incluye una interfaz de usuario de diseño gráfico que se utiliza para desarrollar un paquete ETL que incluye lógica de procedimiento y gestión de errores. SSIS está muy orientado a la plataforma SQL Server, por lo que no debe considerarse como una herramienta ETL general que abarque plataformas más allá de Windows y que pueda utilizarse con bases de datos que no sean de Microsoft.

gestion des données informatique dans le cloud

La principal diferencia entre los sistemas locales y informatique dans le cloud es que usted utiliza el servidor y los recursos de almacenamiento de otra persona a través de una conexión segura a Internet. Puede construir una plataforma de aplicaciones a partir de hierro en bruto con una configuración local en su propio centro de datos. Puede elegir qué sistema operativo utilizar, decidir si quiere usar software de virtualización y elegir entre almacenamiento conectado directamente o en red. Todo se conecta mediante conexiones de red gigabit de alta velocidad.

La gestion des données in situ es fácil porque sus datos y servidores están en una única ubicación con conexiones de baja latencia. Usted ha comprado el hardware, así que no necesita pagar por su uso con una suscripción medida para el processeur y el almacenamiento. El inconveniente de este enfoque es que hay que comprar más hardware cuando se ha utilizado la capacidad disponible, y normalmente se compran sistemas más grandes de lo que se necesita, ya que hay que hacer frente a los picos de uso.

La gestion des données en entornos informatique dans le cloud tiene algunas ventajas claras. Como se utiliza un modelo de suscripción de pago por uso, no hay que destinar presupuestos de capital a la expansión, sino que se puede comprar almacenamiento adicional cuando sea necesario. Otra gran ventaja es que los sistemas en la nube están cada vez más definidos por software, por lo que no tiene que limitarse al tamaño de almacenamiento máximo, ya que puede ampliar y reducir su huella de almacenamiento según sea necesario. Si usted es un minorista y su negocio es estacional, puede dimensionar su almacenamiento e informática para que coincidan con los ciclos de procesamiento estacionales.

Las propiedades del almacenamiento pueden ser muy diferentes en la nube. Todos los proveedores ofrecen almacenamiento por niveles, por lo que puede optar por pagar por un almacenamiento caro y de alta velocidad basado en SSD o, si el rendimiento no es tan crítico, puede utilizar discos duros tradicionales para ahorrar dinero. La tecnología de bases de datos en la nube se está volviendo cada vez más sin servidor, por lo que puede disfrutar de computación y almacenamiento elásticos que se abstraen de las limitaciones del servidor físico y del dispositivo de almacenamiento. Sólo tiene que elegir las diferentes clases de almacenamiento y computación que satisfagan las necesidades de su aplicación.

La alta disponibilidad también es diferente en la nube porque usted elige un centro de datos en la nube cerca de donde genera y procesa sus datos. Para una alta disponibilidad, puede dividir su almacenamiento en varios dispositivos de almacenamiento para protegerse de los fallos de los dispositivos. Para protegerse contra fallos del centro de datos debidos a desastres como incendios, inundaciones o terremotos, puede designar un centro de datos de reserva en una geografía diferente.

La latencia de la red es una consideración importante cuando se opera en la nube. Las conexiones de red entre centros de datos en la nube no serán tan rápidas como dentro de un mismo centro de datos. Es aconsejable realizar el análisis de datos en la misma región de la nube que aloja su lago de datos. Los proveedores de nubes públicas suelen cobrar tarifas de salida basadas en el volumen de datos que se mueven, lo que es una razón adicional para procesar los datos allí donde se crean.

Los proveedores de servicios en la nube tienen sus propios ecosistemas de gestion des données , como Google Big Query, Azure Synapse y Amazon RedShift, que ofrecen razones de peso para quedarse con su plataforma. Sin embargo, la mayoría de las empresas no quieren depender de una única fuente de tecnología crítica para poder obtener siempre el mejor valor cuando lo necesiten. Por este motivo, las soluciones de gestion des données que abarcan varias plataformas en la nube y pueden ejecutarse in situ ofrecen la máxima flexibilidad. La plataforma Actian Data Platform ofrece esta flexibilidad. Actian Data Platform está diseñada para ofrecer un alto rendimiento y escalabilidad en volúmenes de datos, usuarios simultáneos y complejidad de las consultas.

gestion des données en la nube Errores a evitar

Cloud gestion des données errores a evitar incluyen:

  • Evite la dependencia de un proveedor seleccionando una solución de gestion des données que abarque nubes y ofrezca opciones on-prem. Elegir RedShift, por ejemplo, dificulta la migración a plataformas en la nube más allá de AWS.
  • No coloque sus datos en una región de la nube distinta de donde los procesa, arriesgándose a elevados gastos de salida. A veces es más rentable enviar datos a granel por camión que a través de conexiones a Internet.
  • No utilice un entrepôt de données cloud que sea incompatible con su tecnología on-premise para mantener bajos los costes de formación y abiertas las opciones de migración. Actian ofrece los mismos motores de bases de datos en la nube que on-premise.
  • No fragmente sus datos. Intenta consolidar los datos en el menor número posible de plataformas. Si estás recopilando datos en el extremo de la red para una aplicación IoT, intenta consolidarlos en 3 o 4 centros de datos para controlar la fragmentación.
  • Los sistemas que asocian el almacenamiento a la informática pueden ser un derroche, por lo que hay que buscar soluciones de gestion des données que permitan escalar la informática y el almacenamiento de forma independiente. Actian y Snowflake explotan las capacidades de computación y almacenamiento desacopladas de las plataformas en la nube.

Busque la mejor infraestructura de su clase, incluidos el hardware y las GPU más recientes, un amplio soporte de aplicaciones, una seguridad sólida, asistencia experta y una estructura de costes razonable y fácil de entender.

Evolución de ETL

  • En los años setenta, las bases de datos se cargaban mediante código personalizado o se introducían manualmente.
  • En los años 80, los cargadores por lotes importaban archivos planos a bases de datos como DB2, Ingres y Oracle.
  • En los años 90, los almacenes de datos empezaron a utilizar un proceso ETL formal.
  • En la década de 2000, el ETL se formalizó y surgieron nuevas herramientas ETL específicas.
  • La década de 2010 vio el auge de informatique dans le cloud con los almacenes de datos SaaS.