Plataforma de datos

El lugar donde se realiza el procesamiento analítico es importante

Corporación Actian

20 de julio de 2020

Procesamiento analítico

La oferta de Vector para Hadoop de Actian ofrece un mayor rendimiento para las consultas analíticas sin el aumento de costes asociado. Si busca de haute performance procesamiento analítico de haute performance para impulsar la prise de décision operativas, el lugar donde realice el procesamiento es importante. Al minimizar el movimiento de datos y el procesamiento local, puede reducir drásticamente la latencia. Si utiliza un sistema como Actian Vector para realizar ese procesamiento local, podrá alcanzar niveles de rendimiento aún mayores.

En la caja, en el centro de datos o en todo el país

Cuando la gente oye la frase "el lugar donde se realiza el procesamiento es importante", lo primero que le viene a la cabeza es la latencia de la red. Es fácil entender cómo la transmisión de datos por Internet, a través del país, o incluso a través de la ciudad, puede ralentizar su procesamiento. Lo mismo ocurre dentro de su centro de datos. Colocar el almacenamiento y la informática cerca unos de otros (en el mismo bastidor o incluso en el mismo dispositivo) reduce la latencia del procesamiento.

Muchas empresas están aprovechando los servicios en la nube y los sistemas distribuidos para aumentar el rendimiento de las operaciones OLTP de los usuarios finales. Cuando llega el momento de realizar análisis, la cuestión de la distancia vuelve a entrar en juego. ¿Dónde debería realizar su procesamiento analítico? Para la mayoría de las empresas, la nube es el lugar adecuado para alojar su almacén de datos y realizar el ressources de calcul analítico, ya que le permite situar su análisis más cerca de sus almacenes de datos y, al mismo tiempo, aprovechar ressources de calcul a escala de la nube.

Suponiendo que haya resuelto estos problemas de "gran distancia", ¿es posible optimizar aún más? Sí, es posible. Si los objetivos que pretende alcanzar son el procesamiento de macrodatos o el análisis en tiempo real para impulsar las operaciones y la prise de décision , debe llevar sus performances analytiques al siguiente nivel y estudiar cómo optimizar las bases de datos y el software que utiliza para aprovechar al máximo la capacidad de los recursos disponibles.

El disco es lento. La memoria es mejor. La caché de chip es la más rápida

Echemos un vistazo a lo que ocurre dentro de un sistema analítico (el hardware y el software que utiliza). Estos sistemas suelen constar de tres componentes de hardware que influyen directamente en el rendimiento: discos, memoria y caché de chip. Cuando se realizan operaciones de cálculo (que en realidad no son más que un montón de fórmulas matemáticas), se manipulan datos que están almacenados en uno de estos tres lugares. Los chips tienen cierta memoria caché interna, que ofrece el rendimiento más rápido pero la menor capacidad. Los chips de memoria RAM tienen más capacidad (aunque es limitada) y un rendimiento bastante rápido porque los datos se mantienen temporalmente en un estado de suspensión en lugar de escribirse en un soporte físico, pero mucho más lento que la memoria caché de los chips. El almacenamiento en disco es más lento porque los datos se escriben en un soporte físico (un disco) y se leen de este soporte físico cuando es necesario acceder a ellos. Con el almacenamiento en la nube, la capacidad de disco disponible es casi ilimitada.

Los sistemas de almacén de datos y análisis utilizan cada uno de estos tipos de almacenamiento junto con la capacidad de cálculo de las CPU de diferentes maneras. Esto es lo que da a Actian Vector una ventaja de rendimiento sobre otras soluciones. Vector optimiza el uso de cada capa en la infraestructura del sistema, eliminando la capacidad desperdiciada tanto para maximizar el rendimiento como para minimizar los costes. He aquí un par de ejemplos:

Maximizar la utilización de los núcleos processeur

Las CPU modernas tienen varios núcleos, lo que significa que pueden ejecutar varias operaciones al mismo tiempo. Desafortunadamente, la mayoría del software (incluyendo los sistemas de almacenamiento de datos) no están diseñados para aprovechar esta capacidad de procesamiento paralelo, y como resultado, se termina utilizando una pequeña parte de la capacidad disponible. Actian Data Platform y Actian Vector están diseñados para ejecutar eficientemente un gran número de consultas concurrentes solicitadas por un gran número de usuarios. Las consultas se dividen en pequeños trozos donde pueden ejecutarse en paralelo. Esto es importante porque maximiza el uso de la capacidad de processeur que tiene disponible. Los ciclos de processeur son una capacidad basada en el tiempo. Piense que son como las horas del día que tiene para realizar tareas. El reto consiste en utilizar la capacidad disponible de la forma más eficiente y evitar los tiempos muertos, porque una vez que el tiempo ha pasado, ya no se puede recuperar.

Reducción de la cantidad de datos que se escriben y leen en los discos

Las soluciones Actian están diseñadas para un uso altamente eficiente de los discos, reduciendo las operaciones de E/S que pueden ralentizar el procesamiento analítico. Actian Data Platform es una base de datos columnar pura. Las bases de datos tradicionales se basan en filas: los registros están en filas y hay que leer toda la fila para realizar una consulta y un análisis. Actian trata los datos como una serie de columnas - esto es lo que la optimiza para el procesamiento analítico. Dado que una columna de datos es del mismo tipo, las operaciones analíticas pueden optimizarse. Cada columna se almacena como archivos en el disco con varios bloques de datos. Los índices MinMax en los bloques de datos permiten una clasificación más rápida de los datos, ya que ayudan a la plataforma a identificar de forma más eficiente qué datos está intentando analizar el usuario y cuáles pueden ignorarse.

Cuando se realizan análisis operativos y se intenta impulsar la toma de decisiones en tiempo real con datos, se necesita el mejor rendimiento posible. Mediante una combinación de un aumento de las operaciones que tienen lugar utilizando caché de chip y memoria caché junto con un proceso más eficiente de gestión de los datos almacenados en el disco, Actian puede optimizar el rendimiento y la utilización del hardware de la base de datos y, al mismo tiempo, minimizar la cantidad de datos escritos en el disco. Ambas cosas son importantes porque se traducen directamente en una reducción de los costes operativos. De lo que se trata es de "utilizar los recursos de los que se dispone de forma más eficiente" para alcanzar el máximo rendimiento y minimizar los costes.

Para más información, visite https://www.actian.com/lp/actian-vector-sql-accelerator-for-hadoop/

logo avatar actian

Acerca de Actian Corporation

Actian hace que los datos sean fáciles. Nuestra plataforma de datos simplifica el modo en que las personas conectan, gestionan y analizan los datos en entornos en la nube, híbridos y locales. Con décadas de experiencia en gestión de datos y análisis, Actian ofrece soluciones de alto rendimiento que permiten a las empresas tomar decisiones basadas en datos. Actian cuenta con el reconocimiento de los principales analistas y ha recibido premios del sector por su rendimiento e innovación. Nuestros equipos comparten casos de uso probados en conferencias (por ejemplo, Strata Data) y contribuyen a proyectos de código abierto. En el blog de Actian, tratamos temas que van desde la ingesta de datos en tiempo real hasta el análisis basado en IA. Conozca al equipo directivo https://www.actian.com/company/leadership-team/