Grandes datos

Formas y gráficos de datos SaaS sobre la imagen de una mujer en la tecnología

El término Big Data describe conjuntos de datos demasiado grandes o complejos para ser procesados con los métodos tradicionales. También se utiliza para describir conjuntos de datos que deben procesarse en su totalidad para obtener información empresarial sobre la información contenida en los datos, ya que procesar subconjuntos de los datos podría llevar a conclusiones erróneas.

Tres atributos clave pueden caracterizarla: volumen, velocidad y variedad, que se explican a continuación:

  • El volumen puede variar según la aplicación y la empresa. Muchas empresas consideran Big Data cualquier jeu de données superior a diez terabytes, mientras que otras pueden utilizar el término para describir conjuntos de datos a escala de petabytes. Los registros web, los sistemas financieros, las redes sociales y los sensores IoT pueden generar grandes volúmenes de datos, lo que los hace cada vez más comunes.
  • La velocidad de creación de datos puede exigir un procesamiento in-memory en tiempo real en casos de uso como détection des fraudes o el procesamiento de sensores IoT en la fabricación. El procesamiento Edge y los dispositivos inteligentes pueden ayudar a reducir la velocidad de los datos mediante el preprocesamiento de un gran volumen de datos antes de que desborde los recursos del servidor central.
  • La variedad se refiere a los tipos de datos. No se limita únicamente a los datos estructurados. Sus conjuntos de datos también abarcan tipos de datos no estructurados y semiestructurados, como JSON, audio, texto y vídeo.

Almacenamiento de Big Data

Los primeros sistemas de almacenamiento de datos utilizados para el apoyo a la toma de decisiones se basaban en la tecnología de almacenamiento de datos para el almacenamiento y la recuperación de datos estructurados. Esto se convirtió en un factor limitante cuando las empresas empezaron a ver valor en los datos semiestructurados y no estructurados. Los sistemas de archivos estructurados, escalables y de código abierto evolucionaron para almacenar económicamente miles de archivos a los que se podía acceder mediante servidores en clúster. En los primeros tiempos, las pilas de software Apache Hadoop que se ejecutaban en clústeres de servidores gestionaban los archivos de Big Data.

Acceso SQL a Big Data

Apache Hive proporcionaba una API SQL que ponía los datos basados en archivos a disposición de las aplicaciones. Spark SQL proporciona una capa API que admite más de 50 formatos de archivo, ORC y Parquet. El software moderno basado en la nube y en la nube híbrida, como Actian Data Platform, proporciona un almacén de datos de análisis de datos de haute performance con la capacidad de acceder a formatos de archivo Hadoop como tablas externas mediante un conector Spark SQL incorporado. Al admitir formatos de datos semiestructurados populares, como JSON y registros de sitios web, además de Spark SQL y SQL estándar, los creadores de aplicaciones y los analistas de datos pueden acceder fácilmente a almacenes de Big Data en la nube y on-prem.

Tratamiento

Los sistemas de procesamiento que emplean capacidades de Procesamiento Paralelo Masivo (MPP) utilizando cientos de nodos de cálculo permiten analizar conjuntos de datos grandes y complejos. Los bajos costes de almacenamiento y la disponibilidad inmediata de ressources de calcul masivos ressources de calcul en función de las necesidades hacen que los servicios de informatique dans le cloud nube sean idóneos para grandes cantidades de procesamiento. Los precios de suscripción y el aprovisionamiento elástico hacen de la informatique dans le cloud una opción económica, ya que sólo se paga por los recursos que se utilizan. Las alternativas locales suelen utilizar sistemas en clúster o basados en GPU, que pueden aprovecharse para procesar consultas de forma muy paralela.

¿Por qué se utiliza?

Este enfoque se popularizó porque ofrecía una nueva fuente de datos empíricos para apoyar la prise de décision empresariales. Las organizaciones generan y recopilan grandes cantidades de datos que contienen información valiosa que sólo se hace evidente cuando los datos se procesan y analizan. La tecnología ha permitido a las empresas extraer de forma eficiente grandes conjuntos de datos en busca de nuevas perspectivas que les permitan ser competitivas y aumentar el éxito de las interacciones con los clientes. Tomar decisiones basadas en datos reales de los consumidores reduce los riesgos y los costes asociados a la prise de décision desinformada y, en última instancia, hace que la empresa sea más eficaz.

Casos de uso de Big Data

A continuación se ofrecen algunos ejemplos de su uso en el mundo real:

  • La industria sanitaria la utiliza para mejorar la atención al paciente mediante la telemetría de dispositivos inteligentes para llevar puestos que permiten controlar la salud del paciente, la tensión arterial, los niveles de glucosa y la frecuencia cardíaca, por ejemplo. Los ensayos clínicos recopilan enormes cantidades de datos que deben analizarse para gestionar y prevenir enfermedades.
  • El sector de las telecomunicaciones utiliza los datos recogidos de los abonados a servicios móviles para mejorar la fiabilidad de la red y expérience client.
  • La industria de los medios de comunicación aprovecha los datos de los usuarios para personalizar los contenidos según los intereses del espectador. Esto aumenta la satisfacción con el servicio y mejora la fidelidad del cliente.
  • El sector minorista necesita sus análisis para vender los productos que más interesan al comprador. Mediante el seguimiento de los clientes desde el comercio electrónico y la formulación de recomendaciones adecuadas, los minoristas pueden aumentar el tráfico peatonal a sus tiendas físicas.
  • Las entidades bancarias y aseguradoras lo utilizan para detectar transacciones potencialmente fraudulentas y evitar el blanqueo de dinero.
  • Las organizaciones gubernamentales las utilizan para mejorar la vigilancia policial y luchar contra la ciberdelincuencia. Las ciudades utilizan cámaras de tráfico para gestionar los accidentes y mejorar la fluidez del tráfico en las carreteras.
  • Los departamentos de marketing la utilizan para realizar campañas de publicidad digital y en redes sociales dirigidas a proporcionar a sus equipos de ventas contactos que puedan estar interesados en el producto o servicio que ofrece la empresa.

Big Data y Actian

Algunas de las ventajas de Actian Data Platform son las siguientes:

  • Máximo rendimiento para las cargas de trabajo más complejas.
  • Integración de datos integrada para cargar y acceder rápidamente a los datos, así como para su transformación y calidad.
  • Amplíe su almacén de datos en tiempo real en función de sus necesidades informáticas y de almacenamiento.
  • Cumplimiento de SOC 2 Tipo 2 para sus implantaciones de datos más sensibles.

Más información sobre Actian Data Platform en: https://www.actian.com/data-platform