Análisis de datos

Análisis de afinidad con la plataforma de datos Actian

Mary Schulte

29 de octubre de 2021

análisis de afinidad

El análisis de afinidades es la práctica de encontrar relaciones y patrones en los datos. Las empresas pueden utilizar los resultados de la analítica de afinidades para muchos efectos positivos. He aquí dos ejemplos de casos reales de clientes. En primer lugar, en el sector minorista, la dirección quiere saber qué productos suelen venderse bien juntos, con fines publicitarios y de colocación de productos. Esta información es fundamental para vender con éxito productos adicionales. Otro ejemplo, los proveedores de telecomunicaciones necesitan estudiar los datos de tráfico de la red para comprender los patrones de enrutamiento y maximizar los equipos y la topografía. Al igual que estos casos de uso, es probable que su empresa tenga casos de afinidad de datos que pueda aprovechar para tomar mejores decisiones empresariales. Actian proporciona la plataforma de almacén de datos para ayudarle a hacerlo.

A pesar de su evidente utilidad, la afinidad es difícil de encontrar en los almacenes de datos tradicionales porque implica ejecutar una de las sentencias SQL más difíciles y que más recursos consumen, la autounión de tablas de hechos (también conocida como consulta de "cesta de mercado"). Esta consulta es difícil porque las tablas de "hechos" de los almacenes de datos suelen contener miles de millones de filas (como la mía aquí), y unir miles de millones de filas entre sí para encontrar afinidades requiere mucha capacidad de procesamiento. De hecho, algunas plataformas no pueden hacerlo en absoluto, o tardan tanto que no se puede utilizar. Aquí es donde brilla la potencia de Actian Data Warehouse.

En este blog, explico cómo lograr con éxito el análisis de afinidad utilizando únicamente la funcionalidad integrada de Actian Data Warehouse, ¡sin necesidad de otras herramientas!

Actian proporciona analytique dans le cloud líder en la industria analytique dans le cloud, diseñada específicamente para un alto rendimiento. Lo que voy a mostrar aquí es que Actian - de forma nativa - proporciona las herramientas necesarias para llevar a cabo el análisis SQL, lo que le permite lograr cosas como el análisis de afinidad sin tener que embarcarse en proyectos gigantescos y costosos que implican herramientas adicionales de terceros.

Este es mi escenario:

Tengo un almacén de datos de venta al por menor. Marketing quiere planificar una campaña de publicidad por correo para promover las ventas de productos que normalmente se venden bien con los productos más vendidos de la tienda. En concreto, quieren enviar cupones por correo a los clientes que NO han comprado productos que normalmente se compran juntos, pero que HAN comprado al menos uno de los productos más vendidos. Quieren que les proporcione datos que respalden esta campaña.

Mi proceso de análisis será el siguiente:

  1. Investiga los datos.
  2. Encuentre los productos más vendidos (A).
  3. Encuentre los productos que se venden habitualmente con los productos estrella (B).
  4. Encuentre la población de clientes que compró A pero no B.
  5. Proporcionar información adecuada a marketing.

Para este blog, he creado un almacén de 8 AU (Actian Unit) en Google Cloud Platform. Una Actian Unit es una medida de potencia de informatique dans le cloud que puede ampliarse o reducirse. Véase la Figura 1.

Figura 1: Definición del almacén de la consola Avalancha
Figura 1: Definición del almacén de la consola Avalancha

Mi base de datos Actian tiene un esquema típico de venta al por menor, pero para este blog, sólo me centraré en cuatro tablas. Véase la figura 2.

Figura 2: Diagrama de ER para minoristas
Figura 2: Diagrama de ER para minoristas

He utilizado un generador de datos para generar una gran cantidad de datos, pero he añadido algunos patrones superpuestos artificialmente para hacer este blog más interesante. Mis tablas tienen el siguiente número de filas:

cliente 5,182,631
pedir 1,421,706,929
elemento de línea 45,622,951,425
producto 16,424

 

Ahora puedo utilizar las herramientas proporcionadas en el Query Editor de la consola de Actian para ejecutar mi proceso de análisis. Puede encontrar el Editor de consultas en la esquina superior derecha de la página de definición del almacén. Lo he marcado en azul en la Figura 1.

Para todas las consultas de este blog, he seguido la siguiente secuencia: Puse mi consulta en el panel del editor de consultas (1), formateé la consulta (opcional) (2), luego ejecuté la consulta (3), y después guardé la consulta (4) para futuras consultas. Véase el diseño de la secuencia en la Figura 3. Observe que también puede ver la disposición de todo mi esquema (círculo rojo) en el Editor de consultas.

Figura 3: Diseño del editor de consultas
Figura 3: Diseño del editor de consultas

Investigar los datos

En primer lugar, quiero entender mis datos ejecutando algunas consultas interesantes.

Quiero entender qué meses de datos están en mi almacén Actian y entender algunos números globales. (Tenga en cuenta que este blog fue escrito a principios de 2021). Ejecuto esta consulta:

Figura 4: Estadísticas de las partidas
Figura 4: Estadísticas de las partidas

Gracias a la velocidad de Actian, en tan solo unos segundos he obtenido información valiosa de mi almacén. Parece que tengo datos de cinco años que incluyen más de 45.000 millones de artículos vendidos, con una venta media de 625 dólares. Es fantástico. Véase la figura 4.

Además, me gustaría ver la tendencia de ventas por mes. Ejecuto esta consulta:

Gráfico 5: Evolución de las ventas
Gráfico 5: Evolución de las ventas

Esta consulta también terminó en sólo unos segundos, pero con todos estos grandes números, es un poco difícil comprender sus valores relativos. Será útil hacer un gráfico utilizando la función de gráficos de Actian Query Editor.

He utilizado la función de gráficos (véase la Figura 6) para crear un gráfico de barras. En esencia, he realizado la misma consulta, pero la he simplificado y he limitado los resultados al año pasado. Ahora es fácil ver que mis ventas se aceleraron en Navidad. En la figura 7 muestro cómo he configurado este gráfico.

Figura 6: Tendencia de ventas con gráfico
Figura 6: Tendencia de ventas con gráfico
Figura 7: Configuración del gráfico
Figura 7: Configuración del gráfico

Buscar los productos más vendidos (A)

Ahora que entiendo mis datos, ejecuto esta consulta para encontrar las categorías de productos más vendidas por gasto en el último año:

Gráfico 8: Principales categorías por gasto
Gráfico 8: Principales categorías por gasto

En sólo unos segundos, me entero de que Ropa y Electrónica fueron mis categorías de productos más vendidas en general. Sé que al marketing siempre le gusta trabajar con Electrónica, así que voy a concentrarme ahí.

A continuación, quiero encontrar los productos más vendidos en Electrónica el año pasado. Ejecuto esta consulta:

Figura 9: Principales productos electrónicos
Figura 9: Principales productos electrónicos

Una vez más, gracias a la velocidad de Actian, en unos pocos segundos, me entero de que muchos de los principales productos de mi categoría Electrónica son productos Canon. Véase la figura 9.

Buscar productos que se venden habitualmente con los productos principales (B)

Ahora quiero encontrar los productos electrónicos que más se han vendido con estos productos Canon más vendidos en los últimos seis meses. Se trata de la consulta de la cesta de la compra, que consume muchos recursos, a la que me referí en la introducción. Para ejecutarla, esta consulta unirá mis 45.000 millones de artículos de línea con los mismos 45.000 millones de artículos de línea para ver qué artículos se suelen comprar juntos. Ejecuto esta consulta:

Figura 10: Consulta sobre la cesta de la compra
Figura 10: Consulta sobre la cesta de la compra

Esta consulta es mucho más compleja que las anteriores, pero sólo tardó 17 segundos en ejecutarse en Actian. De esta consulta se desprende que los clientes de Canon suelen comprar tarjetas de memoria SDHC de distintos tipos. Esto es algo que parece lógico, por supuesto, pero ahora lo he comprobado con la analítica.

Encontrar la población de clientes que compró A pero no B

Ahora necesito encontrar los nombres y direcciones de los clientes que NO han comprado tarjetas de memoria. Se trata básicamente de una consulta de cesta de la compra inversa. Actian unirá la tabla de artículos de línea de 45.000 millones de filas a sí misma, esta vez para encontrar las relaciones que faltan... clientes que no han comprado tarjetas de memoria. A continuación, también debe volver a unir la información de la partida y el pedido con la tabla de clientes para obtener la información correspondiente al nombre y la dirección. Además, tengo que asegurarme de no enviar correos duplicados a ningún cliente que haya comprado varios productos Canon, por lo que he añadido la palabra clave DISTINCT a mi SQL. Ejecuto la siguiente consulta. Una vez finalizada, elijo la opción de descarga .csv para crear un archivo de salida. Véanse los círculos rojos en la figura 11.

Figura 11: Cesta de mercado inversa.  Sin afinidad.
Figura 11: Cesta de mercado inversa. Sin afinidad.

Proporcionar información adecuada a Marketing

Ahora puedo enviar fácilmente el archivo .csv de clientes potenciales a marketing para que puedan enviar su campaña de marketing por correo.

Figura 12: Correo electrónico con la lista de destinatarios
Figura 12: Correo electrónico con la lista de destinatarios

En conclusión, Actian Data Warehouse es una plataforma entrepôt de données cloud muy potente que también incluye las herramientas básicas y la velocidad que necesita para ser productivo con la analítica de afinidad en su empresa.

 

mary schulte headshot

Sobre Mary Schulte

Mary Schulte es ingeniera de ventas sénior en Actian y cuenta con décadas de experiencia con potentes proveedores de bases de datos como Informix y Netezza. Ha escrito miles de líneas de Informix 4GL y ESQL/C para clientes de todo el mundo, incluida la innovadora implementación de datablade de American Airlines. Mary ha impartido innumerables sesiones de formación, ayudando a las organizaciones a optimizar sus entornos de bases de datos. Conéctese con ella en LinkedIn https://www.linkedin.com/in/mary-schulte-2265081. Sus publicaciones en el blog de Actian se centran en el rendimiento de las consultas, bases de datos analíticas como Vector y consejos prácticos para aprovechar Informix. Consulte sus artículos para obtener orientación experta.