Gestión de datos

Mejores prácticas GénAI para científicos de datos, ingenieros y responsables de TI

Vamshi Ramarapu

16 de noviembre de 2023

IA générative para científicos de datos, ingenieros y responsables de TI

A medida que las organizaciones tratan de sacar partido de IA générativeGénAI), los científicos de datos, ingenieros y líderes de TI deben seguir las mejores prácticas y utilizar la plataforma de datos adecuada para ofrecer el máximo valor y lograr los resultados deseados. Aunque muchas de las mejores prácticas aún están evolucionando, GénAI se encuentra en su infancia.

Por supuesto, con GénAI, la cantidad de datos que necesita preparar puede ser increíblemente grande, pero el mismo enfoque que está utilizando ahora para preparar e integrar datos para otros casos de uso, como analytique avancée o aplicaciones empresariales, se aplica a GénAI. Debe asegurarse de que los datos recopilados satisfacen las necesidades de calidad, formato e integridad de su caso de uso.

Como bien ha señalado TechTarget, "para utilizar eficazmente IA générative, las empresas deben conocer bien las mejores prácticas de gestion des données relacionadas con la recopilación, limpieza, etiquetado, seguridad y gouvernance los datos".

Crear una base de datos para GénAI

GénAI es un tipo de inteligencia artificial que utiliza redes neuronales para descubrir patrones y estructuras en los datos y, a continuación, produce contenidos como texto, imágenes, audio y código. Si has interactuado con un chatbot en línea que responde a preguntas de forma similar a la humana o has utilizado un programa como ChatGPT, entonces has experimentado GénAI.

El impacto potencial de GénAI es enorme. Gartner cree que se convertirá en una tecnología de uso general con un impacto similar al de la máquina de vapor, la electricidad e Internet.

Al igual que otros casos de uso, GénAI requiere datos -potencialmente montones y montones de datos- y más. Ese "más" incluye la capacidad de admitir diferentes formatos de datos, además de gestionar y almacenar los datos de forma que se puedan buscar fácilmente. Necesitará una plataforma escalable capaz de gestionar los enormes volúmenes de datos que suelen asociarse a GénAI.

La precisión de los datos es imprescindible

La preparación y la calidad de los datos son esenciales para GénAI, al igual que lo son para los procesos y análisis empresariales basados en datos. Como se señala en eWeek, "la calidad de los resultados de sus datos con la tecnología IA générative depende de la calidad de los datos que utilice".

La gestión de datos ya se perfila como un reto para GénAI. Según McKinsey, el 72% de las organizaciones afirman que la gestión de datos es el principal reto que les impide ampliar los casos de uso de la IA. Como también señala McKinsey: "Si sus datos no están preparados para la IA générative IA générative, su empresa no está preparada para la IA générative".

Aunque los casos de uso de GénAI difieren de cas d'usages analytiques tradicionales en cuanto a los resultados deseados y las aplicaciones, todos tienen algo en común: la necesidad de calidad de los datos y de capacidades de integración modernas. GénAI requiere datos precisos y fiables para ofrecer resultados, lo que no difiere de informatique décisionnelle (BI) o analytique avancée.

Esto significa que debe asegurarse de que no faltan elementos en los datos, de que están correctamente estructurados y de que se han limpiado. Los datos preparados pueden utilizarse para entrenar y probar los modelos GénAI y le proporcionan una buena comprensión de las relaciones entre todos sus conjuntos de datos.

Es posible que desee integrar datos externos con sus datos interne para proyectos GénAI . Los datos unificados se pueden utilizar para entrenar modelos para consultar su almacén de datos para aplicaciones GénAI . Por eso es importante utilizar una plataforma de datos moderna que ofrezca escalabilidad, pueda crear fácilmente canalizaciones a fuentes de datos y ofrezca capacidades de integración y calidad de datos.

Eliminación de barreras a GénAI

Lo que estoy escuchando de nuestros socios de Actian es que las organizaciones interesadas en implementar casos de uso GénAI se inclinan hacia el uso de traitement du language naturel para las consultas. En lugar de tener que escribir en SQL para consultar sus bases de datos, las organizaciones a menudo prefieren utilizar el lenguaje natural. Una avantage es que también se puede utilizar el lenguaje natural para visualizar los datos. Asimismo, se puede utilizar el lenguaje natural para supervisar los registros y realizar otras actividades que antes requerían conocimientos avanzados o capacidades de programación SQL.

Hasta hace poco, e incluso hoy en día en algunos casos, los científicos de datos creaban una gran cantidad de canalizaciones de datos para ingerir datos de fuentes actuales, nuevas y emergentes. Preparaban los datos, creaban diferentes vistas de los mismos y los analizaban para obtener información. GénAI es diferente. Se trata principalmente de utilizar traitement du language naturel para entrenar grandes modelos lingüísticos junto con los datos.

Las organizaciones siguen queriendo crear canalizaciones, pero con una plataforma como Actian Data Platform, no se necesita un científico de datos ni conocimientos avanzados de TI. Los analistas de negocio pueden crear canalizaciones sin apenas depender de TI, lo que facilita más que nunca la recopilación de todos los datos necesarios para GénAI.

Con las recientes mejoras en las capacidades de nuestra Actian Data Platform, hemos habilitado opciones de integración de bajo código, sin código y pro código. Esto hace que la plataforma sea más aplicable para involucrar a más usuarios empresariales y llevar a cabo más casos de uso, incluidos los que implican GénAI. Estas opciones de integración reducen el tiempo dedicado a la preparación de datos, lo que permite a los analistas de datos y a otras personas integrar y orquestar el movimiento de datos y las canalizaciones para obtener rápidamente los datos que necesitan.

Una práctica recomendada para cualquier caso de uso es poder acceder a los datos necesarios, independientemente de dónde se encuentren. Para las empresas modernas, esto significa que se necesita la capacidad de explorar los datos en la nube y sur site, lo que requiere una plataforma híbrida que conecte y gestione los datos de cualquier entorno, para cualquier caso de uso.

Ampliación de nuestra hoja de ruta de productos para GénAI

Nuestras conversaciones con los clientes han revelado que están entusiasmados con GénAI y sus posibles soluciones y capacidades, pero aún no están listos para implementar las tecnologías GénAI . Están centrados en organizar adecuadamente sus datos para que estén listos cuando decidan qué casos de uso y tecnologías GénAI se adaptan mejor a sus necesidades empresariales.

Los clientes nos están diciendo que quieren casos de uso sólidos que utilicen la fuerza de GénAI antes de seguir adelante con ella. En Actian, estamos ayudando colaborando con clientes y socios para identificar los casos de uso correctos y las soluciones más óptimas que permitan a las empresas tener éxito. También estamos ayudando a los clientes a asegurarse de que están siguiendo las mejores prácticas para la gestion des données para que tengan la base en su lugar una vez que estén listos para seguir adelante.

Mientras tanto, animamos a los clientes a que aprovechen los puntos fuertes de Actian Data Platform, como nuestras capacidades mejoradas de integración como servicio, calidad de datos y compatibilidad con bases de datos como servicio. Esto ofrece a los clientes la avantage de poner sus datos a punto para usos y aplicaciones de IA.

Además, al examinar nuestra hoja de ruta de productos, estamos añadiendo capacidades de GénAI a nuestra cartera de productos. Por ejemplo, actualmente estamos trabajando para integrar nuestra plataforma con TensorFlow, que es una plataforma de software de aprendizaje automático de código abierto que puede complementar GénAI. También estamos explorando cómo nuestras capacidades de almacenamiento de datos pueden utilizarse junto con TensorFlow para garantizar que el almacenamiento esté optimizado para los casos de uso de GénAI .

De los datos fiables a los casos de uso GénAI

Al hablar con clientes, socios y analistas, y participar en eventos del sector, hemos observado que las organizaciones quieren saber más sobre GénAI y comprender sus implicaciones y aplicaciones. Ahora se acepta ampliamente que la IA y la GénAI van a ser fundamentales para las empresas. Incluso si la imagen exacta de cómo GénAI será beneficiosa es todavía un poco confusa, la conciencia y el entusiasmo son reales.

Estamos impacientes por ver los tipos de aplicaciones GénAI que surgirán y los numerosos casos de uso que nuestros clientes querrán llevar a cabo. En estos momentos, las organizaciones deben asegurarse de que disponen de una plataforma de datos escalable que pueda gestionar los volúmenes de datos necesarios y de que cuentan con prácticas de gestion des données que garanticen datos fiables y de calidad para obtener los resultados deseados.

Actian Data Platform apoya el aumento de casos de uso avanzados, como IA générative , mediante la automatización de tareas de preparación de datos que consumen mucho tiempo. Puede reducir drásticamente el tiempo de agregación de datos, gestión de valores perdidos y estandarización de datos de diversas fuentes. La capacidad de la plataforma para habilitar datos listos para IA le da la confianza para entrenar modelos de IA de forma eficaz y explorar nuevas oportunidades para satisfacer sus necesidades actuales y futuras. La plataforma de datos Actian puede darle total confianza en sus datos para proyectos GénAI .

Recursos adicionales:

Fotografía de Vamshi Ramarapu

Acerca de Vamshi Ramarapu

Vamshi Ramarapu es vicepresidente de Actian Data Platform Engineering y dirige el desarrollo de la gestión de datos en la nube. Cuenta con más de 20 años de experiencia, anteriormente en Mastercard y Visa, centrándose en la escalabilidad, la experiencia del usuario y el desarrollo nativo en la nube. Vamshi es un apasionado de FinTech y la ingeniería de datos, a menudo contribuyendo a la investigación sobre plataformas seguras y escalables. Sus contribuciones al blog de Actian exploran las soluciones de datos en la nube de última generación, la seguridad y la innovación. Lea sus artículos o reflexiones sobre la creación de infraestructuras de datos resistentes.