Los archivos planos vuelven al futuro - Parte 3
Por qué los desarrolladores de aplicaciones de software Embarqué deben volcar los archivos planos antes de tener que ejecutar Dump en ellos
Hace unas semanas escribí un primer blog sobre los archivos planos y por qué los desarrolladores de aplicaciones de software Embarqué los adoptaron con facilidad. Luego, en el siguiente blog, hablé de por qué los desarrolladores de Embarqué son reacios a utilizar bases de datos. En esta tercera entrega, me gustaría discutir por qué deberían considerar alejarse de los archivos planos - después de todo, el viejo adagio debería aplicarse aquí: "Si no está roto, no lo arregles" debería aplicarse antes de discutir por qué una opción es mejor que otra.
¿Sufre el síndrome de "quién me ha movido el queso"?
En la mayoría de los casos, los cambios no se producen de forma que los reconozcamos inmediatamente y nos sintamos obligados a reaccionar ante ellos. Este es sin duda el caso de la inteligencia de vanguardia y los factores que la impulsan.
Si se consideran individualmente, cambios como el aumento de las capacidades al pasar de procesadores de 32 bits a 64 bits, o el aumento de la velocidad y el tamaño de la DRAM, la capacidad de utilizar herramientas y entornos operativos más sofisticados por parte de una comunidad más amplia de desarrolladores y científicos de datos, así como la capacidad de aprovechar algoritmos más complejos capaces de aplicar el aprendizaje automático, no dictan la necesidad de pasar de los archivos planos a algún otro sistema de gestion des données de última generación.
Sin embargo, el impulso para el cambio procede de las demandas externas que podrían satisfacerse mediante la confluencia de estos cambios, lo que desencadenaría un sinfín de nuevas oportunidades para que las empresas automatizaran y mejoraran la toma prise de décision en el punto de acción, en el límite.
Entonces, ¿qué tiene que ver el síndrome "Who Moved My Cheese" con todas estas nuevas oportunidades que obligan a cambiar a los desarrolladores que utilizan archivos planos? Sencillo: los archivos planos aún pueden hacer su trabajo, pero no tan bien, y eso es lo que crea una oportunidad para luchar contra el cambio.
En general, cuando los que tienen verdadera experiencia utilizan una metodología probada y demostrada que sigue siendo capaz de satisfacer de alguna manera subóptima un nuevo requisito, es de naturaleza humana querer justificar y forzar el uso continuado de esa metodología subóptima. Veamos por qué los archivos planos no son óptimos para gestionar esta confluencia de nuevos ressources de calcul y el deseo de aprovecharlos para la próxima fusión del Internet Industrial de las Cosas (IIoT) y la Inteligencia Artificial (IA).
Puede que a ti te huela a queso, ¡pero es mi perfume favorito!
Los archivos planos son fáciles de usar, fiables y no cuestan nada, ya que vienen incluidos con el sistema operativo subyacente, por lo que no es de extrañar que su adopción esté tan extendida. Sin embargo, el paso de un procesamiento en silos, de baja velocidad de datos y simple a una IIoT hiperconectada con IA en el perímetro significa que los archivos planos no pasarán la prueba del olfato para su uso en el futuro por las tres razones siguientes:
- La creciente demanda de inteligencia periférica y, en particular, de IIoT impulsará la necesidad de una gestión de datos distribuida y no solo del simple almacenamiento y recuperación de datos locales.
Los sistemas de archivos se centran realmente en el almacenamiento de datos, que es la base de la gestión de datos, pero no constituyen en sí mismos una gestión de datos completa. Y aunque los sistemas de archivos de última generación suelen incluir replicación, desfragmentación, cifrado y otras funciones clave de gestión de datos moderna, no sustituyen a los sistemas de gestión de contenidos, y mucho menos a los sistemas de gestión de registros o bases de datos que cubren funciones más avanzadas, como indexación integrada, filtrado, consultas sofisticadas, cliente-servidor, peer-to-peer y otras funciones clave necesarias para la gestión de datos periféricos en casos de uso de IoT. - La inteligencia de vanguardia moderna necesita soporte para análisis en línea basados en algo más que los flujos de datos de origen local
El procesamiento y el análisis de datos en el borde se han limitado en gran medida al procesamiento simple de datos en un único flujo y tipo de datos, que se procesan como un conjunto de datos de series temporales con filtrado temporal para obtener una mejor relación señal-ruido (SNR) o para descartar los datos que no se han desviado de un umbral insignificante. En el futuro, habrá múltiples flujos y tipos de datos con patrones de referencia, correlacionados con algoritmos de aprendizaje automático aplicados. Estos enfoques más sofisticados pueden requerir datos de dispositivos vecinos, datos ascendentes de sistemas tan lejanos como los sistemas ERP del centro de datos. Funcionalidad integrada para uniones entre varias tablas, capacidad para gestionar la transmisión de diferentes tipos de datos, publicar y suscribirse para peer-to-peer y cliente-servidor. Estos requisitos son mucho más sofisticados y no se pueden crear fácilmente desde cero, como se ha hecho en el pasado con la indexación simple, la clasificación y otros complementos típicos de archivos planos de creación propia. Con un sistema moderno de gestión de datos periféricos, todas estas funciones están hiperconectadas y la interoperabilidad con estándares de datos en streaming como Kafka o Spark es un hecho. - El ciclo de vida del aprendizaje automático (ML), la generación de informes y las herramientas de visualización necesitan una recuperación plug-and-play basada en estándares industriales que superen los de los sistemas de archivos.
No se trata solo de reinventar la rueda para la funcionalidad local del análisis en línea que da soporte al ML, sino también del hecho de que el ML tiene un ciclo de vida que incluye algoritmos de entrenamiento con conjuntos de datos desde el borde. Después del entrenamiento, los algoritmos se implementan sin supervisión en el borde para realizar la inferencia de ML en los nuevos datos. Los informes y la visualización son fundamentales para analizar el funcionamiento del ML y si se están obteniendo los resultados empresariales esperados. Una vez más, los sistemas modernos de gestión de datos periféricos tienen una funcionalidad integrada para ayudar con estas herramientas y apoyar estos objetivos.
Es cierto que, en todos los casos, los sistemas de archivos siguen siendo necesarios. La mayoría de las bases de datos, los historiadores u otros sistemas de gestión de datos siempre utilizan sistemas de archivos para el almacenamiento de datos. Además, con suficiente fuerza bruta y sudor, siempre se puede reinventar la rueda con lógica añadida para soportar cualquier funcionalidad encontrada en algo off-the-shelf. Los problemas de adoptar un enfoque de archivo plano son los costes de oportunidad, la reducción de la velocidad de innovación y las deficiencias de adecuación al propósito creadas por la necesidad de construir una rueda mucho más grande y sofisticada. En la próxima sección, repasaremos qué se necesita exactamente en un sistema moderno de gestión de datos de borde.
Actian es el líder del sector en soluciones de almacén de datos operativos y gestion des données en el perímetro para empresas modernas. Con un conjunto completo de soluciones conectadas para ayudarle a gestionar datos sur site, en la nube y en el perímetro con móviles e IoT. Actian puede ayudarle a desarrollar la base técnica necesaria para respaldar una verdadera agilidad empresarial. Para obtener más información, visite www.actian.com.