Daten sind der wesentliche Bestandteil jeder Organisation. Wenn Herausforderungen auftreten, die die Fähigkeit von Organisationen gefährden, Daten richtig zu nutzen, ist die Organisation vom Scheitern bedroht. Risiken müssen vermieden, übertragen, gemildert oder akzeptiert werden. Ein data driven Risikomanagement ist eine notwendige Fähigkeit für alle Organisationen. Die Akzeptanz von Risiken für Daten und der Umgang mit den Konsequenzen, wenn etwas passiert, sollte um jeden Preis vermieden werden.
Daten-Lake ist ein zentrales Lager für Daten aus verschiedenen Quellen, das es Unternehmen ermöglicht, all ihre rohen, strukturierten und unstrukturierten Daten zu speichern. Die Daten werden so gespeichert, wie sie sind, ohne dass die Daten neu formatiert oder strukturiert werden müssen. Unternehmen benötigen Data Lakes, umRecherchen durchzuführen, Analysen zu erstellen und die Entscheidungsunterstützung innerhalb des Unternehmens zu verbessern. Die Verbesserung der Entscheidungsunterstützung kann einen Wettbewerbsvorteil gegenüber anderen Unternehmen schaffen und den Service für die Kunden insgesamt verbessern.
Das Verstehen und Verbessern von Produkten und Dienstleistungen, Kundenanalysen, Mitarbeiterproduktivität und allgemeiner betrieblicher Effizienz und Ergebnisse unterstreicht alle Unternehmensstrategien, -taktiken und -abläufe. Der beste Weg, dies zu ermöglichen, ist die Nutzung von Daten zur Entscheidungsunterstützung. Daten, die effizient und effektiv in einem Daten-Lake verwaltet werden, können bei der Bewältigung der Herausforderungen in diesen Bereichen helfen. Daten, die auf diese Weise genutzt werden, tragen zur digitalen Transformation im gesamten Unternehmen bei.
Was ist eineDaten-Lake ?
EineDaten-Lake besteht aus einer Reihe von Modulen, von denen einige obligatorisch, andere optional sind, die ein gemeinsames Lager auf Gruppen-, Abteilungs- oder Unternehmensebene definieren, in dem alle Arten von Daten in ihrem nativen Format für verschiedene Gruppen zur Verarbeitung und Analyse zusammengeführt werden.
Zu den grundlegenden Konzepten der Daten-Lake gehören:
- Sicherheit - Dies ist immer ein Problem. Wie jede andere IT-Architektur muss sie in jeder Schicht des Daten-Lake implementiert werden, um Bedrohungen und Schwachstellen verwalten .
- Dateneingang und -bewegung - Das Management von Daten und Datentypen aus verschiedenen Quellen zum Laden in den Daten-Lake aus Batch-, Echtzeit- oder anderen Systemen muss verwaltet werden.
- Data Governance - Governance, Risk und Compliance (GRC) müssen für die allgemeine usability, Integrität, Vertraulichkeit und Verfügbarkeit von Daten in einer Organisation verwaltet werden, und zwar sowohl im Hinblick auf interne Unternehmensrichtlinien als auch auf externe gesetzliche Vorgaben.
- Datenqualität - muss immer aufrechterhalten werden, um einen geschäftlichen Nutzen aus den Daten zu ziehen, schlechte Qualität = schlechte Entscheidungen.
- Data Analytics - Analytik zur Entscheidungsunterstützung ist der Hauptgrund für einen Daten-Lake.
- Daten-Discovery - Daten müssen zuerst entdeckt werden, bevor sie genutzt werden können, insbesondere für Analysen. Kritische Quellen für Daten müssen identifiziert und verwaltet werden.
- Datenwiederherstellung - Für die Nutzung von Datenseen im Zusammenhang mit der Geschäftskontinuität muss die Datenwiederherstellung geplant und getestet werden.
- Data Auditing - Auditing ist eine Notwendigkeit für Risikomanagement, Governance und die Schaffung von Compliance-Standards.
- Datenspeicherung - Bei der Verwendung von Cloud und/oder Hybridlösungen sollte auf die scalability des Speichers geachtet werden.
- Datenherkunft - Die Herkunft der Daten muss verwaltet werden, um einen effektiven Dateneingang zu gewährleisten.
- Datenexploration - Für alle Analysen muss eine Datenexploration durchgeführt werden, um den richtigen Datensatz zu identifizieren.
- Koordination und Zusammenarbeit - Daten-Lake ist ein organisatorischer Datenspeicher; das Verständnis der Datennutzung erfordert Zusammenarbeit und Koordination innerhalb der Organisation mit verschiedenen Teams und Interessengruppen.
Die Kernvoraussetzung für eine Daten-Lake ist eine zugrunde liegende skalierbar Datenspeicherarchitektur.
- Ursprünglich war dies Hadoop mit dem Hadoop Data File System (HDFS), das jedoch durch Objektspeicher ersetzt wurde, im Allgemeinen in AWS (S3), Azure (ADLs) und Google (GCS). Dies sollte ein einziges gemeinsames Lager für Daten sein.
- In jedem Fall muss es ein robustes, aber minimales Management-System geben; YARN hat sich hier als Standard durchgesetzt und ist von Hadoop auch in die Cloud Object Storage-Umgebungen migriert. Orchestrierung und Job Scheduling Funktionen sollten zentrale Merkmale sein.
- Praktisch alle Daten-Lake laufen jetzt in der Cloud, entkoppeln die Rechenleistung vom Speicher, um scalability und Pay-for-you-use-Modelle zu unterstützen, und unterstützen mehrere Programmiersprachen, einschließlich Hive- und Spark-Unterstützung und SQL-Support.
Abgesehen von diesen Grundpfeilern hängen weitere Überlegungen zum Design der Daten-Lake davon ab, wer das System nutzen wird und welche Art von Arbeit ansteht. Ursprünglich wurden Data Lakes als ein Werkzeug für Datenwissenschaftler angesehen, die mit unstrukturierten und halbstrukturierten Rohdaten arbeiten. Daher konzentrierte sich die Daten-Lake auf Entwickler-Tools für den Dateneingang, die Verarbeitung, die Anfrage und die Analyse. Im Allgemeinen sind die Nutzer der Daten-Lake Rollen, die es gewohnt sind, analytische Arbeit mit Datenbanken zu machen. Doch aufgrund des Wertes von Daten-Lakes und der aufkommenden Tools können die Nutzer von Daten-Lakes auf andere Nutzer ausgeweitet werden.
Die Daten-Lake ist auf die schnelle Eingabe von Rohdaten ausgerichtet, so dass nicht viel Wert auf die Aufbereitung der Daten bei der Eingabe gelegt wird. Die anderen drei Bereiche erfordern gestalterische Überlegungen, die davon abhängen, welche Daten innerhalb des Sees im Mittelpunkt stehen und um welche Aufgabe es sich handelt.
Die Daten-Lake , die Daten-Lake , die Daten-Lake und die Daten-Lake folgen alle diesen Konzepten und Anforderungen für Data Lakes. Sie verfolgen alle einen einheitlichen Ansatz, unterscheiden sich aber in den Gesamtangeboten, die mit ihren Technologien verfügbar sind. Unternehmen sollten jede einzelne Lösung je nach ihren Anforderungen bewerten.
Daten-Lake Design Überlegungen
Organisationen sollten bei der Nutzung ihres Daten-Lake ein großes Bild im Kopf haben. Die Absicht oder Strategie des Unternehmens sollte das Design und die Nutzung eines Daten-Lake bestimmen. Ein gutes Design erleichtert zukünftige Entscheidungen innerhalb der Daten-Lake .
Data Lakes sollten mit den folgenden Merkmalen konzipiert werden:
- Cloud mitisolation.
- Mehrere Ebenen - Aufnahme, Vorgänge, Verarbeitung, Destillation, Speicherung, Erkenntnisse.
- Fähigkeit, Benutzer hinzuzufügen und zu unterstützen, ohne die Leistung bei verschiedenen Arbeitslasten zu beeinträchtigen.
- Einzigartige Metadaten für die Objektspeicherumgebung.
- Effiziente Tools extrahieren, laden, transformieren und Anfrage Daten ab, ohne die Leistung zu beeinträchtigen.
- Gemeinsame Cluster .
- Unabhängige strukturierte Skalierung von Rechen- und Speicherressourcen.
In vielen Anwendungsfällen für die Dokumentensuche und die Anfrage für Forscher, z. B. in der Pharmazie, der Medizin oder einem anderen akademischen Bereich, wird eine Suchmaschine und eine Anfrage verwendet, mit der große Mengen von Dokumenten schnell analysiert werden können. In anderen Fällen können die Daten halbstrukturiert sein, z. B. bei mobilen und IoT . Es kann sogar die Notwendigkeit bestehen, eine relationale Zuordnung zwischen verschiedenen IoT zu erstellen; wenn Sie beispielsweise Druck- und Temperatursensoren haben, die mit der Messung eines Volumens verbunden sind, stellt die PVT-Gleichung eine relationale Zuordnung von Datentabellen dar, oder vielleicht werden stattdessen Daten aus jeder dieser Quellen in den Daten-Lake Streaming und sowohl in Echtzeit als auch später als aggregierte Datensätze mit einer Beziehung zwischen ihnen verarbeitet.
Unabhängig von der Datenstruktur besteht eine der wichtigsten Analyseaufgaben von Datenwissenschaftlern in irgendeiner Form von KI, sei es Mustererkennung wie Gesichtserkennung in Videodaten oder Verarbeitung natürlicher Sprache in Dokumenten oder Audioströmen.
Die soeben beschriebenen Anwendungsfälle, die von Datenwissenschaftlern hauptsächlich im Rahmen von Forschungsprojekten bearbeitet werden, sind genau das, was die Daten-Lake historisch von der Data-Warehouse- oder Datenbank-Architektur unterschieden hat. Einige Aspekte der Data-Warehouse-Architektur tauchen jedoch auch in Cloud von Daten-Lake auf. Erstens war die Demokratisierung von Daten bei Data Lakes eher eine Aussage als eine Tatsache. Sie waren auf die Nutzung durch Data Scientists und Ingenieure beschränkt, Geschäftsanwender waren ausgeschlossen. Außerdem liefen sie im Vergleich zur Geschwindigkeit von Data Anfrage und Ad-hoc-Analysen sehr langsam. Und schließlich, was am wichtigsten ist, verfügten frühe Daten-Lake nicht über viel integrierte Sicherheitsunterstützung oder data governance und Katalogisierung der Daten im Daten-Lake.
Daten-Lake nutzen alle die inhärenten Sicherheitsmerkmale der AWS-, Azure- und Cloud , auf denen sie laufen. Sie verfügen alle über eine Form von Datenkatalog und Datenpipeline , die den Datenfluss über mehrere Stufen hinweg unterstützen. Darüber hinaus bieten viele Implementierungen der Daten-Lake Tools zur Entwicklung und Nutzung der Metadaten , die mit den verschiedenen Datensätzen im Lake verbunden sind, für eine Reihe von Anwendungen, vom Datenmanagement bis hin zu semantischen Operationen wie Indizierung, Ontologie und Mitteln, die nicht nur eine höhere Datenqualität, sondern auch eine optimale Nutzung nur der Daten, die Sie benötigen, nach Rollen gewährleisten.
Übernahme der Daten-Lake
Die Einführung der Daten-Lake sollte schrittweise erfolgen, jeweils mit einer schnellen Wertschöpfung oder einem schnellen Gewinn für das Unternehmen. Verwenden Sie verfügbare Daten, und wenn das Projekt reift und Datenlücken aufgedeckt werden, reifen Sie den Daten-Lake.
Stufe 1 - Erfassen, Aufnehmen und Inventarisieren von Daten und Quellen, dann Visualisierung, wie aktuelle Datenbestände für das Unternehmen genutzt werden können. Dabei sollten Sie Methoden, Praktiken und Ansätze für eine schnellere Einbindung neuer Datenentdeckungen festlegen und entwickeln.
Stufe 2 - Erstellen Sie die Analysemodelle für die Umwandlung und Durchführung der Datenanalyseaufgaben. Denken Sie an die Ergebnisse, die die Daten unterstützen. Unternehmen können verschiedene Tools ausprobieren und künstliche Intelligenz (KI) einsetzen.
Nach Stufe 2 werden die Daten den Verbrauchern, Entscheidungsträgern und allen anderen Beteiligten zur Verfügung gestellt. Die Nutzung des Daten-Lake mit einem Enterprise Data Warehouse kann dies ermöglichen.
Die letzte Stufe, aber nicht die letzte Stufe, ist die kontinuierliche Verbesserung. Verbessern Sie die Funktionen der Daten-Lake. Dies sollte die Verwaltung des Lebenszyklus von Daten und Informationen einschließen. Denken Sie daran, dass die Daten-Lake dazu dient, die Geschäftsergebnisse zu verbessern, daher ist die Messung der Verbesserungen der Geschäftsergebnisse im Verhältnis zur Nutzung eines Daten-Lake entscheidend.
Hüten Sie sich davor, ein Daten-Lake zu haben, das "Datensümpfe" oder unbrauchbare Daten erzeugt. Obwohl sich aus allen Arten von Daten ein Wert ableiten lässt, sollten Sie sicherstellen, dass sie auch einen Wert haben. Daten, die keinen Nutzen haben, beeinträchtigen die Leistung sowohl der IT-Infrastruktur als auch der Personen, die die Daten zur Entscheidungsfindung nutzen. In jeder Phase der Einführung sollte auf die geschäftliche Relevanz der verwendeten Daten geachtet werden. Stellen Sie sicher, dass die Daten einen Wert für die Entscheidungsunterstützung im Unternehmen haben.
Schlussfolgerung
Das Datenrisikomanagement liegt in der Verantwortung aller Funktionen im gesamten Unternehmen: Marketing, Vertrieb, Personalwesen, Betrieb, Anwendungen, Recht usw. Ein proaktiver Ansatz, bei dem Risiken erkannt, Kontrollen hinzugefügt und Maßnahmen vorbereitet werden, kann im Bedarfsfall einen großen Unterschied ausmachen. Machen Sie das Datenrisikomanagement nicht zu einem nachträglichen Gedanken und zu etwas, das die Investition nicht wert ist. Das Datenrisikomanagement ist ein Teil der Geschäftskosten und sollte als solcher verstanden werden. Seien Sie vorsichtig mit Abkürzungen und gehen Sie nicht strategisch und umfassend vor.
Entscheidend für das Management von Datenrisiken ist der Einsatz von Technologien, die dabei helfen können. Daten-Lake kann dabei helfen, die Daten im gesamten Unternehmen verwalten und besser zu nutzen. Dies führt zu einer Verbesserung der Kundeninteraktionen, einer verbesserten Servicebereitstellung, einer verbesserten Servicegestaltung und insgesamt zu einer Verbesserung der täglichen Abläufe in einem Unternehmen. Identifizieren und definieren Sie die organisatorischen Datengründe und Ziele für den Daten-Lake und behalten Sie diese während des Projekts stets im Hinterkopf.