Datenplattform

Es kommt darauf an, wo Sie die Analyseverarbeitung durchführen

Actian Germany GmbH

20. Juli 2020

Analytik Verarbeitung

Das Vector for Hadoop-Angebot von Actian bietet eine höhere Leistung für analytische Abfragen, ohne die damit verbundenen Kosten zu erhöhen. Wenn Sie auf der Suche nach einer High-Performance Analyseverarbeitung sind, um die betriebliche Entscheidungsfindung voranzutreiben, kommt es darauf an, wo Sie Ihre Verarbeitung durchführen. Durch die Minimierung der Datenbewegungen und die lokale Verarbeitung können Sie die Latenzzeiten drastisch reduzieren. Durch den Einsatz eines Systems wie Actian Vector für die lokale Verarbeitung können Sie ein noch höheres Leistungsniveau erreichen.

Auf der Box, im Rechenzentrum oder auf der anderen Seite des Landes

Wenn man die Aussage hört, dass es darauf ankommt, wo man seine Daten verarbeitet, denkt man zuerst an die Netzwerklatenz. Es ist leicht zu verstehen, dass die Übertragung von Daten über das Internet, quer durch das Land oder sogar quer durch die Stadt, die Verarbeitung verlangsamen kann. Das Gleiche gilt für Ihr Rechenzentrum. Die gemeinsame Unterbringung von Speicher und Datenverarbeitung in der Nähe (im selben Rack oder sogar im selben Gerät) verringert die Verarbeitungslatenz.

Viele Unternehmen nutzen Cloud und verteilte Systeme, um die Leistung fürEndnutzer-OLTP-Vorgänge zu erhöhen. Wenn es an der Zeit ist, Analysen durchzuführen, kommt wieder das Problem der Entfernung ins Spiel. Wo sollten Sie Ihre Analyseverarbeitung durchführen? Für die meisten Unternehmen ist die Cloud der richtige Ort, um Ihr Data Warehouse zu hosten und die Analyseberechnungen durchzuführen, da Sie so Ihre Analysen näher an Ihren Datenspeichern platzieren und gleichzeitig Rechenressourcen Cloud nutzen können.

Angenommen, Sie haben diese "großen Entfernungsprobleme" gelöst, ist es dann möglich, weiter zu optimieren? Ja, das ist möglich. Wenn big data oder Echtzeitanalysen zur Steuerung von Abläufen und zur Entscheidungsfindung anstreben, müssen Sie Ihre Analytics-Performance auf die nächste Stufe heben und prüfen, wie die von Ihnen verwendeten Datenbanken und die Software optimiert werden können, um die verfügbare Ressourcenkapazität maximal auszunutzen.

Festplatte ist langsam. Speicher ist besser. Chip-Cache ist am schnellsten

Werfen wir einen Blick auf die Vorgänge in einem Analysesystem (die von Ihnen verwendete Hardware und Software). Diese Systeme bestehen in der Regel aus drei Hardwarekomponenten, die einen direkten Einfluss auf die Leistung haben: Festplatten, Speicher und Chip-Cache. Wenn Sie Rechenoperationen durchführen (bei denen es sich eigentlich nur um einen Haufen mathematischer Formeln handelt), bearbeiten Sie Daten, die an einem dieser drei Orte gespeichert sind. Chips haben einen internen Cache-Speicher, der die schnellste Leistung, aber die geringste Kapazität bietet. RAM-Speicherchips haben eine größere Kapazität (die allerdings begrenzt ist) und eine recht schnelle Leistung, da die Daten vorübergehend in einem Schwebezustand gehalten werden, anstatt auf ein physisches Medium geschrieben zu werden, sind aber viel langsamer als der Chip-Cache. Festplattenspeicher sind am langsamsten, da die Daten auf ein physisches Medium (eine Festplatte) geschrieben und von diesem Medium gelesen werden, wenn auf sie zugegriffen werden muss. Bei der Cloud ist die verfügbare Festplattenkapazität nahezu unbegrenzt.

Data Warehouse- und Analysesysteme nutzen jede dieser Speicherarten zusammen mit der Rechenkapazität der CPUs auf unterschiedliche Weise. Dies verleiht Actian Vector einen Leistungsvorteil gegenüber anderen Lösungen. Vector optimiert die Nutzung jeder Schicht in der Systeminfrastruktur und eliminiert die verschwendete Kapazität, um sowohl die Leistung zu maximieren als auch die Kosten zu minimieren. Hier sind ein paar Beispiele:

Maximierung der Auslastung der CPU

Moderne CPUs haben mehrere Kerne, d. h. sie können mehrere Operationen gleichzeitig ausführen. Leider ist die meiste Software (einschließlich Data-Warehouse-Systeme) nicht darauf ausgelegt, diese Parallelverarbeitungsfähigkeit zu nutzen, so dass am Ende nur ein kleiner Teil der verfügbaren Kapazität genutzt wird. Die Actian Data Platform und Actian Vector sind so konzipiert, dass sie eine große Anzahl von gleichzeitigen Abfragen, die von einer großen Anzahl von Benutzern angefordert werden, effizient ausführen können. Die Abfragen werden in kleine Abschnitte aufgeteilt, die parallel ausgeführt werden können. Dies ist wichtig, da so die verfügbare CPU optimal genutzt werden kann. CPU sind eine zeitbasierte Kapazität. Stellen Sie sich das so vor, wie die Stunden, die Sie am Tag für Arbeitsaufgaben haben. Die Herausforderung besteht darin, die verfügbare Kapazität so effizient wie möglich zu nutzen und Leerlaufzeiten zu vermeiden, denn wenn die Zeit einmal verstrichen ist, können Sie sie nicht mehr zurückholen.

Verringerung der Datenmenge, die auf Festplatten geschrieben und von ihnen gelesen wird

ActianLösungen sind auf eine hocheffiziente Nutzung der Festplatten ausgelegt und reduzieren so die E/A-Vorgänge, die die Verarbeitung von Analysen verlangsamen können. Actian Data Platform ist eine rein spaltenbasierte Datenbank. Herkömmliche Datenbanken sind zeilenbasiert - Datensätze befinden sich in Zeilen, und Sie müssen die gesamte Zeile lesen, um eine Abfrage durchzuführen und Analysen zu erstellen. Actian behandelt Daten als eine Reihe von Spalten - das ist es, was sie für die analytische Verarbeitung optimiert. Da alle Daten in einer Spalte vom gleichen Datentyp sind, können Analysevorgänge optimiert werden. Wenn Sie unter die Haube schauen, werden Sie feststellen, dass jede Spalte als Dateien mit verschiedenen Datenblöcken auf der Festplatte gespeichert ist. MinMax-Indizes auf Datenblöcken ermöglichen eine schnellere Sortierung der Daten, indem sie der Plattform helfen, effizienter zu erkennen, welche Daten der Benutzer zu analysieren versucht und welche ignoriert werden können.

Wenn Sie operative Analysen durchführen und versuchen, Echtzeit-Entscheidungen anhand von Daten zu treffen, brauchen Sie die bestmögliche Leistung. Durch eine Kombination aus vermehrten Operationen, die unter Verwendung von Chip-Cache und Cache-Speicher stattfinden, und einem effizienteren Prozess zur Verwaltung der auf der Festplatte gespeicherten Daten kann Actian die Leistung und Auslastung der Datenbank-Hardware optimieren und gleichzeitig die auf die Festplatte geschriebene Datenmenge minimieren. Beides ist wichtig, weil es sich direkt in geringere Betriebskosten umsetzt. Es geht also darum, die vorhandenen Ressourcen effizienter zu nutzen, um Spitzenleistungen zu erzielen und die Kosten zu minimieren.

Weitere Informationen finden Sie unter https://www.actian.com/lp/Actianvector-sql-accelerator-for-hadoop/.

actian avatar logo

Über Actian Corporation

Actian macht Daten einfach. Unsere Datenplattform vereinfacht die Verbindung, Verwaltung und Analyse von Daten in Cloud-, Hybrid- und lokalen Umgebungen. Mit jahrzehntelanger Erfahrung in den Bereichen Datenmanagement und -analyse liefert Actian leistungsstarke Lösungen, die es Unternehmen ermöglichen, datengesteuerte Entscheidungen zu treffen. Actian wird von führenden Analysten anerkannt und wurde für seine Leistung und Innovation mit Branchenpreisen ausgezeichnet. Unsere Teams präsentieren bewährte Anwendungsfälle auf Konferenzen (z. B. Strata Data) und tragen zu Open-Source-Projekten bei. Im ActianBlog behandeln wir Themen wie Echtzeit-Dateneingabe, Datenanalyse, Data Governance, Datenmanagement, Datenqualität, Datenintelligenz und KI-gesteuerte Analysen.