Observability

SaaS-Daten, Formen und Grafiken über dem Bild einer Frau in der Technologiebranche

ITMS-Teams für das IT-Service-Management und DevOps-Teams verwenden Metriken, Protokolldateien und Traces, um festzustellen, wie gut die Systeme funktionieren. Im Falle eines Ausfalls oder einer Verlangsamung werden diese Informationen miteinander in Beziehung gesetzt, um eine schnelle Fehlerbehebung und Wiederherstellung des Dienstes zu ermöglichen. Damit sie als beobachtbar gelten, müssen Anwendungen und die IT-Infrastruktur  Metriken bereitstellen, Protokolle erstellen und die Nachverfolgung oder Prüfung ihres Betriebs ermöglichen.

Warum ist Beobachtbarkeit wichtig?

Wenn Softwareanbieter und Anwendungsentwickler Anwendungen an IT-Teams zur Ausführung in der Produktion liefern, werden die drei Attribute Zuverlässigkeit, Verfügbarkeit und Verwaltbarkeit bewertet, bevor sie als produktionsbereit gelten. Professionelle IT-Teams, ob in-house oder outgesourct, werden von Teams in den Unternehmen häufig gebeten, eine bestimmte Servicequalität (QoS) zu liefern, die in einem Rahmenvertrag (Service Level Agreement, SLA) festgelegt ist. Dazu können Betriebszeit, mittlere Wiederherstellungszeit (MTTR) und Leistungskennzahlen gehören. Die Nichteinhaltung eines SLA führt in der Regel zu Vertragsstrafen. Um die Bereitstellung von hochwertigen Services zu ermöglichen, bestehen IT-Teams auf bestimmten Observability-Features, damit sie die Einhaltung der SLAs nachweisen können.

Was sind die drei Säulen der Beobachtbarkeit?

Die Beobachtbarkeit eines Systems oder einer Anwendung wird häufig unter folgenden Gesichtspunkten betrachtet:

Metriken

Tools für das Leistungsmanagement benötigen Metriken, die zeigen, wie gut ein System läuft. Diese Metriken oder Key Performance Indicators (KPIs) können durchschnittliche Antwortzeiten, Spitzenlasten, Anfragen pro Sekunde, CPU-Nutzung, Speicherverbrauch, Fehlerquoten und Netzwerklatenz umfassen. Tools zur Anwendungsverwaltung wie die von Dynatrace und New Relic nutzen künstliche Intelligenz (KI), um zu lernen, was als normaler Betrieb für eine Anwendung gilt, indem sie diese Metriken beobachten, so dass sie Probleme erkennen und Betreiber warnen können, bevor sich Probleme auf die Benutzer auswirken.

Protokolle

Protokolldateien protokollieren normale Vorgänge wie das Starten von Anwendungen und Fehlfunktionen. Überwachungssoftware wie Splunk und Sumo Logic überwachen Protokolldateien auf Ausnahmen, sodass die entsprechenden Teams alarmiert werden können.

Tracing

Tracing liefert detaillierte Prüfprotokolle über den Betrieb einer Anwendung oder eines Softwaresystems. Anwendungsentwickler, Kunden-Support, Kunden und IT-Abteilungen können Flags setzen, um den Detaillierungsgrad des Tracing zu steuern und auszuwählen, welcher Aspekt einer Anwendung verfolgt werden soll. Verbose Level Tracing ist in der Regel ein letzter Ausweg, um Logikfehler zu debuggen, da es die Anwendungsleistung drastisch beeinträchtigt.

Was ist der Unterschied zwischen Überwachung und Observability (Beobachtbarkeit)?

Die Überwachung zeigt, wie eine Anwendung zu einem bestimmten Zeitpunkt läuft, und konzentriert sich auf die Sammlung von Echtzeitdaten und Leistungsmetriken. Observability, die Beobachtbarkeit hingegen fasst Überwachungsdaten, Tracing und Protokolle zusammen und liefert ein umfassendes Bild über das Systemverhalten. Dieser erweiterte Kontext beschleunigt die Fehlerbehebung: Teams sind in der Lage, Probleme zu lokalisieren, die Ursachen zu analysieren und zukünftige Probleme vorherzusagen, bevor sie eskalieren. Während das Monitoring im Wesentlichen Momentaufnahmen der Performance liefert, liefert die Observability die Geschichte hinter diesen Zahlen und sorgt so für proaktives Management und eine kontinuierliche Verbesserung der Zuverlässigkeit und Effizienz des Systems.

Microservices und die Cloud

Vorbei die Zeiten, in denen sich eine Anwendung wie ein monolithischer Block überwachen ließ. Heute bestehen  Anwendungen zunehmend aus immer mehr Komponenten und werden in einem hybriden, verteilten Mix aus Plattformen ausgeführt, die On-Premises, in der Cloud oder als Microservices sogar serverlos sein können. Die Beobachtbarkeit wird in solchen komplexen Architekturen noch wichtiger, was bedeutet, dass eine größere Anzahl von Metriken und Protokollereignissen erfasst und beobachtet werden muss.

Im Folgenden finden Sie Beispiele für die Art von Protokollereignissen, die für das Anwendungsmanagement erforderlich sind:

  • Die Gesamtzahl der Anwendungsanfragen gibt Aufschluss über die Auslastung und den Durchsatz der Anwendung.
  • Die Anfragedauer für jeden Microservice zeigt die Servicezeit für den Microservice.
  • Die Anzahl der Microservice-Instanzen ist ein Indikator dafür, wie die Anwendung zur Deckung des Bedarfs skaliert oder skaliert hat.
  • Container Liveness und Bereitschaft helfen bei der Identifizierung von aktiven, vorab gestarteten („pre-spawned“) und toten oder Zombie-Containern.
  • Die Metriken der CI/CD-Pipeline (Continuous Integration/Continuous Delivery) geben Aufschluss über die Anzahl der Änderungen und die Häufigkeit der Aktualisierungen einer Anwendung.

Beim Cloud Computing gibt es vier wichtige Signale, die den Zustand von Anwendungen und Infrastrukturen anzeigen:

  • Mit der Latenz werden Netzwerkverzögerungen gemessen, die mit Hilfe von Content-Delivery-Networks (CDNs) oder mehreren verteilten Instanzen abgeschwächt werden können.
  • Beim Datenverkehr oder Traffic wird die Anzahl der von der Anwendung empfangenen Netzwerkpakete gemessen. Unternehmen müssen sicherstellen, dass eine angemessene Netzwerkbandbreite zur Deckung des Bedarfs zur Verfügung steht.
  • Fehlerquoten zeigen das Versagen von Anwendungen an und sind ein Anzeichen für spätere Fehler.
  • Die Sättigung gibt Aufschluss über überlastete Server und ermöglicht eine proaktive Kapazitätsplanung.

Erleben Sie die Actian Data Platform

Die Actian Data Platform bietet eine einheitliche Lösung für das Aufnehmen, Umwandeln, Analysieren und Speichern von Daten. Die Actian Data Platform ist hybrid, d. h. Instanzen können in mehreren öffentlichen Clouds und On-Premises bereitgestellt werden. Die integrierte Datenintegrationstechnologie ermöglicht es Kunden, ihre Daten schnell zu laden, um schnell verlässliche Erkenntnisse zu erhalten.