Datenmanagement

Ein umfassender Leitfaden zum Verständnis der verschiedenen Datentypen

Reihen virtueller Dateien in einem Datenkatalog, die zu leistungsfähigem Datenmanagement beitragen

Haupttypen von Daten

Es gibt drei große Arten von Daten: strukturierte, halbstrukturierte und unstrukturierte. Die Daten können die folgenden Merkmale aufweisen:

  • Primärdaten stammen aus einer Originalquelle, z. B. einer Waage.
  • Sekundäre Daten stammen aus einer sekundären Quelle, z. B. einem Bericht, der die ursprünglichen Daten interpretiert.
  • Qualitative Daten sind von Natur aus subjektiv.
  • Bei quantitativen Daten handelt es sich um einen numerischen Wert, z. B. eine Punktzahl.
  • Diskrete Daten sind eine ungerundete ganze Zahl.
  • Kontinuierliche Daten können ein gerundetes Maß sein.

Actian's Datentypen

In diesem Artikel werden wir uns auf die Datentypen konzentrieren, auf die Actians Datenbankmanagementsysteme (DBMS) zugreifen können. Diese lassen sich in die folgenden fünf Kategorien einteilen:

  • Zeichen
  • Numerisch
  • Datum und Uhrzeit
  • Abstrakt
  • Boolesche

Zeichen-Daten

Zeichendatentypen sind Zeichenketten aus ASCII-Zeichen, sowohl druckbare als auch nicht druckbare. Alphabetische Groß- und Kleinbuchstaben werden wörtlich akzeptiert. Zeichendaten können Datentypen mit fester oder variabler Länge sein. Spalten mit variabler Länge benötigen mehr Platz als solche mit fester Länge, da ein Längenbezeichner gespeichert werden muss. Wenn ein Datenfeld einen Nullwert enthalten kann, wird ein zusätzliches Byte verwendet, um einen Nullindikator zu speichern.

Leerzeichen in Zeichenketten werden als Teil der Zeichenkette behandelt. Eine Zeichenkette mit fester Länge wie CHAR(4) wird mit nachgestellten Leerzeichen wie "ABC " aufgefüllt. Führende und nachfolgende Leerzeichen sind beim Vergleich von Werten von Bedeutung.

Wie bei CHAR-Zeichenfolgen mit fester Länge können VARCHAR-Zeichenfolgen jedes Zeichen enthalten, auch nichtdruckende Zeichen, mit Ausnahme des ASCII-Null-Zeichens, das ein zusätzliches Byte belegt, wenn es erlaubt ist. Leerzeichen sind signifikant, wenn sie gespeichert oder verglichen werden. Die Actian Data Platform verwendet die Datentypen NCHAR und NVARCHAR, um UTF8-kodierte Zeichen zu speichern.

JSON-Daten

Ein Beispiel für einen semistrukturierten Datentyp ist JSON. JSON verwendet einen eigenen Datentyp. JSON-Werte werden in einer beliebigen Zeichenkettenspalte gespeichert, z. B. CHAR, VARCHAR, NCHAR und NVARCHAR. Werte können Skalare, Arrays oder JSON-Objekte sein.

A JSON object is a comma-separated list of key:value pairs surrounded by brackets {}.

Ein Schlüssel muss eine Zeichenkette in doppelten Anführungszeichen sein. Ein Wert kann ein beliebiger JSON-Wert sein, einschließlich eines JSON-Objekts oder JSON-Arrays. Er kann nicht leer sein, und Leerzeichen werden in einer JSON-Objektzeichenfolge ignoriert, mit Ausnahme von Leerzeichen innerhalb der doppelten Anführungszeichen einer Zeichenfolge.

XML- und JSON-halbstrukturierte Datenstrings werden als Strings mit variabler Länge gespeichert.

Numerische Daten

Ganzzahlige Datentypen

Vier Integer-Datentypen werden verwendet, um ganze Zahlen zu speichern. Je mehr Bytes der Datentyp verwendet, desto größer ist die Zahl, die er speichern kann. Die vier Integer-Typen, die die Actian Data Platform verwendet, sind:

  • INTEGER1 oder TINYINT (ein Byte)
  • INTEGER2 oder SMALLINT (zwei Byte)
  • INTEGER4 oder INTEGER (vier Byte)
  • INTEGER8 oder BIGINT (acht Byte)

Dezimale Daten

Der Datentyp decimal speichert Bruchzahlen, indem er die Gesamtzahl der Ziffern und die Anzahl der Dezimalstellen angibt. DECIMA(20,5) speichert beispielsweise eine Zahl mit einer Genauigkeit von 20 Ziffern, wobei 5 rechts vom Dezimalpunkt steht.

Fließkomma-Datentyp

Fließkommazahlen können als FLOAT4 für 4-Byte-Genauigkeit oder als FLOAT8 für 8-Byte-Genauigkeit ausgedrückt werden. Die genaue Genauigkeit von 4-Byte-Zahlen ist prozessorabhängig. Intern werden Acht-Byte-Zahlen auf fünfzehn Dezimalstellen gerundet.

Geld Datentyp

MONEY ist ein Beispiel für einen abstrakten Datentyp. Gespeicherte Werte werden auf 2 Dezimalstellen gerundet. Die Werte müssen im Bereich von $-999.999.999.999,99 bis $999.999.999.999,99 liegen. Das Währungssymbol ist optional.

Datum- und Zeitangaben

Zeitstempel Datentyp

Der Datentyp TIMESTAMP wird verwendet, um Aufzeichnung , wann Ereignisse stattfinden. Er besteht aus einem Datum und einer Uhrzeit, optional mit einer Zeitzone. TIMESTAMP(5) WITH TIME ZONE könnte zum Beispiel so aussehen:

2023-15-20 9:30:55.12345-08:00, das wäre in der pazifischen Zeitzone.

Abstrakte Daten

Boolescher Datentyp

BOOLEAN-Spalten enthalten Literalwerte von 'TRUE' oder 'FALSE', die intern die Werte 0 und 1 haben.

IP-Netzwerkadresse Datentyp

Ein abstrakter Datentyp für IPV4- und IPV6-Adressen ist sehr nützlich beim Speichern und Bearbeiten von Weblogs. Eine IPv4-Adresse könnte wie 176.12.254.1 aussehen. Das neuere IPV6 hat viel mehr Variationen, so dass es wie das folgende Format aussieht: 2101:0cb8:8ca3:0d42:1900:8d2e:0e70:7734.

Die Verwendung von IPV4- und IPV6-Daten ermöglicht die Überprüfung von Eingabefehlern und unterstützt spezielle Operatoren und Funktionen.

Universeller eindeutiger Bezeichner (UUID)

Ein Universal Unique Identifier (UUID) ist ein eindeutiger 128-Bit-Bezeichner, der vom lokalen System auf Anfrage generiert oder aus externen Quellen geladen wird. Sie eignen sich zur zuverlässigen Identifizierung beständiger Objekte in einem Netzwerk oder zur Erzeugung eindeutiger Werte wie Transaktions-IDs.

Geografische Daten

Die Ingres-Transaktionsdatenbank bietet umfassende Unterstützung für Geodatentypen. Alle Geodatentypen speichern Merkmale im Well-Known-Binary (WKB) Format, einer Spezifikation des Open Geospatial Consortium (OGC).

2D-Datentypen existieren in einem zweidimensionalen Koordinatenraum, der durch X- (Längengrad) und Y- (Breitengrad) Koordinaten dargestellt wird. Dazu gehören z. B. Geometrie und Zeichenketten. 3D-Datentypen fügen dem X-, Y- und Z-Koordinatenraum eine dritte Dimension, nämlich Z, hinzu. 4D-Daten fügen einer 3D-Koordinate eine vierte, anwendungsabhängige Dimension hinzu.

Unstrukturierte Daten

Unstrukturierte Daten, wie z. B. Text, werden in der Datenbank in den Formaten CHAR oder VARCHAR gespeichert. Auf Video- und Audiodaten wird im Allgemeinen als extern gespeichertes Objekt in einem Dateisystem unter Verwendung eines Konnektor wie Spark zugegriffen.

Actian und unterstützte Datenformate

Weitere Informationen über Actian Transaktionsdatenbanken finden Sie auf unserer Website.