Die 9 V von Big Data
Wer genau den Begriff ins Leben gerufen hat, ist umstritten: Ab Mitte der 90er-Jahre zumindest tauchte Big Data in Publikationen und Artikeln vermehrt als Sammelbegriff für große Datenmengen auf. Das heute oft zitierte „3-V-Modell“ stammt aus dem Jahr 2001 und basiert auf einer Definition des US-Amerikaners Doug Laney, damals Analyst beim Marktforschungsunternehmen Meta Group, das inzwischen vom Konkurrenten Gartner übernommen wurde. Zehn Jahre später definierte Gartner Big Data so:
“Big Data is high-volume, high-velocity and/or high-variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation.”
Also Daten, die in großer Menge, hoher Geschwindigkeit und/oder unterschiedlicher Form anfallen, eine innovative und zugleich kostengünstige Art der Verarbeitung erfordern und eine verbesserte Einsicht (etwa in das Kaufverhalten der Kunden), Entscheidungsfindung und Prozessautomatisierung ermöglichen.
Zu den ursprünglichen drei V-Begriffe Volume, Velocity und Variety gesellten sich im Laufe der Zeit weitere Eigenschaften wie Veracity, Validity, Volatility, Visibility, Viability oder Value, die sich gegenseitig beeinflussen und bedingen. Zugegeben: Die Inflation der V-Worte ließe sich, frei nach den Soziologen Hans Albert und Holger Rust, als „nichts weiter als ein Sprachspiel zur Weltorientierung“ abtun. Dennoch lohnt es sich, diese Begriffe aus dem Big-Data-Kosmos hier in einem kleinen Glossar zu erläutern.
Validity
Der Begriff bezieht sich auf die Aussagekraft von Daten. Beispiel Social Media: Anders als bei Umfragen, bei denen Marktforscher valide Methoden anwenden, lässt die Analyse unstrukturierter Daten aus einem sozialen Netzwerk nur schwer verlässliche Aussagen, etwa auf das künftige Kaufverhalten einer Zielgruppe, zu.
Value
Für sich gesehen besitzen Daten keinen Wert. Value meint den wirtschaftlichen Wert von Big Data für ein Unternehmen, der durch geeignete Analysen gewonnen werden kann. Der Big-Data-Experte muss erkennen, in welchen Daten ein potenzieller Mehrwert für sein Unternehmen stecken könnte und mit welchen Methoden man diese Daten analysiert und aufbereitet. Dank Big-Data-Analysen können Unternehmen beispielsweise Preise in Echtzeit an aktuelle Marktsituationen anpassen, Kunden passgenauere Angebote machen oder Maschinen vorausschauend warten, um Kosten und Personalaufwand einzusparen.
Variety
Damit ist die Vielfalt der zur Verfügung stehenden Daten und -quellen gemeint. Hier kann man unterscheiden zwischen strukturierten (z.B. Kundenstammdaten), semistrukturierten (z.B. Emails) und unstrukturierten Daten (z.B. Posts aus dem Social Web), zwischen Unternehmens- und Fremddaten sowie zwischen den Kommunikationsdaten Mensch-Mensch, Mensch-Maschine und Maschine-Maschine.
Velocity
Bezieht sich auf die Geschwindigkeit, mit der Daten einerseits erzeugt und andererseits verarbeitet werden. Mit der wachsenden Zahl an Nutzern, Anwendungen, vernetzten Dingen und Sensoren sind Daten immer schneller verfügbar. Diese sollen zudem zeitnah – in Szenarien wie der Fernsteuerung von Maschinen oder in Telematiksystemen nahezu in Echtzeit – verarbeitet werden. Auch die Reaktionszeit, etwa bei Alarmen, soll möglichst kurz sein.
Veracity
Richtigkeit, Wahrhaftigkeit, Zuverlässigkeit, Sinnhaftigkeit, Vertrauenswürdigkeit: Veracity beschreibt das Problem, dass das Ergebnis einer Big-Data-Analyse stark davon abhängt, welche Qualität die eingegebenen Daten haben und mit welcher Methode Daten verarbeitet und ausgewertet werden. Qualitativ schlechte Daten führen auch mit einer perfekten Analyseplattform zu minderwertigen Ergebnissen. Eine unpassende Verarbeitungsmethode liefert trotz eigentlich guter Daten ebenfalls nicht die erwünschten Ergebnisse.
Viability
Bedeutet zu erkennen, welche Informationen aus Datensätzen, Messdaten von Sensoren, Textdateien, Positionsdaten aus Mobilfunknetzen, Erwähnungen im Web etc. relevant und nützlich sind, um aus ihnen einen Mehrwert zu generieren. Die US-Unternehmensberatung PROS beschreibt Viability in einer Infografik treffend als „the missing V“.
Visibility
Die Sichtbarkeit von Daten ist keine Selbstverständlichkeit: Dem Softwarehaus Veritas zufolge zählen mehr als die Hälfte aller von Unternehmen weltweit gespeicherten und verwalteten Daten zu sogenannten „Dark Data“ – sowohl ihr Inhalt als auch ihr Geschäftswert sind noch unbekannt. Gelingt es, diese Daten mit der passenden Big-Data-Technologie sicht- und nutzbar zu machen, lassen sich Werte generieren oder neue Geschäftsmodelle erschließen.
Volatility
Beschreibt sowohl, wie lange gewonnene Daten in der Originalquelle verfügbar sind, als auch, wie lange sie gespeichert werden sollen. So müssen Daten etwa für die Echtzeitverarbeitung nicht notwendigerweise nach dieser Verarbeitung aufbewahrt werden. Kundendaten wiederum werden meist auf Dauer gespeichert. Hier spielen auch der verfügbare Speicherplatz sowie gesetzliche oder unternehmensinterne Vorgaben eine Rolle.
Volume
Bezeichnet schlicht die schiere Menge an Informationen. Mit der Speicherung, aber vor allem mit der Verarbeitung, sind die meisten Datenbanksysteme angesichts von Datenvolumen im Petabyte-Bereich überfordert; Big-Data-Systeme sind die Lösung.
Dieser Artikel erschien ursprünglich auf Digitales-Wirtschaftswunder.de, dem Themenblog der QSC AG