Was ist Big Data?
“Daten als das neue Öl” und schon wieder neue Rekordstrafen gegen die “Datenkraken” – Daten sind in aller Munde, insbesondere der Begriff ‘Big Data’. Doch was ist “Big Data” eigentlich?
Um sich der Definition von Big Data in strukturierte Weise anzunähern, wurde das Modell der “3 Vs” – Volume, Variety und Velocity entwickelt.
Volume bezieht sich auf die schiere Menge an Daten, die produziert, gespeichert und verwendet werden. Bis 2020 soll diese Zahl 35 Zettabytes (ZB) erreichen – dabei handelt es sich um eine Zahl mit unvorstellbaren 21 Nullen. Heutzutage wird alles gespeichert: Umweltdaten, Finanzdaten, medizinische Daten, Überwachungsdaten, und die Liste geht weiter und weiter. Allein Twitter generiert täglich mehr als 7 und Facebook mehr als 10 Terabyte an Daten. Mit den exponentiell wachsenden Analyse- und Speicherkapazitäten, die sich dem Moore’schen Gesetz zufolge alle 12 bis 24 Monate verdoppeln, werden auch die zur Verfügung stehenden Daten exponentiell zunehmen. Variety bezieht sich auf die wachsende Vielfalt der unterschiedlichen Datenquellen und Datenformate, welche verarbeitet und miteinander verknüpft werden können.
Dabei wird zwischen strukturierten, und unstrukturierten Daten unterschieden. Strukturierte Daten sind solche, die bereits in Datenbanken vorsortiert sind und in einer bestimmten Beziehung zueinander stehen. Bei unstrukturierten Daten handelt es sich um eine reine Menge an Daten, welche in keiner Beziehung zueinander stehen. Dies sind Daten in Form von Text-, Audio-, Bild- und Videodateien insbesondere aus den sozialen Netzwerken wie Facebook, Instagram oder Twitter. Diese müssen verarbeitet und miteinander verknüpft werden, um daraus Erkenntnisse gewinnen zu können. Velocity berücksichtigt, wie schnell die Daten ankommen und gespeichert werden und die damit verbundenen Abrufraten – dies geschieht schon jetzt teilweise in Echtzeit. Ein anschauliches Beispiel welches die Geschwindigkeit der Daten und die damit verbundenen Chancen aufzeigt ist der BlackFriday Verkauf von Macys.
Um abzuleiten, wie viele Personen sich auf Macys Parkplätzen am BlackFriday aufhielten wurden Standortdaten von Mobiltelefonen ausgewertet. Dadurch war es möglich, die Verkäufe des Einzelhändlers an diesem entscheidenden Tag abzuschätzen, noch bevor Macy’s selbst diese Verkäufe erfasst hatte. Dies kann in einer von immer schnelleren und kürzeren Entscheidungsprozessen bestimmten Wirtschaft einen enormen Wettbewerbsvorteil schaffen.
Das ursprüngliche Modell der 3 Vs wurde in der Folgezeit um zwei weitere Vs ergänzt – Validity und Value. Validity bezieht sich auf die Qualität der Daten – je höher die Datenqualität, im Sinne von Richtigkeit und Vertrauenswürdigkeit ist, desto solider ist das Berechnungsergebnis. Somit ist erfolgsentscheidend, die zugrundeliegenden Daten vor ihrer Berechnung von Verunreinigungen zu befreien. Damit sind Daten ohne informativen Mehrwert, unvollständige, beschädigte oder sortenfremde Daten gemeint. Value steht für die Verwertbarkeit der mit Big Data erschlossenen Daten für den jeweiligen Nutzer, welche je nach Einsatzgebiet variiert.
Somit ist “Big Data” im Sinne der “5 Vs” eine Sammlung von Daten, welche auf Grund ihrer Menge, Vielfältigkeit, Schnelligkeit und Qualität einen Wert für den jeweiligen Nutzer schafft.
Da wir nun wissen was unter dem Begriff “Big Data” zu verstehen ist, schließt sich selbstverständlich die Frage an, wie “Big Data” denn genutzt werden kann. Dies wird das Thema in unserem nächsten Glossary-Artikel sein.
Last Updated on 11. Juli 2021