Exzellenz & Organisation

Dark Data ist nachhaltig schädlich

von Marcel Rauch

Dark Data sind ungenutzte Daten im Unternehmen, die Geld und Energie verschlingen. Wie können IT-Organisationen und Fachbereiche das Problem eingrenzen?

 

Dark Data – dunkle Daten, die nicht genutzt werden – sind ein grassierendes Problem. Die Daumenregel: Je mehr Daten in einer Organisation anfallen, desto schwieriger wird die Verwaltung, weil man sie aus den Augen und aus dem Zugriff verliert. Laut Analysten verursacht die Speicherung von Dark Data in der Regel mehr Kosten als Wert. Dabei werden Daten seit jeher gehortet, weil man sie vielleicht noch einmal brauchen könnte, weil man sie wegen rechtlicher Vorgaben speichern musste oder weil es vermeintlich billiger ist, neuen Speicher zu kaufen. Denn es ist aufwendig, die Daten zu dokumentieren, zu kategorisieren und ihnen einen Wert sowie ein Verfallsdatum beizumessen.

Diversen Studien zufolge sind 30 bis 80 Prozent aller gespeicherten Daten dunkel, 50 Prozent erscheinen als realistischer Näherungswert. Dark Data findet sich in Protokollen, in Textfeldern und Dokumenten, in Überwachungsvideos, in Audiodateien, im IoT und in Grafiken. Fotos und Videos in einem Tweet sowie die Metadaten sind ebenfalls dunkel – etwa Sendezeiten, User, #hashtags, Informationen zum Gerät und zum Ort. Dies gilt auch für viele Prozess-Metadaten, etwa Log-Dateien oder Transaktionen eines ERP-Systems. Ein großes Problem entsteht dort, wo ohne Sinn und Verstand alle Daten mitgespeichert werden.

Endstation Cloud

Die Cloud hat den sorglosen Umgang noch beschleunigt. Denn durch Skaleneffekte und die effiziente Nutzung von Storage können Cloud-Anbieter niedrigere Preise an Kunden weitergeben. Aber auch der Speicher vor Ort wird billiger: Nach unseren Berechnungen sind die jährlichen Kosten für ein Terabyte SAN-Storage seit 2016 um rund 50 Prozent auf heute unter 1.000 Euro gesunken. Gleichzeitig wächst die Menge der Daten rasant: Das Bundesministerium für Wirtschaft und Klimaschutz bezieht sich auf Untersuchungen von IDC Research und bezifferte das geschätzte weltweite Datenvolumen im Jahr 2020 auf mehr als 50 Zettabyte – im Jahr 2025 sollen es schon 175 Zettabyte sein.

Dark Data – drei Herausforderungen

So können sich die Einspareffekte durch sinkende Stückkosten schnell ins Gegenteil verkehren, wenn man den finanziellen Aufwand für Strom, Backup und Management sowie die mangelnde Nachhaltigkeit des hemmungslosen Speicherns dagegenhält. Gegensteuern? Hier stehen Unternehmen vor drei zentralen Herausforderungen:

  • Die juristische Dimension bei Daten mit Personenbezug, wodurch die Speicherung an einen Verarbeitungszweck gebunden ist. Wenn die Daten nicht dokumentiert sind, fällt es schwer, rechtskonform zu handeln.
  • Die Verantwortlichkeit – wem gehören die Daten, wenn sie nicht mehr zugeordnet sind? Schließlich muss jemand die Entscheidung treffen, wann man welche Daten löschen kann.
  • Das Erkenntnisproblem, weil nicht bekannt ist, ob Daten existieren, wo sie liegen und wie man sie versteht – dies trifft speziell auf das heterogene IoT-Umfeld zu.

Auf die Schnelle lässt sich die Aufgabe jedenfalls nicht lösen, Unternehmen brauchen technische und organisatorische Maßnahmen. Dazu gehören Entscheidungskriterien, die festlegen, welche Daten behalten und wann der „Verschnitt“ gelöscht werden kann. In vielen Fällen sinnvoll wäre ein Chief Data Officer, der mit den entsprechenden Kompetenzen ausgestattet ist, die Verantwortung übernimmt und quer zu den Organisationseinheiten steht.

Daten-Management und Data Steward

Ob sich ein professionelles Daten-Management mit einem „Data Steward“ lohnt, hängt von der Organisation und ihrer Datennutzung ab. Neben Einsparungen beim Storage und reduzierten Compliance-Risiken steigen die Datenqualität und die Wiederverwendbarkeit, etwa durch unternehmensweite Daten-Repositories. Allerdings wird der kurzfristige Zusatzaufwand nur selten ins Verhältnis zum mittel- und langfristigen Nutzen gesetzt. Zudem lässt sich der Aufwand auch nur bedingt durch Automatisierungsansätze abmildern, denn letztlich muss eine menschliche Instanz beschreiben, was die jeweiligen Daten repräsentieren und wie man mit ihnen verfahren soll. Ein Tool, das alle Daten indexiert und intelligente Entscheidungen trifft, muss noch erfunden werden.

Marcel Rauch

Marcel Rauch

Der Wirtschaftsingenieur Marcel Rauch ist seit über zehn Jahren als IT-Managementberater tätig. Seine inhaltlichen Schwerpunkte sind IT-Benchmarking, IT-Servicekataloge sowie andere datengestützte Analysemethoden zur Optimierung von Serviceportfolio und -erbringung.