DATEN SAMMELN, UM MEHRWERTE ZU SCHAFFEN – ABER WIE? - TEIL 3
19.08.2019 // Björn Heinen
Share(c) erhui1979 - Getty Images
WIE UNTERNEHMEN EIN STABILES DATENGERÜST BAUEN
Teil 1: Die Datenhaltung (was wird gespeichert?)
Teil 2: Die Datenqualität (wie wird es gespeichert?)
Es gibt einen Begriff unter Datenanalysten, den ich zwar nicht für besonders elegant halte, um den ich in diesem Beitrag aber nicht herumkomme: Datensilos. Das sind solche Datensätze, auf die nur eine Abteilung Zugriff hat und die dem Rest des Unternehmens nicht zugänglich sind. Datensilos entstehen insbesondere in größeren Unternehmen, wenn Fachabteilungen anfangen ihre Stammdaten nach eigenen Vorstellungen in unterschiedlichen Systemen abzulegen. Die „gleichen“ Daten sind dann plötzlich über mehrere Systeme verteilt – mit unausweichlichen Diskrepanzen.
Die Folgen von Datensilos
Das Problem mit Datensilos ist kein unmittelbares. Die einzelnen Abteilungen sind glücklich und der operative Alltag funktioniert. Davon abgesehen natürlich, dass viel Arbeitszeit für die redundante Haltung ein und desselben Datensatzes verschwendet wird, die Transparenz innerhalb des Unternehmens mit sofortiger Wirkung abnimmt, die Daten nicht mehr von allen Unternehmensteilen genutzt werden können und die Verknüpfbarkeit der Daten auch nicht mehr gegeben ist. Während die ersten drei Punkte recht offensichtlich sind und jeweils ausreichen würden, um jede Form von Datensilo auf ein Minimum zu reduzieren, ist das Problem mit der Verknüpfbarkeit weniger offensichtlich. Es drückt sich erst dann aus, wenn abteilungsübergreifende Projekte mit den Daten durchgeführt werden sollen (Controlling, Data Science Projekte, Business-Intelligence Projekte, et cetera) und plötzlich Äpfel mit Bananen verglichen werden. Plötzlich berechnet man zweimal denselben KPI mit unterschiedlichen Daten – und Ergebnissen. Oder man findet einen Teil seiner Daten in einem System, nicht aber in anderen. Die mangelnde Verknüpfbarkeit behindert grundsätzlich die Zukunftsfähigkeit und Skalierbarkeit des Unternehmens in Bezug auf datengetriebene Prozesse.
Entstehung von Datensilos
Wenn Sie die ersten beiden Teile dieser Blog-Reihe (Teil 1, Teil 2) gelesen haben, werden Sie sich erinnern, dass Daten in solchen Unternehmen am ehesten direkt verfügbar sind, deren Geschäft von Natur aus digital ist. Banken sind ein Paradebeispiel hierfür. Ich habe auch erwähnt, dass das trotzdem nicht bedeutet, dass die Daten so brauchbar sind, wie sie es sein sollten. Damit habe ich auf die zersplitterte Datenlandschaft angespielt, die es zwar ermöglicht, direkt auf ein einzelnes Datensilo zuzugreifen, es aber verhindert, ohne größeren Aufwand die benötigte Verknüpfung mehrerer Datensilos herzustellen. Banken sind hier ein Extrembeispiel, da sie teils zehntausende Mitarbeiter haben und viele von den Datensilos unter keinen Umständen jemals verknüpft werden müssten. Aber es existieren eben auch sehr viele Datensilos, deren Verknüpfung gewinnbringend wäre, dies aber im Bereich des Unmöglichen bleibt. Bei einem Modehändler beispielsweise kann man Produktinformationen (z.B. Hersteller, Farbe, Schnitt) und die Historie aller Einkäufe miteinander verbinden, um Rückschlüsse von Produkteigenschaften auf das Kaufverhalten ziehen zu können.
Es gibt zwei Hauptgründe dafür, dass Datensilos entstehen. Zum einen ist da die Komplexität eines Unternehmens, die nicht in einem einzelnen System widergespiegelt werden kann. So etablieren sich unterschiedliche Systeme mit teils überlappenden Informationen, die den für den Teilbereich relevanten Prozess optimal abbilden. Für sich genommen ist das kein Problem, es muss nur Acht darauf gegeben werden, dass man die Überlappungen und Diskrepanzen auf ein Minimum reduziert und aktiv im Auge behält - ein durchaus lösbares Problem. Der zweite Grund liegt daran, wie in den meisten Unternehmen nach wie vor Entscheidungen über die Datenhaltung getroffen werden: Fachabteilung A beschließt, ein Tool mit eigener Datenhaltung zu benutzen, Fachabteilung B beschließt, ein anderes Tool mit eigener Datenhaltung zu nutzen. Hier endet die Entscheidungskette, unabhängig davon wie groß die Überlagerungen sind. Der übergreifende Blick, der die Redundanzen und potenziellen Diskrepanzen erkennt, fehlt. Meistens, weil die Verantwortlichen das Thema nicht erkennen oder es unternehmenspolitisch mit Nachteilen verbunden ist, sich an dieser Stelle zu bemühen. Im Grunde genommen würde ein einzelner Mitarbeiter für strategische Investitionen und Veränderungen über Abteilungsgrenzen hinweg argumentieren, deren Mehrwert mit starker Verzögerung kommt und für ihn persönlich meist in keinem Verhältnis zum Gegenwind steht, der ihn erwartet.
Gegenmaßnahmen
Mit der Frage, was Unternehmen gegen die Entstehung von Datensilos unternehmen können, kommen wir wieder beim Kernthema der Blog-Reihe an: Der Datenstrategie. Wenn auf oberster Unternehmensebene beschlossen wird, dass Datensilos (und andere Seiteneffekte derselben Sorte) auf ein Minimum zu reduzieren sind, wird meist zum ersten Mal überhaupt das Datengerüst berücksichtigt. Zusätzlich gibt es einen Anreiz für die Abteilungen darauf zu achten, nicht gegen diese Vorgabe zu verstoßen. Reichen wird das freilich nicht. Es braucht zudem Mitarbeiter, welche die Datensituation aktiv kontrollieren und in jede Entscheidung bezüglich der Datenhaltung eingebunden sind. Nicht umsonst gibt es schon seit vielen Jahren eine Position namens Chief Data Officer (CDO), dessen Aufgabe nur aus dem Datenmanagement eines Unternehmens besteht. Die Einrichtung dieser Position erkennt Daten als Vermögensgegenstand eines Unternehmens an und behandelt sie mit der entsprechenden Wichtigkeit. Sicherlich muss nicht jedes Unternehmen eine C-Level Position für Daten schaffen, aber ein Datenbeauftragter (der im Optimalfall mit dem Datenschutzbeauftragten zusammenarbeitet, aber nicht dieselbe Person ist) mit Rückendeckung der Führungsebene sollte zur Grundausstattung eines jeden Unternehmens gehören, für das datengetriebene Entscheidungen in Frage kommen.
Zurück zur Datenstrategie
Es bleibt zu klären, was zu tun ist, wenn Datensilos bereits entstanden sind und dies korrigiert werden soll. Die ehrliche Antwort lautet: Hier ist Durchsetzungsvermögen gefragt. Haben sich die oben beschriebenen Fachabteilungen A und B erstmal an die bestehende Datensituation gewöhnt und ihre Prozesse daran angepasst, wird es bei einer Veränderung dieser Situation viel Widerstand geben. Die Abteilungsleiter vertreten berechtigterweise an erster Stelle die Interessen ihres eigenen Bereichs und die leiden nun mal (kurzfristig), wenn die abteilungsspezifischen Einzellösungen angepasst werden. Das ist ein weiterer Grund, warum die Erstellung und Umsetzung einer Datenstrategie so hoch im Organigramm angesiedelt sein sollte wie möglich. Vermittelt man den betroffenen Unternehmensbereichen das Problem, ordnet es im großen Ganzen ein und gibt entsprechend viele Spielräume für die/während der Transition, wird die Umsetzung wesentlich einfacher realisierbar. Die Alternative ist ein sehr langer, evolutionärer Prozess, der schrittweise die Datenlage ändert und einen De-Facto-Standard schafft, der irgendwann einfacher zu nutzen ist als die bisherigen Lösungen. Das ist aber eine lokale Lösung, die viel Herzblut braucht und schlecht skaliert.
In dieser Blog-Reihe bin ich auf Fragen rund um die Datenspeicherung eingegangen. Die Antworten auf diese Fragen finden sich in der Datenstrategie, die für jedes Unternehmen, das datengetrieben ist oder es sein möchte, bares Geld wert ist. Sollten Sie Fragen haben, die weiter in die Tiefe gehen oder Unterstützung bei einem entsprechen Projekt brauchen, kontaktieren Sie mich gerne.
ÜBER UNSERE EXPERT:INNEN
Björn Heinen
Lead Data Scientist
Björn Heinen arbeitet seit 2017 bei INFORM im Bereich Data Science. Als Lead Data Scientist beschäftigt er sich sowohl mit internen Projekten, bei denen bestehende INFORM-Produkte um Machine-Learning-Funktionalitäten erweitert werden, als auch mit externen Projekten, die er von der Ausarbeitung über die Implementierung bis zur Integration begleitet.