Data-Profiling - Weiterführende Analysen auf Tabellen- und Datensatz-Ebene
Neben der Analyse von Attributen kann die Datenqualität auch über Analysen auf Tabellen- und Datensatzebene durchgeführt werden. Die folgenden Punkte geben einen Einblick in diesen Bereich.
Analysen auf Datensatzebene
Auf dieser Ebene geht es um die Identifikation von funktionalen Abhängigkeiten. Es werden alle Datensätze einer Tabelle einbezogen, um Beziehungen und Korrelationen zwischen den Attributen aufzudecken. Ein Beispiel für solch eine Analyse ist die Validierung des Primary Keys. Jede Tabelle sollte eine Identifikationsbezeichnung (ID) besitzen, mit der ein Datensatz eindeutig identifiziert werden kann. In technischer Hinsicht trägt ein solcher Primary Key nur die Information zur Identität. Nicht selten existiert jedoch das Problem, dass technisch unterschiedliche Primary Keys inhaltliche Duplikate darstellen. Beispiel: Eine Firma wurde in einer Tabelle unter zwei verschiedenen Kürzeln (Firma_ID als Primary Key) gespeichert. Ohne weitere Informationen fällt dieser Fehler nicht auf. Mit einer Validierung des technischen Primary Keys Firma_ID über einen "fachlichen" Primary-Key kann der Fehler aufgedeckt werden. Der fachliche Primary Key kann sich dabei z.B. aus der Kombination der Attribute Firmenname, Adresse und Telefonnummer zusammensetzen.
Eine weitere Analyse auf Datensatzebene stellt das Ableiten von Attributen dar. So kann bei unidirektionalen Attribut-Beziehungen von einem Attribut bzw. einer Attributgruppe auf ein anderes Attribut geschlossen werden. Bei bidirektionalen Attributen auch umgedreht. Beispiel: Zwischen Produkt und Produktgruppe existiert eine unidirektionale Beziehung. Von dem Produkt "Bildschirm" kann somit z.B. auf die Produktgruppe "IT" geschlossen werden. Umgedreht funktioniert dies jedoch nicht, da in die Gruppe "IT" eine ganze Reihe von Produkten fällt. Ein Beispiel für eine bidirektionale Beziehung stellen die Steueridentifikationsnummer und der Bürger dar. Ein Bürger hat dauerhaft eine eindeutige Identifikationsnummer. Von einem Attribut kann auf das andere geschlossen werden.
Analysen auf Tabellenebene
Auf der Tabellenebene geht es z.B. um die Identifikation von referenziellen Abhängigkeiten zwischen verschiedenen Tabellen oder um das Analysieren von Tabellen unter Geschäftsregeln. Letzteres kann z.B. angewendet werden, um Datenverluste aufzudecken: Falls ein bestimmter Monat nicht nachvollziehbar weniger Daten beinhaltet, kann das ein Hinweis auf einen Prozessfehler sein. Insbesondere bei der Betrachtung von Zeitreihen existieren statistische Methoden, mit denen Auffälligkeiten aufgedeckt werden können. Durch die Formulierung von Regeln kann solch eine Analyse zur automatisierten Identifikation von komplexeren Datenproblemen eingesetzt werden. Beispiel: In der Verkaufstabelle eines Unternehmens wurden bis auf den Monat Juli monatlich zwischen 2000 und 3000 Artikel gespeichert. Zu dem Monat Juli wurden in der Tabelle lediglich fünf Artikel gespeichert. Da eine natürliche Erklärung für solch einen Ausreißer unwahrscheinlich ist, sollte in diesem Fall auf fehlerhafte Daten analysiert werden.
Literaturhinweise:
- Apel, D. (2010). Datenqualität erfolgreich steuern: Praxislösungen für Business-Intelligence-Projekte. Hanser.
- Hildebrand, K., Gebauer, M., Hinrichs, H., & Mielke, M. (2009). Daten- und Informationsqualität. Springer Fachmedien.