Data-Profiling - Attributanalyse auf Basis von Geschäftsregeln
Eine weitere Möglichkeit zur Analyse von Inhalt, Struktur und Qualität von Daten ist das Aufstellen von Geschäftsregeln, wobei diese z.T. unternehmensspezifisch sind. Ein einfaches Beispiel sind Regeln für das Attribut Geschlecht, die nur die Ausprägungen "männlich" und "weiblich" zulassen. Eine Analyse wertet dann aus, welcher Anteil gegen diese Regel verstößt. Folgende Auflistung zeigt einige Möglichkeiten der Geschäftsregel-Prüfung:
- Domänen: Eine Domänenregel kann z.B. beim Attribut Geschlecht darin bestehen, dass nur die Ausprägungen "männlich" und "weiblich" zugelassen werden.
- Wertebereich: Eine Regel zum Wertebereich kann darin bestehen, dass für aktive Kunden nur Geburtsdaten als valide angenommen werden, die nicht länger als 150 Jahre zurück liegen.
- Werteausschlussbereich: Ein Beispiel für eine Regel zum Werteauschlussbereich ist der Ausschluss des Wochenendes als Bearbeitungsdatum für Vorgänge bei einem Unternehmen, welches nur werktags tätig ist.
- Genauigkeit: Wenn ein Dienstleistungsunternehmen ausnahmslos in vollen Stunden abrechnet, kann die Regel zur Genauigkeit z.B. vorsehen, dass Daten zu abrechnungsrelevanten Zeiten auch nur ganzzahlig gespeichert werden, um Abweichungen zwischen internen Auswertungen und dem Kunden abgrechneten Zeiten auszuschließen.
- Muster: Falls Daten einem Muster folgen (z.B. Steuernummern), kann dieses Muster zur Formulierung einer Muster-Regel verwendet werden. So kann bereits bei der Eingabe oder Übernahme von Daten verhindert werden, dass fehlerhafte Informationen ins System gelangen.
- Textattribute: Regeln zu Textattributen untersuchen den Text innerhalb eines Attributs. Falls z.B. bekannt ist, dass ein Textattribut jeweils nur ein einzelnes Wort enthält, kann dieses Attribut auf Leerzeichen geprüft werden. Ein anderes Beispiel stellen Wertepaare dar. Diese wurden in Zeiten knappen Speicherplatzes eingesetzt, um viele Informationen in wenig Speicher unterzubringen. So wurden beispielsweise Verbindungsparameter semikolongetrennt innerhalb eines Textfeldes abgespeichert (z.B. ";Real Time Olap=TRUE;Writeback Timeout=5"). Die Formulierung einer Regel kann das Attribut über erlaubte Schlüsselwerte validieren.
- Regeln zu fehlenden Werten: Sind in einem Feld NULL-Werte überhaupt zulässig? Wenn ja, wie ist mit NULL-Werten umzugehen? Die Beantwortung dieser Fragen generiert NULL-Werte-Regeln.
- Multiple Regeln: Bei multiplen Regeln werden die oben genannten Regeln kombiniert oder erweitert. So kann z.B. die Postleitzahl je nach Land unterschiedlich lang sein. In solch einem Fall muss das Attribut Land mit der Regel zur Postleitzahl kombiniert werden.
Literaturhinweise:
- Apel, D. (2010). Datenqualität erfolgreich steuern: Praxislösungen für Business-Intelligence-Projekte. Hanser.
- Hildebrand, K., Gebauer, M., Hinrichs, H., & Mielke, M. (2009). Daten- und Informationsqualität. Springer Fachmedien.