Datenbereinigung

Aus Meinungsklima.de
Version vom 14. April 2019, 13:40 Uhr von Trg (Diskussion | Beiträge) (+Kat)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springenZur Suche springen

Unter Datenbereinigung versteht man das Entfernen von Fehlern aus SPSS-Datensätzen.

Fehler und Ursachen

Fehler können an drei Stellen im Datenverarbeitungsprozeß entstehen:

  • Bei der Datenerhebung: Ein Befragter kreuzt beispielsweise etwas Falsches an oder ein Codierer bei der Inhaltsanalyse irrt sich beim Verschlüsseln eines Textes.
  • Bei der Dateneingabe: Tippfehler, Verrutschen in Zeile oder Spalte, Zahlendreher.
  • Bei der Datenaufbereitung, z.B. durch Fehler beim Recodieren von Variablen oder beim Berechnen von Indizes.

Praxis der Datenbereinigung

Die Datenbereinigung wird in der Regel einmal nach Abschluß der Dateneingabe durchgeführt, bevor mit Analysen begonnen wird. Dabei werden zwei Strategien kombiniert angewandt:

  1. Durchsicht einer vollständigen Häufigkeitsauszählung auf falsche Werte (wenn z.B. bei einer fünfteiligen Skala '79' eingetragen ist).
  2. Suche nach unlogischen oder unvollständigen Angaben:
    1. Wenn bei einer Inhaltsanalyse für einen Politiker drei Artikelmerkmale erhoben werden müssen, müssen diese Merkmale ebenso oft verschlüsselt worden sein, wie das Vorkommen des Politikers. Das heißt: Wenn für Angela Merkel die Merkmale Kompetenz, Sympathie und Vertrauenswürdigkeit erhoben wurden und Angela Merkel in 889 Beiträgen vorkam, muß es auch je 889 Verschlüsselungen für die drei Merkmale geben. Wurde Kompetenz 891 mal verschlüsselt und Vertrauenswürdigkeit nur 888 mal, stimmt etwas nicht.
    2. Wenn nur Befragte, die ein Automobil besitzen, nach ihren Tankgewohnheiten gefragt werden sollen, sind alle Einträge zu den Tankgewohnheiten bei Nicht-Autobesitzern falsch.

Die Vorgehensweise bei der Suche nach unvollständigen oder unlogischen Daten ist das wiederholte Gegenrechnen der Variablen mit Kreuztabellen bei gleichzeitiger Anwendung von Fälle auswählen. Für das Auffinden bekannter Fehler im Datensatz ist die Funktion "Fälle sortieren" sehr hilfreich. Diese Analysen müssen wiederholt werden, bis kein Fehler mehr entdeckt wird, weil sich bei der Bereinigung eines Fehlers manchmal ein neuer einschleicht (Beispiel: Alle Werte im obigen Merkel-Beispiel werden im Zuge der Datenbereinigung auf 889 Fälle vereinheitlicht und dann stellt sich bei einem weiteren Bereinigungsschritt heraus, daß nur 887 mal das Vorkommen einer CDU-Politikerin verschlüsselt wurde).