Vorgehensweise
Bei der Analyse eines vorliegenden Datensatz sollte man sich als erstes einen guten Überblick über die Daten verschaffen. Hierzu helfen deskriptive Statistiken über z.B. Mittelwerte, Standardabweichungen oder Quantile. Häufigkeits- und Kreuztabellen sowie Diagramme über die Verteilung der Daten (Histogramme oder Boxplots) unterstützen die Übersicht der Daten. Bei großen Datensätzen hilft es (einige/viele) einzelne Fälle detailliert zu betrachten.
Hat man einen Überblick der Daten gewonnen stellt sich die Frage was man damit zeigen bzw. analysieren möchte. Einige Methoden werden hier kurz vorgestellt.
Oft genügen deskriptive Statistiken oder Korrelationsanalysen, jedoch wird bei wissenschaftlichen Arbeiten immer häufiger großen Wert auf eine fundierte statistische Auswertung gelegt. Professoren, Kommilitonen oder Kollegen sind hierbei erste Ansprechpartner.
Die Statistik lässt sich in drei Bereiche einteilen. (Es folgt ein Auszug aus Wikipedia. Tja, warum manche Sachen wiederholen, wenn sie schon gut beschrieben woanders stehen?)Wikipedia Zitat:
- Die deskriptive Statistik (auch beschreibende Statistik oder empirische Statistik): Vorliegende Daten werden in geeigneter Weise beschrieben, aufbereitet und zusammengefasst. Mit ihren Methoden verdichtet man quantitative Daten zu Tabellen, graphischen Darstellungen und Kennzahlen. Bei einigen Institutionen ist wie bei der amtlichen Statistik oder beim sozio-oekonomischen Panel (SOEP) die Erstellung solcher Statistiken die Hauptaufgabe.
- Die induktive Statistik (auch mathematische Statistik, schließende Statistik oder Inferenzstatistik): In der induktiven Statistik leitet man aus den Daten einer Stichprobe Eigenschaften einer Grundgesamtheit ab. Die Wahrscheinlichkeitstheorie liefert die Grundlagen für die erforderlichen Schätz- und Testverfahren.
- Die explorative Statistik (auch hypothesen-generierende Statistik, analytische Statistik oder Datenschürfung (data mining)): Dies ist methodisch eine Zwischenform der beiden vorgenannten Teilbereiche, bekommt als Anwendungsform jedoch zunehmend eine eigenständige Bedeutung. Mittels deskriptiver Verfahren und induktiver Testmethoden sucht sie systematisch mögliche Zusammenhänge (oder Unterschiede) zwischen Daten in vorhandenen Datenbeständen und will sie zugleich in ihrer Stärke und Ergebnissicherheit bewerten. Die so gefundenen Ergebnisse lassen sich als Hypothesen verstehen, die erst, nachdem darauf aufbauende, induktive Testverfahren mit entsprechenden (prospektiven) Versuchsplanungen sie bestätigten, als statistisch gesichert gelten können.
Innerhalb dieser Bereiche muss die Fragestellung geklärt werden. Nun gilt es einen Überblick über mögliche statistische Methoden zu gewinnen, sich in die entsprechende Literatur einzulesen und sich Gedanken über die anzuwendende Software zu machen.