Deskriptive Statistik

Liegen quantitative Informationen über eine Stichprobe vor, ist es für die Interpretation sinnvoll die Ausprägungen einzelner Merkmale in der Stichprobe zunächst summarisch darzustellen. Die geordnete Darstellung der Daten kann mittels:
Häufigkeitsverteilung in Form von Tabellen oder Diagrammen geschehen (z.B. Balken-, Säulen-, Kreisdiagramme). Häufigkeiten geben an, wie oft eine Merkmalsausprägung in der untersuchten Stichprobe vorkommt. Häufigkeiten werden unterteilt in:
  • absolute Häufigkeiten
  • relative Häufigkeiten
  • kumulierte Häufigkeiten
In quantitativen Studien sind Einzelausprägungen weniger informativ. Vielmehr interessiert man sich für die in der Stichprobe am zutreffendsten Merkmalsausprägungen. Maße der zentralen Tendenz geben hierüber Auskunft. Je nach Messniveau unterscheidet man zwischen:
  • Modus (Modalwert) = Dem häufigsten Wert einer Verteilung. Man unterscheidet zwischen unimodalen (1 Merkmalsausprägung kommt am häufigsten vor), bimodalen (2 Merkmalsausprägungen kommen mit der gleichen maximalen Häufigkeit vor) Verteilungen. Der Modus wird bei nominalskalierten Variablen verwendet.
    Ein Beispiel könnte sein: Schwarz ist die häufigste Haarfarbe in einer italienischen Schulklasse.
  • Median = Der Median einer Stichprobe teilt eine Häufigkeitsverteilung linear in 2 gleich große Hälften, d.h. 50% der Fälle liegen darüber und 50% der Fälle darunter. Der Median bedingt ordinales Skalenniveau und ist im Vergleich zum Arithmetischen Mittel resistent gegenüber Extremwerten.
    Ein Beispiel könnte die Krankenhausverweildauer nach einer Blinddarmentfernung sein. Die Patienten werden in der Regel nach 3 Tagen entlassen. Bei schwerwiegenden Komplikationen bleibt evtl. ein Patient deutlich länger (z.B. 21 Tage). Dieser einzelne Patient würde das arithmetisches Mittel/den Durchschnitt stark „verzerren“.
  • Arithmetisches Mittel = Das arithmetische Mittel ist das gebräuchlichste Maß zur Kennzeichnung der zentralen Tendenz. Es verlangt metrisches Messniveau und wird bestimmt als die Summe der Einzelwerte einer Verteilung geteilt durch die Anzahl der Stichprobenelemente.
    Ein Beispiel könnte das mittlere Alter sein. Das wird manchmal bei Fußballspielen aufgeführt, „die junge englische Mannschaft mit einem Durchschnittsalter von 23 Jahren gegen die erfahrenen spanischen Profis mit durchschnittlich 28 Jahren…“. Das geht natürlich auch mit dem Alter auf internistischen Stationen versus einer Station der Geburtshilfe“.
Ähneln sich die Werte zweier Stichproben hinsichtlich ihrer zentralen Tendenz, so können sie sich dennoch hinsichtlich ihrer Variabilität ihrer Ausprägungen unterscheiden. Daher sind neben Kennwerten der zentralen Tendenz Maße der Variabilität (= Streuungsmaße) ebenso geeignet zur Charakterisierung einer Stichprobenverteilung. Streuungsmaße (Dispersionsmaße) sind bspw:
  • Spannweite: Differenz zwischen dem höchsten und dem niedrigsten Wert.
  • Quartilsabstand: Bereich der mittleren 50% der Werte.
  • Varianz (s²)= Ermittelt sich aus der Summe der quadrierten Abweichungen aller Messwerte vom arithmetischen Mittel, dividiert durch die Anzahl aller Messwerte*. Voraussetzung wie beim arithmetischen Mittel ist metrisches Skalenniveau.
  • Standardabweichung (SD von engl. Standarddeviation) = Wurzel aus der Varianz**.

 

zur Übersicht          zurück            nächste Seite


* Genau genommen gibt es zwei Formeln für die Varianz. Steht im Nenner nur die Zahl aller Messwerte, wird die Streuung innerhalb der Stichprobe beschrieben. Als Schätzwert für die Varianz in der Grundgesamtheit wird die Formel (n-1) verwendet.

** Die Varianz ist zwar ein häufig verwendetes Streuungsmaß, sie ist jedoch ohne anschauliche Bedeutung. Im Gegensatz hierzu hat die Quadratwurzel der Varianz, die Standardabweichung, eine konkrete anschauliche Bedeutung: Bei einer Gauß- oder Normalverteilung liegen ca. 68% der Werte im Intervall von höchstens einer Standardabweichung vom Mittelwert.