In der Statistik haben wir es mit Stichproben zu tun, die aus einer Grundgesamtheit (alle Einwohner eines Landes, alle Äpfel aus einer Lieferung ...) entnommen werden. Die Elemente der Stichprobe werden auf ein bestimmtes Merkmal untersucht, das in verschiedenen Ausprägungen auftreten kann.
n: Umfang der Stichprobe
x1, x2, ..., xn: gemessene Werte (Ausprägungen des untersuchten Merkmals)
H1, H2, ... : absolute Häufigkeit
h1, h2, ...:relative Häufigkeit (hi = Hi/n)
Je nach Art eines Merkmals unterscheidet man verschiedene Skalenniveaus:
Nominalskala: verschiedene Eigenschaften, keine vorgegebene Reihenfolge (z.B. Geschlecht, Wohnort)
Ordinalskala: die Werte können geordnet werden, man kann aber keine Abstände zwischen ihnen angeben (z.B. Rangplätze, Schulnoten)
Metrische Skala: die Werte sind (gemessene) Zahlenwerte (z.B. Alter, Einkommen). Solche Daten liefern die meiste Information.
Die Summenhäufigkeit gibt die (absolute oder relative) Häufigkeit der Werte an, die höchstens einen bestimmten Wert annehmen. Sie kann bei metrischen und ordinalen Daten angegeben werden.
Bei großen Datenmengen teilt man die Werte in Klassen ein (z.B. Größe 150 - 160 cm, 160 - 170 cm ...). In diesem Fall kann man die (absoluten oder relativen) Häufigkeiten in einem Histogramm darstellen (siehe Beispiel). (Andere Möglichkeiten der grafischen Darstellung sind z.B. Kreisdiagramm, Säulen- und Balkendiagramm ...)
Wir versuchen, die Stichprobe durch einen "mittleren Wert" zu beschreiben.
Arithmetisches Mittel
Das arithmetische Mittel (meist einfach als Mittelwert bezeichnet) ist das wichtigste Zentralmaß:
(Zur Verwendung des Summenzeichens)
Wenn Werte mehrmals vorkommen, rechnet man besser mit den relativen Häufigkeiten:
(gewichtetes arithmetisches Mittel)
Bei klassifizierten Daten verwendet man die Klassenmitten als Messwerte (z.B. Körpergröße 150 - 160 cm: wir rechnen mit xi = 155 cm). Das arithmetische Mittel ist nur bei metrischen Daten sinnvoll.
Median
Das arithmetische Mittel hat den Nachteil, dass es sehr empfindlich gegenüber "Ausreißern" ist (wenn z.B.
in einer Firma 9 Personen je
= x(n+1)/2 für ungerades n = 1/2·(xn/2 + xn/2+1) für gerades n (xi: Werte aus geordneter Liste)
Der Median kann bei ordinalen und metrischen Daten angewendet werden.
Modus
Der Modus (Modalwert) ist der Wert, der am häufigsten vorkommt. Eine Stichprobe kann auch mehrere Modalwerte haben. Dieser Wert liefert am wenigsten Information, er kann aber auf allen Datenniveaus angewendet werden.
liefern ein Maß dafür, wie sehr die gemessenen Werte vom Mittelwert abweichen.
Varianz und Standardabweichung
Wir interessieren uns für die Differenzen der gemessenen Werte zum arithmetischen Mittel. Damit wir nicht mit negativen Zahlen rechnen müssen, quadrieren wir diese Differenzen und bilden davon wieder den Mittelwert. So erhalten wir die Varianz:
Das kann man umformen zu folgender Formel, die leichter zu berechnen ist:
("Mittelwert der Quadrate minus Quadrat des Mittelwerts")
Wenn Werte mehrmals vorkommen, rechnet man wieder mit dem gewichteten Mittel:
Damit die Dimension wieder "stimmt", ziehen wir die Wurzel aus der Varianz und erhalten die Standardabweichung:
(Achtung, Verwechslungsgefahr:
In manchen Büchern findet sich für die Varianz folgende Formel:
Sie wird dann verwendet, wenn man aufgrund einer Stichprobe die Varianz der Grundgesamtheit abschätzen will.)
Spannweite
Die Differenz zwischen dem kleinstem und dem größten Wert bezeichnet man als Spannweite (engl. range). Dieses Streuungsmaß ist besonders leicht zu berechnen.
r = xmax − xmin
Quartile:
Die Quartile definiert man analog zum Median:
unteres Quartil q1 bzw. q0,25: ¼ der Werte liegen darunter
oberes Quartil q3 bzw. q0,75: ¾ der Werte liegen darunter
Der Median ist in dieser Bezeichnungsweise das 2. Quartil q2 bzw. q0,5.
(Ebenso definiert man Perzentile, z.B. 10%-Perzentil q0,1: 10% der Werte liegen darunter.)
Eine sehr übersichtliche Darstellung von Median, Spannweite und Quartilen ist der Boxplot ("box and whiskers", siehe Beispiel): Die "Box" reicht vom unteren bis zum oberen Quartil, die Linie in der Mitte gibt den Median an. Der "Schnurrbart" reicht bis zum kleinsten bzw. größten Wert.
Zehn Frauen wurden nach ihrer Körpergröße (in cm) gefragt.
Urliste:
Geordnete Liste:
Arithmetisches Mittel:
Median:
Modi: 168 und 170
Varianz und Standardabweichung:
Spannweite:
Quartile:
Wir stellen die Daten in einem Boxplot dar:
Dieselben Frauen gaben auch ihre Schuhgröße an.
Urliste:
Wir übertragen die Häufigkeiten in eine Tabelle. In der letzten Spalte stehen die (relativen) Summenhäufigkeiten.
Schuhgröße |
Hi |
hi |
Σ hi |
37 |
2 |
0,2 |
0,2 |
38 |
4 |
0,4 |
0,6 |
39 |
2 |
0,2 |
0,8 |
40 |
1 |
0,1 |
0,9 |
41 |
1 |
0,1 |
1,0 |
Die Abbildungen zeigen das Histogramm und die Summenhäufigkeitsfunktion der Verteilung.
Arithmetisches Mittel:
Median:
(Der Median ist der Wert, bei dem die relative Summenhäufigkeit 0,5 überschreitet.)
Modus: 38
Varianz und Standardabweichung:
Spannweite: r = 41 − 37 = 4
Quartile:
(Bei diesen Werten überschreitet die relative Summenhäufigkeit 0,25 bzw. 0,75.)
Bei größeren Datenmengen ist die händische Berechnung sehr aufwendig. Man kann sie sich sparen, indem man ein Tabellenkalkulationsprogramm nutzt, z.B. MS Excel Auch die meisten Taschenrechner haben Statistikfunktionen.