STA 201 - Einfache Anwendungen der Statistik (Lerneinheit 1) - Lagemasse, Streuungsmasse, Konzentrationsmessung
Was ist der Vorteil des Variationskoeffizienten?
1mm Streuung kann viel sein (Schweizer Uhrwerk) oder wenig (Tunnelbau); der Variationskoeffizient hilft einem einzuschätzen, ob die Streuung als gross oder als klein zu betrachten ist. Der Variationskoeffizient ist dimensionslos (keine Masseinheit) und erlaubt so auch den Vergleich von Verteilungen mit unterschiedlicher Masseinheit (Stk., kg, km, €, etc.).
Bsp. für eine Lorenzkurve: total 10 Unternehmen, davon 5 mit je 2% Marktanteil, total 10% 2 mit je 5% Marktanteil, total 10% 2 mit je 15% Marktanteil, total 30% 1 mit 50% Marktanteil, total 50%
50% der Unternehmen haben zusammen 10% Marktanteil 70% der Unternehmen haben zusammen 20% Marktanteil 90% der Unternehmen haben zusammen 50% Marktanteil 100% der Unternehmen haben zusammen (logischerweise) 100% Marktanteil Knickpunkte bei 50/10 70/20 90/50 100/100
konkrete Bsp. für harmonisches Mittel
Auto fährt bestimmte Strecken (in km) mit verschiedenen Geschwindigkeiten. Wie gross ist die Durchschnittsgeschwindigkeit? (Gewichtungsfaktor = km) Mechaniker verarbeitet mehrere Chargen gleicher Grösse (Stk.), verbessert sich von Mal zu Mal. Wie gross ist die durchschnittliche Produktionsgeschwindigkeit (Stk./h) über alle Chargen hinweg? (Gewichtungsfaktor = Stk.) Für die verschiedenen Abteilungen eines Unternehmens ist der Frauenanteil (Frauen/Beschäftigte) bekannt. Wie ist der Frauenanteil im ganzen Unternehmen? (Gewichtungsfaktor = Frauen) Gesamtproduktion eines Unternehmens auf verschiedenen Maschinen gleichen Typs. Von jeder Maschine ist die maschinenspezifische Ausschussquote bekannt (Fehler/produzierte Menge). Wie hoch ist die durchschnittliche Ausschussquote der Gesamtproduktion? (Gewichtungsfaktor = Fehler)
arithmetisches vs. harmonisches Mittel
Bezugsgrösse = Einheit des Zählers > harmonisches Mittel Bezugsgrösse = Einheit des Nenners > arithmetisches Mittel Obs!: Das harmonische Mittel ist immer kleiner als das arithmetische, sofern nicht alle Werte gleich sind.
Was bewirkt das Betragszeichen (bestehend aus zwei Betragsstrichen und einer Zahl oder Variablen, die zwischen den Betragsstrichen steht)?
Das Betragszeichen macht aus einer negativen Zahl eine positive Zahl, eine positive Zahl bleibt dagegen unverändert.
Wann eignet sich der Variationskoeffizient nicht?
Das zugrundeliegende Merkmal muss mind. verhältnisskaliert sein und der Mittelwert positiv. Wenn der Mittelwert nahe 0 liegt oder 0 ist, ist Vorsicht geboten (z.B. monatliche Anz. Drillingsgeburten in einer Klinik)
Wie wird eine Lorenzkurve erstellt?
Daten in ein Diagramm eintragen. X-Achse: kumulierte Anteile z.B. der Unternehmen an der Gesamtanzahl Y-Achse: kumulierte Marktanteile > Wichtig: die Merkmalsträger (also hier die Unternehmen) nach aufsteigenden Marktanteilen ordnen!
Wozu dienen Streuungsmasse?
Dazu, die Streuung eines Merkmals, also die Unterschiede der beobachteten Merkmalswerte, in einer Kennzahl zusammenzufassen.
Worauf ist bei einem Box-Plot bzw. Box-and-Whisker-Plot zu achten?
Die Konventionen sind unterschiedlich. Als sinnvolle Variante kann das Bsp. in der Abbildung (für Monatseinkommen) gelten. Nicht darauf verlassen, dass jeder einen Box-Plot gleich zeichnet.
Welchen Vorteil hat es, für die mittlere absolute Abweichung den Median zu verwenden und nicht das arithm. Mittel?
Die berechnete durchschnittliche Abweichung wird für ihn minimal.
Wodurch ist vorgegeben, welchen Mittelwert man verwenden soll?
Durch die Art der Daten. Es ist nicht im freien Ermessen des Anwenders.
Gedankenstütze für geometrisches Mittel bei Aufgaben mit Prozentwerten
Ein Plus von 20% als 1.2 (etc.) in die Berechnung aufnehmen, ein Minus von 20% als 0.8 (etc.).
Beispiele für Quantile
Einkommen: die untersten und die obersten 25% der Einkommen sind häufig wenig aussagekräftig, interessanter sind z.B. die 50% in der Mitte. Autos sind i.d.R. für die 5%-Frau und den 95%-Mann angepasst = nur 5% der Frauen sind zu klein dafür und 5% der Männer du gross. Kinder: Perzentile für Grösse und Gewicht.
Wie ist der genaue Wert des Medians bei klassierten Daten?
Er kann nicht genau ermittelt werden. Es kann nur festgestellt werden, in welcher Klasse der Median liegt. Er liegt nicht zwingend in der Klassenmitte der zentralen Klasse. Es gilt herauszufinden, in welcher Klasse der Median erreicht wird (der 50. von 100 Werten), in welcher die Summe der relativen Häufigkeiten 0.5 erreicht.
Wann ist der Mittelwert ungeeignet und weshalb?
Er reagiert mehr oder weniger stark auf Ausreisser, so dass er bei extremen Werten z.T. ungeeignet ist. Der Median ist dann aussagekräftiger.
Welches sind die Schwierigkeiten bei klassierten Merkmalen, wenn man einen Mittelwert berechnet?
Es ergibt sich ein etwas anderer Mittelwert, als wenn die Originaldaten gemittelt würden (weil eben schon klassiert wurde). Etwas problematisch: offene Randklassen, weil sich dort keine Klassenmitte angeben lässt.
Wie ist das Vorgehen, um den Median bei einer geraden Anzahl von Werten zu finden?
Es liegen zwei Werte um die Mitte herum. Sind beide gleich, ist das der Median. Wenn nicht: arithmetisches Mittel der beiden Werte.
typische Anwendungsfälle für harmonisches Mittel
Es soll der Durchschnitt eines Quotienten berechnet werden, z.B. km/h bzw. Stk./h oder eine Quote (Anteile). Immer dann anzuwenden, wenn die bekannte Grösse (der Gewichtungsfaktor) beim Quotienten im Zähler steht.
Wie reagiert Excel, wenn mehrere Werte als Modalwert in Frage kommen?
Es wird der erste in der Liste angezeigt.
Worauf ist beim Berechnen der mittleren absoluten Abweichung mithilfe von Excel zu achten?
Excel verwendet für MITTELABW (Bereich) das arithm. Mittel, nicht den Median. Möchte man den Median nutzen, muss die Formel mithilfe einer Matrix-Funktion nachgebildet werden.
Welches Mittelmass ist das richtige?
Folgende Überlegungen: Gesucht ist x quer. Mit welcher Masseinheit? > Gibt einen Hinweis darauf, wo x1, x2, x3, etc. zu finden sind, denn diese haben dieselbe Masseinheit. Wo finden wir die Bezugsgrösse wieder? Zähler oder Nenner? > Gibt einen Hinweis darauf, ob x quer arithm. (Nenner) oder x quer harmon. (Zähler) gesucht ist.
Quantile (Formel für klassierte Werte, rel. Häufigkeiten)
Formel analog Median, 0.5 über dem Bruchstrich wird durch p ersetzt. Es wird dann 0.25 für p eingesetzt, wenn das 1. Quartil gesucht ist, 0.75 für das 3. Quartil, 0.9 für das 90. Perzentil, etc.
Wenn für das geometrische Mittel mit Wachstumsraten gerechnet werden soll (statt mit Wachstumsfaktoren), geht man wie vor?
Für die Berechnung (für jede) Wachstumsrate + 1 einfliessen lassen. Mit Wachstumsfaktoren Berechnung durchführen. Vom Ergebnis - 1 abziehen, um wieder auf die Wachstumsrate zu kommen.
harmonisches Mittel, rel. Häufigkeiten
Gesamtbetrag geteilt durch Gesamtzahl der Anteile (im Bsp. Aktienanteile, zu versch. Preisen pro Anteil gekauft)
Haupteinsatzgebiete des harmonischen Mittels
Geschwindigkeiten (Menge/Zeit bzw. Weg/Zeit) Anteile (Teilgruppe/Gesamtgruppe) Preise (Geld/Stück)
Aufgabenbsp. 12: Aktienwert nimmt im ersten Jahr um 30% zu, im zweiten Jahr um 15% ab, im dritten wiederum um 20% zu. Gesucht ist die jährliche (mittlere) Kursänderung in Prozent.
Gesucht ist x quer in Form eines Faktors (Kursänderung). Finanzen, Rendite, Aktienkurse u.ä. > Häufig geometr. Mittel x quer in Form einer Kursänderung bzw. Wachstumsfaktor, also x1 = Kursänderung 1, +30% x2 = Kursänderung 2, -15% x3 = Kursänderung 3, +20% n = 3 (3 Jahre, 3 Werte) > Formel x quer geometrisch mit Einzelwerten (da Häufigkeit jeweils 1 (1 Jahr)). Umrechnen: +30% entspricht einem Wert von 130% des Ausgangswertes, -15% einem Wert von 85% des Ausgangswertes, +20% einem Wert von 120% des Ausgangswertes. 3. Wurzel aus 1.3 x 0.85 x 1.2 = 1.0986. Weil Faktor gesucht (Kursänderung) -1 rechnen, also Kursänderung +9.86%.
Aufgabenbsp. 5: Aktienwert nimmt im ersten Jahr um 7% ab, im zweiten Jahr um 13% zu. Gesucht ist die mittlere Kursänderung in Prozent.
Gesucht ist x quer in Form eines Faktors (Kursänderung). Finanzen, Rendite, Aktienkurse u.ä. > Häufig geometr. Mittel x quer in Form einer Kursänderung, also x1 = Kursänderung 1, -7% x2 = Kursänderung 2, +13% n = 2 (2 Jahre, 2 Werte) > Formel x quer geometrisch mit Einzelwerten (da Häufigkeit jeweils 1 (1 Jahr)). Umrechnen: -7% entspricht einem Wert von 93% des Ausgangswertes, +13% einem Wert von 113% des Ausgangswertes. Resultat 1.0251. Weil Faktor gesucht (Kursänderung) -1 rechnen, also Kursänderung +2.51%.
Aufgabenbsp. 14: Arbeitslosenquote 1999 in Deutschland. In den alten Bundesländern 9.9%, entspricht 2.8 Mio. Personen. In den neuen Bundesländern 19%, entspricht 1.3 Mio. Personen. Gesucht ist die durchschnittliche Arbeitslosenquote für Gesamtdeutschland.
Gesucht ist x quer in Form eines Prozentsatzes (Arbeitslosenquote = Arbeitslose/Gesamtheit). Also entsprechen die bekannten Prozentsätze 9.9% = x1 19% = x2. Die Einheit ist quasi Arbeitslose/Gesamtheit, Bezugsgrösse sind die Arbeitslosenzahlen in abs. Zahlen. 2.8 Mio. = h1 1.3 Mio. = h2 Bekannt sind die Arbeitslosen/Gesamtheit, bekannter Wert also im Zähler > x quer harmon. n=410 Mio. (alle Arbeitslosen, 2.8 Mio. +1.3 Mio.) > Formel x quer harmonisch mit abs. Häufigkeiten
Aufgabenbsp. 2: Beschluss in einem Parlament, bestehend aus Fraktionen A, B und C. Von Partei A sind 60% (180 Pers.) für einen Vorstoss, von B 40% (80 Pers.) und von C 50% (50 Pers.). Gesucht ist die durchschnittl. prozentuale Zustimmung im Gesamtparlament zu diesem Vorstoss.
Gesucht ist x quer in Form eines Prozentsatzes (des Parlaments bzw. aller Fraktionen). Also entsprechen die bekannten Prozentsätze x1 (60%), x2 (40%) und x3 (50%). Die Einheit ist quasi Ja-Stimmen/Personen, Bezugsgrösse sind die Ja-Stimmen (180, 80, 50). Was sind 180, 80 und 50 Personen? > Häufigkeiten, in absoluten Zahlen. Von Partei A sind h1 Pers. (180) für den Vorstoss. Von Partei B sind h2 Pers. (80) für den Vorstoss. Von Partei C sind h3 Pers. (50) für den Vorstoss. Bekannt sind die Ja-Stimmen/Fraktion, bekannter Wert also im Zähler > x quer harmon. n=310 (alle Ja-Stimmen, 180+80+50) > Formel x quer harmonisch mit abs. Häufigkeiten
Aufgabenbsp. 1: 2 Buchhalter, einer verarbeitet in 2 Std. 100 Belege, der andere in 4 Std. 100 Belege. Gesucht ist die durchschnittl. Zeit, die ein Buchhalter für 100 Belege braucht.
Gesucht ist x quer in Form von ? Std. / 100 Belege. Jeder Buchhalter braucht eine bestimmte Zeit x für 100 Belege. Also x1 = 2 Std. (pro 100 Belege), x2 = 4 Std. (pro 100 Belege) Bekannt ist 2 Std. bzw. 4 Std. > Wert im Zähler > x quer harmon. n=2 (Buchhalter) > Formel x quer harmonisch mit Einzelwerten, da keine Häufigkeiten gegeben.
Aufgabenbsp. 6: Ein Läufer läuft die erste Hälfte eines 42 km langen Laufs mit 14 km/h, die zweite Hälfte mit 7 km/h. Gesucht wird die mittlere Laufgeschwindigkeit.
Gesucht ist x quer in Form von km/h. Die bekannten Werte in km/h entsprechen x1 und x2, also x1 = 14 km/h x2 = 7 km/h. Bekannt ist zudem die Strecke in km, die er mit jeder Geschwindigkeit absolviert, in relativen Zahlen: f1 = 1/2 bzw. 0.5 f2 = 1/2 bzw. 0.5 Bekannt ist die Anzahl km in relativen Zahlen. Die Bezugsgrösseneinheit (km) findet sich im Zähler von x wieder (km pro Stunde). > x quer harmon. > Formel x quer harmonisch mit rel. Häufigkeiten
Aufgabenbsp. 7: Ein Läufer läuft die ersten 2 Std. eines 42 km langen Laufs mit 14 km/h, die zweiten 2 Stunden mit 7 km/h. Gesucht wird die mittlere Laufgeschwindigkeit.
Gesucht ist x quer in Form von km/h. Die bekannten Werte in km/h entsprechen x1 und x2, also x1 = 14 km/h x2 = 7 km/h. Bekannt ist zudem die Zeit in Std., wie lange er in jeder Geschwindigkeit rennt, in absoluten Zahlen: je 2 Std. Bekannt ist die Anzahl Std. in abs. Zahlen. Die Bezugsgrösseneinheit (Std.) findet sich im Nenner von x wieder (km pro Stunde). > x quer arithm. > Formel x quer arithmet. mit Einzelwerten (ungewichtet, weil 2 Mal auf dieselbe Dauer bezogen).
Aufgabenbsp. 4: Ein Autofahrer tankt an 3 versch. Tagen, einmal 10 l à 1.32 €/l, dann 20 l à 1.44 €/l und dann 30 l à 1.38 €/l. Gesucht ist der mittlere Benzinpreis in €/l.
Gesucht ist x quer in Form von €/l. Die bekannten Werte in €/l entsprechen x1 bis x3, also x1 = 1.32 €/l x2 = 1.44 €/l x3 = 1.38 €/l. Bekannt ist zudem die Menge in l, die er jedes Mal tankt, in absoluten Zahlen: h1 = 10 l h2 = 20 l h3 = 30 l Bekannt sind 10, 20, 30 l, die Bezugsgrösse (Liter) ist im Nenner (€ pro Liter). > x quer arithm. n = 60 (10+20+30) l > Formel x quer arithmetisch mit abs. Häufigkeiten
Aufgabenbsp. 3: Ein Autofahrer tankt an 3 versch. Tagen für je 27.3 €. Der Preis beträgt einmal 1.3 €/l, einmal 1.4 €/l und einmal 1.5 €/l. Gesucht ist der mittlere Benzinpreis in €/l.
Gesucht ist x quer in Form von €/l. Jedes Mal, wenn der Autofahrer tanken geht, bezahlt er in €/l, also ist 1.3 €/l = x1 1.4 €/l = x2 1.5 €/l = x3. Bekannt ist 1.3 bzw. 1.4 bzw. 1.5 € (pro Liter) > Wert im Zähler > x quer harmon. n=3 (versch. Preise) > Formel x quer harmonisch mit Einzelwerten, da keine Häufigkeiten gegeben.
Aufgabenbsp. 8: Ein Autofahrer tankt an 3 versch. Tagen jeweils für 30 € Benzin. Der Preis beträgt einmal 1.32 €/l, einmal 1.44 €/l und einmal 1.38 €/l. Gesucht ist der mittlere Benzinpreis in €/l.
Gesucht ist x quer in Form von €/l. Jedes Mal, wenn der Autofahrer tanken geht, bezahlt er in €/l, also ist 1.32 €/l = x1 1.44 €/l = x2 1.38 €/l = x3. Bekannt ist der Betrag, den er jedes Mal ausgibt, nämlich 30 € > Wert im Zähler > x quer harmon. n=3 (versch. Preise) > Formel x quer harmonisch mit Einzelwerten (ungewichtet, weil jedes Mal für denselben Betrag getankt).
Aufgabenbsp. 10: Ein Autofahrer tankt an 3 versch. Tagen jeweils 30 l Benzin. Der Preis beträgt einmal 1.32 €/l, einmal 1.44 €/l und einmal 1.38 €/l. Gesucht ist der mittlere Benzinpreis in €/l.
Gesucht ist x quer in Form von €/l. Jedes Mal, wenn der Autofahrer tanken geht, bezahlt er in €/l, also ist 1.32 €/l = x1 1.44 €/l = x2 1.38 €/l = x3. Bekannt ist die Menge Benzin, die er jedes Mal bezieht, nämlich 30 l > Wert im Nenner (€ pro Liter) > x quer arithm. n=3 (versch. Preise) > Formel x quer arithmetisch mit Einzelwerten (ungewichtet, weil jedes Mal dieselbe Menge getankt).
Aufgabenbsp. 9: Ein Freiberufler kann im ersten Jahr 20% abschreiben, im zweiten Jahr 30%. Gesucht ist die mittlere Abschreibung pro Jahr.
Gesucht ist x quer in Prozent. Weil nach 1 Jahr der Betrag, auf den sich die Abschreibung bezieht, nicht mehr gleich ist > Rendite, Kursänderung, Abschreibung, Wachstum u.ä. > Häufig geometr. Mittel x quer in Form einer Abschreibung, also x1 = Abschreibung 1, -20% x2 = Abschreibung 2, -30% n = 2 (2 Jahre, 2 Werte) > Formel x quer geometrisch mit Einzelwerten (da Häufigkeit jeweils 1 (1 Jahr)). Umrechnen: -20% entspricht einem Wert von 80% des Ausgangswertes (bzw. 0.8), -30% einem Wert von 70% des Ausgangswertes (0.7). Resultat 0.74833 = Wert nach diesen zwei Jahren also auf 74.833 % vom Ausgangswert. Weil Faktor gesucht (Abschreibung) von 1 abziehen (1 - 0.74833), also Abschreibung = 0.252 = 25.2%.
Aufgabenbsp. 13: In einem RZ gibt es 20 ältere und 10 neue Rechner. Die älteren verbrauchen jeweils 150 W, die neueren 120 W. Gesucht ist der Durchschnittsverbrauch der Geräte.
Gesucht ist x quer in W. Von jeder Rechnertyp ist der Verbrauch bekannt, also ist 150 W = x1 120 W = x2. Keine Geschwindigkeiten, Quoten oder ähnliches gesucht, nur Verbrauch in W. Bekannt sind zudem die absoluten Häufigkeiten der Rechnertypen, nämlich 20 = h1 10 = h2. n=30 (Rechner insgesamt) > Formel x quer arithmetisch mit abs. Häufigkeiten
Aufgabenbsp. 11: Ein Berufsverband hat drei Beitragsklassen. Die Hälfte der Mitglieder bezahlt 250 € pro Jahr, ein Drittel bezahlt 150 € pro Jahr und der Rest 120 € pro Jahr. Gesucht ist der Durchschnittsbeitrag, den der Kassier einplanen kann.
Gesucht ist x quer in €. Von jeder Beitragsklasse ist der Beitrag bekannt, also ist 250 € = x1 150 € = x2 120 € = x3. Keine Geschwindigkeiten, Quoten oder ähnliches gesucht, nur Betrag in €. Bekannt sind zudem die Prozentsätze, wie viele der Mitglieder welchen Beitrag bezahlen, nämlich 1/2, 1/3 und der Rest.> x quer arithm. mit rel. Häufigkeiten 1/2 = f1 1/3 = f2 1 - 1/2 - 1/3 = 1/6 = f3 > Formel x quer arithmetisch mit rel. Häufigkeiten
Warum ist der Durchschnitt eine +/- abstrakte Grösse?
I.d.R. gibt es kein einziges Objekt der Grundgesamtheit, das dem statistischen Durchschnitt entspricht. Es gibt z.B. keinen Haushalt, in dem wirklich genau 2.1 Personen leben. Und keine Frau, die wirklich genau 1.8 Kinder hat.
Kann Excel einen Modalwert für nominale oder ordinale Merkmale berechnen?
Ja, aber nur wenn die Werte mit Zahlen kodiert sind (keine Texte oder Wahrheitswerte).
Varianz (alternative Formel)
Vorteil dieser Formel: Man benötigt nur die drei Werte für n (Anzahl Beobachtungswerte), Summe der Beobachtungswerte (xi), Summe der Quadrate der Beobachtungswerte (xi hoch 2)
Umrechnung Wachstumsfaktoren in Wachstumsraten (Prozentwerte)
Wachstumsfaktor - 1 = Wachstumsrate (Prozent)
typische Anwendungsfälle für geometrisches Mittel
Wachstumsfaktoren, z.B. Kursänderungen, Verzinsung von Kapital, Entwicklung von Umsatz, etc. > Für jede Periode (z.B. jedes Jahr) liegt dann genau 1 Wert vor.
Warum darf der Modalwert nicht als "typischer" Wert zu deuten?
Weil eine relative Mehrheit dafür ausreicht, z.B. 47% aller untersuchten Merkmalsträger tragen diese häufigste Ausprägung, es bleiben aber 53% andere (die Mehrheit).
Warum ist der Mittelwert kein "typischer" Wert?
Weil er abstrakt ist und häufig bei den untersuchten Objekten kein einziges Mal vorkommt.
Warum hat der Mittelwert trotz seiner abstrakten Grösse seine Aussagekraft?
Weil es nicht das Ziel der Statistik ist, die Eigenschaften oder das Verhalten Einzelner zu betrachten, sondern das der grossen Masse. Gerade der Mittelwert bietet die Möglichkeit, über oft subjektiv geprägte Einzelbeobachtungen hinaus das Gesamtergebnis zu erfassen.
Wann spricht man vom gewichteten (gewogenen) Mittel?
Wenn absolute Häufigkeiten vorliegen, z.B. werden 10 Aktien zum Preis A, 20 zum Preis B und 30 zum Preis C gekauft. Die Anzahl (Häufigkeit) muss in die Berechnung einfliessen.
Wann verläuft die Lorenzkurve auf der Diagonalen?
Wenn alle Marktteilnehmer identische Marktanteile haben.
Wozu dient der Shepphardsche Korrekturfaktor?
Wenn die Varianz klassierter Daten mit abs. Häufigkeiten berechnet wird, wird das Ergebnis immer ungenau, weil xi für die Klassenmitte steht, die Abweichungen von der Klassenmitte aber sehr unterschiedlich sein können. Bei exakter Gleichverteilung der Werte innerhalb der Klassen, ist der errechnete Wert niedrig. Bei eingipfliger, annähernd symmetrischer Verteilung innerhalb der Klassen, ist der errechnete Wert zu hoch. > Unter der Voraussetzung, dass alle Klassen dieselbe Klassenbreite haben, kann der Shepphardsche Korrekturfaktor verwendet werden.
Wann spricht man vom ungewichteten (ungewogenen) Mittel?
Wenn jeder Einzelwert mit demselben Gewicht in die Rechnung eingeht.
Wann ist der Gini-Koeffizient gleich 0?
Wenn keine relative Konzentration vorliegt, d.h. wenn die Lorenzkurve auf der Diagonalen verlaufen würde.
Wie sind die Formeln für den Median zu verstehen?
bei ungerader Anzahl von Werten: Es ist 1 Wert genau in der Mitte. Dieser ist der Median. Zu überlegen: Wie viele Werte hat man? n Werte. (n+1)/2, wenn n = 99 also 100/2=50. Median ist also der 50. Wert (x50). bei gerader Anzahl von Werten: Es sind 2 Werte rund um die Mitte. Das arithm. Mittel dieser zwei ist der Median. Zu überlegen: Wie viele Werte hat man? n Werte. n/2 und n/2+1 sind die zwei Werte rund um die Mitte, wenn n = 100 also 100/2=50 und 100/2+1=51. Median ist also das arith. Mittel zwischen dem 50. und dem 51. Wert (x50 und x51).
Wachstumsfaktor
der Faktor, mit dem der Ursprungswert der Grösse multipliziert werden muss, um auf den Endwert zu kommen (bei 4% Wachstumsrate also 1.04)
Varianz (Definition)
der durchschnittliche quadratische Abstand der Beobachtungswerte vom arithmetischen Mittel
Welche Art der Konzentration wird in der Statistik betrachtet? Sie hat auch betriebswirtschaftlich die grössere Bedeutung.
die relative Konzentration
mittlere absolute Abweichung (Definition)
durchschnittlicher Abstand aller Werte vom Mittelwert (arithm. Mittel oder Median)
Lagemasse (Definition)
ein einzelner typischer Wert innerhalb einer Verteilung, der in einer bestimmte Weise typisch ist für die Verteilung
Spannweite (Definition)
einfachstes Streuungsmass, Unterschied zwischen dem grössten und dem kleinsten Merkmalswert
Lorenzkurve (Definition)
grafische Darstellung zur Darstellung der relativen Konzentration
Modalwert (Modus)
häufigster Wert, dichtester Wert: die Merkmalsausprägung, die in einer Häufigkeitsverteilung am häufigsten vorkommt
harmonisches Mittel
immer dann zu verwenden, wenn die betrachtete Grösse einen Quotienten darstellt, z.B. Euro/Anteil. Es ist der Zähler vorgegeben, nicht der Nenner (z.B. Euro, nicht Anzahl der Anteile). Die untersuchte Grösse ist als Quotient gegeben, die Bezugsgrösse (der Gewichtungsfaktor) entspricht der Einheit des Zählers.
geometrisches Mittel
immer dann zu verwenden, wenn die einzelnen Werte für ein Gesamtergebnis multipliziert werden müssen, z.B. um einen gemittelten Wachstumsfaktor zu berechnen bzw. eine Wachstumsrate
Hilfstabelle zur Berechnung des Gini-Koeffizienten, Einzelwerte
n: Anz. Merkmalsträger qi: Marktanteil des Unternehmen xi
Wachstumsrate
prozentuale Veränderung einer Grösse (z.B. 4% = 0.04)
Gini-Koeffizient (Definition)
quantitative Kennzahl zur Berechnung der relativen Konzentration
Haupteinsatzgebiet der mittleren absoluten Abweichung
reale geometrische bzw. geografische Abstände
Hilfstabelle zur Berechnung des Gini-Koeffizienten, Werte mit Häufigkeitsverteilung
sortiert aufsteigend nach Wert in Spalte qi (Marktanteil) fi: % aller Unternehmen qi: gemeinsamer Marktanteil der Unternehmen fi Qi: addierter Marktanteil der Unternehmen
Unterschiede arithmetisches vs. geometrisches Mittel (in Bezug auf die Berechnung)
statt Addieren der Werte > Multiplizieren der Werte statt Prozentwerte (Wachstumsraten) > Wachstumsfaktoren
Quantile (Formel für n * p ganzzahlig)
x quer p wird in diesem Fall durch die Mitte von 2 x-Werten direkt unter- und oberhalb von x quer ausgedrückt.
Quantile (Formel für n * p nicht ganzzahlig)
x quer p wird in diesem Fall durch genau 1 Wert x ausgedrückt bzw. trifft auf einen Wert genau zu.
Unterschied der Varianz zur mittleren absoluten Abweichung
- Ausreisser gehen stärker in den Wert ein, weil quadrierte Abstände verwendet werden (anstelle der Abstandsbeträge) - Es wird das arithm. Mittel verwendet als Bezugspunkt (nicht der Median). Für das arithm. Mittel ergibt sich ein Minimum der aufsummierten Abstandsquadrate und damit der Varianz.
Logikcheck beim Mittelwert: Zwischen welchen Werten liegt der Mittelwert immer?
Unabhängig von der Art des Mittelwertes gilt zwingend, dass er immer zwischen dem kleinsten und dem grössten Beobachtungswert liegen muss.
Welche Excelfunktionen werden für Varianz und Standardabweichung genutzt?
VARIANZEN(Bereich) STABWN(Bereich) nicht: VARIANZ bzw. STABWN, denn diese dienen der induktiven Statistik, nicht der deskriptiven (in der wir uns bewegen)
wichtigstes Streuungsmass in der gesamten Statistik
Varianz bzw. Standardabweichung
Welche Gefahren bestehen beim Berechnen der Varianz?
- Masseinheiten stehen im Quadrat, z.B. € hoch 2. > Keine Rechenaufgabe, das ist eine Masseinheit wie Quadratmeter o.ä. - Es ist oft die Differenz zweier Zahlen zu bilden, die sich erst an der zweiten oder dritten Stelle nach dem Komma unterscheiden. Gerundete Zwischenergebnisse sind deshalb gefährlich (Rundungsfehler). Deshalb entweder Taschenrechner (Speicherfunktion) oder viele Stellen nach dem Komma verwenden.
Vorteile des Medians gegenüber von Mittelwerten
- reagiert nicht auf Aufreisser (bzw. deren extremen Wert) - offene Randklassen (bei klassierten Daten) sind kein Problem, da sie nicht in die Berechnung einfliessen
Was ist bei der Spannweite zu beachten?
- reagiert sehr stark auf Ausreisser - repräsentiert nur die Merkmalswerte von zwei Merkmalsträgern und vernachlässigt alle anderen - kann i.d.R. nur dazu genutzt werden, die Grösse des Bereichs anzugeben, aus dem Merkmalswerte vorliegen - hat eher geringe Bedeutung in der Statistik
Welche Arten von Konzentration werden unterschieden?
- relative Konzentration: auf einen kleinen ANTEIL von Merkmalsträgern entfälltein grosser Anteil einer Gesamtmasse. (Frage: Besteht zwischen den vorhandenen Merkmalsträgern ein Ungleichgewicht bezüglich der relativen Anteile, z. B. Marktanteile?) - absolute Konzentration: auf eine kleine ANZAHL von Merkmalsträgern entfällt ein grosser Anteil einer Gesamtmasse. (Hier ist auch die Gesamtzahl der Merkmalsträger von Bedeutung.)
Je grösser die Ungleichverteilung der Marktanteile, desto ...
... stärker hängt die Lorenzkurve durch.
Max. Wert des Gini-Koeffizienten (Formel)?
1 - 1/n
Quantil (Definition)
Teilt die Beobachtungswerte in zwei Gruppen auf. Der Median entspricht dem Quantil 0.5, er trennt die "unteren" von den "oberen" 50 Prozent. Ebenso kann man den Wert bestimmen, der grösser-gleich 25% sowie kleiner-gleich 75% aller Werte ist.
Wozu dient der normierte Gini-Koeffizient?
Um einen Maximalwert zu erhalten, der unabhängig ist von der Anz. Merkmalsträger. Sein Wert ist bei maximaler Konzentration = 1.
Variationskoeffizient (Definition)
Mass, um die durchschnittliche Streuung relativ zu den durchschnittlichen Werten anzugeben, d.h. Grösse der Streuung im Verhältnis zum Mittelwert
bekanntestes Lagemass
Mittelwert (Durchschnitt)
Wann welches Lagemass: Welche Skala ist mind. notwendig?
Modalwert (Modus): Nominalskala Zentralwert (Median): Ordinalskala (z. T. Intervallskala) arithmetisches Mittel: Intervallskala geometrisches Mittel: Verhältnisskala (nur positive Werte) harmonisches Mittel: Verhältnisskala (nur positive Werte) Da eine höhere Skala automatisch alle Eigenschaften der niedrigeren einschließt, können, z. B. für verhältnisskalierte Daten sämtliche Lagemaße berechnet werden.
Für welche Beobachtungswerte können Mittelwerte berechnet werden und warum?
Nur für metrisch skalierte, weil immer arithmetische Berechnungen durchgeführt werden müssen. Für das geometrische und das harmonische Mittel ist sogar mind. eine Verhältnisskala vorausgesetzt.
Wann ist der Modalwert als Kennzahl geeignet?
Nur wenn eine Ausprägung deutlich häufiger vorkommt als andere.
Besonderheit für stetige oder diskrete metrische Merkmale mit sehr vielen Ausprägungen: Kann hier ein Modalwert angegeben werden?
Sehr viele Ausprägungen, z.B. Einkommen > im Extremfall kommt kein Wert mehrfach vor oder per Zufall zwei Mal unter hunderten, etc. > klassieren. Modalwert = Klassenmitte der Klasse mit der grössten Häufigkeit
Wozu wird die [Gaußklammer] verwendet?
Sie steht für "Abrunden" im Sinne davon, dass man die grösste Zahl wählt, die kleiner gleich dem Ausdruck ist, der in der Gaußklammer steht.
Was ist i.d.R. grösser: Standardabweichung oder mittlere absolute Abweichung?
Standardabweichung, denn die vom Mittelwert entfernten Beobachtungswerte fallen durch die Quadrierung mehr ins Gewicht.
arithmetisches Mittel
Summe der Einzelwerte geteilt durch die Anzahl der Einzelwerte Es ist bei der Berechnung zu unterscheiden, ob Einzelwerte vorliegen oder Häufigkeiten.
Wie findet man den Median (Zentralwert)?
Sämtliche Merkmalsträger werden nach der Grösse des untersuchten Merkmals sortiert in aufsteigender Reihenfolge. Der Wert des Objekts, das in der Mitte steht, entspricht dem Median.