Logo der Universität Wien

Design- und Mobilitätseffekte beim Mikrozensus und Auswirkungen auf die Sozialstatistik

AG-Vorstellung

Leitung durch Johann Bacher, Johannes-Kepler-Universität in Linz.

Die PUMA-Website der JKU finden Sie hier.

Mitarbeit:

Josef Kytir (Leiter der Direktion Bevölkerung der Statistik Austria)

Daniela Gumprecht (Statistik Austria)

Alexander Kowarik (Statistik Austria)

Angelika Meraner (Statistik Austria)

Cornelia Moser (Statistik Austria)

Matthias Till (Statistik Austria)

Bei Fragen kontaktieren Sie bitte Johann Bacher.

Neuigkeiten aus der AG: R-Paket zur Schätzung des Stichprobenfehlers für den Mikrozensus verfügbar

Der Mikrozensus (MZ) ist keine einfache Zufallsauswahl. Ihm liegt ein komplexes Stichprobenverfahren zu Grunde (siehe z.B. Haslinger/Kytir 2006).

In einem ersten Schritt werden Privathaushalte ausgewählt. Die Privathaushalte werden zuvor nach Bundesland geschichtet und innerhalb jedes Bundeslandes erfolgt eine disproportionale Auswahl, um zu gewährleisten, dass auch in den kleinen Bundesländern Vorarlberg und Burgendland eine ausreichend große Fallzahl vorliegt.

Dies führt zu ungleichen Auswahlwahrscheinlichkeiten. Innerhalb eines Haushalts werden alle Personen ab 15 Jahren befragt. Ein einmal ausgewählter Haushalt bleibt fünfmal in der Stichprobe. Durch die wiederholte Befragung aller Haushaltsmitglieder entsteht ein Klumpeneffekt, der wie die ungleichen Auswahlwahrscheinlichkeiten bei der Auswertung zu berücksichtigen ist. Hinzu kommt eine ebenfalls bei der Auswertung zu berücksichtigende nachträgliche Gewichtung der Daten, um eine bessere Repräsentativität zu erzielen.

Bisher wurde das komplexe Stichprobendesign bei der Nutzung der MZ-Daten oft vernachlässigt. Ein Grund hierfür war das Fehlen einer adäquaten Software. Dieses Manko wurde jetzt von der Statistik Austria (Meraner 2016) beseitigt.

Angeboten wird ein R-Modul, das den Stichprobenfehler mittels Bootstrap berechnet. In die Entwicklung des Moduls floss die Rückmeldung der PUMA-AG  ein, die Pretests für den Prototypen des Moduls durchführte. Das R-Modul wurde im Rahmen der PUMA-Veranstaltung „Analyse komplexer Stichproben“, die am 12.5.2016 an der JKU stattfand, von Alexander Kowarik, Leiter der Methodenabteilung der Statistik Austria, vorgestellt.

Es leistet folgendes:

  • Schätzung von absoluten und relativen Häufigkeiten von Variablenwerten, wobei Subgruppen der Befragten und Subkategorien der untersuchten Variablen ausgewählt werden können. die Schätzung ist für Quartals- und Jahreswerte möglich.
  • Schätzung von Veränderungen von Variablenwerten, wiederum für Subgruppen und Subkategorien sowie für Quartals- und Jahreswerte.

Nachfolgend ein Beispiel aus dem Manual (Meraner 2016):

In dem Beispiel wird der EU-Konvention folgend die Arbeitsloserate der 15- bis 74-Jährigen für das 4. Quartal 2013 und 2014 sowie die Veränderung geschätzt. Prozentuierungsbasis ist die Erwerbsbevölkerung. Sie wird von den arbeitslosen und erwerbstätigen 15- bis 74-Jährigen gebildet. Entsprechend den Ergebnissen waren im 4. Quartal 2014 5,57% („est“) der Erwerbsbevölkerung.

Im Vergleich zu 2013 bedeutet dies eine Zunahme („absolute change“) von 0,21%. Relativ entspricht dies einer Zunahme von 3,85% (=0,21/(0,5*(5,57+5,36)). Der Standardfehler („sd“), der bei der Schätzung der Arbeitslosenrate für das 4. Quartal 2014 auftritt, beträgt 0,16%. Der Variationskoeffizient, der als relativer Stichprobenfehler interpretiert werden kann, ist definiert als „sd/est“ und nimmt einen Wert von 3% (=0.03) an, d.h. die Arbeitslosenrate wird mit Genauigkeit geschätzt. Das 95%-Konfidenzintervall („cil_2.5%“ und „ciu_97.5%“) wird empirisch aus den 2,5%- bzw. 97,5%-Quantilen der 500 Bootstrap-Stichproben ermittelt und nicht über die bekannte Approximationsformel berechnet.

Das R-Modul und die dafür erforderlichen Bootstrapgewichte können hier heruntergeladen werden.

Das Programm erfordert Speicherplatz, sodass es ratsam ist, zuvor einen Datensatz mit den nur benötigten Variablen zu erzeugen. Durch das Modul wird ein erster wichtiger Beitrag für eine korrekte Analyse der MZ-Daten geleistet. Weiterentwicklungen, wie etwas in Richtung von Kreuztabellen und multivariaten Verfahren, sind erwünscht. Vorerst aber herzlichen Dank an Statistik Austria an dieser Stelle!

Johann Bacher Linz, 11.6.2016

Literatur:

Haslinger, A./Kytir, J., 2006: Stichprobendesign, Stichprobenziehung und Hochrechnung des Mikrozensus ab 2004. Statistische Nachrichten, Heft 6, 510-519.

Meraner, A., 2016: Introduction to the mzR package in R. Verfügbar unter: https://github.com/statistikat/mzR/raw/master/inst/doc/mzR-intro_EN.pdf (11.6.2016).

Kurzbeschreibung der AG

Im Mikrozensus  verbleibt ein einmal ausgewählter Haushalt fünf Mal in der Erhebung. Dadurch ergeben sich für die Auswertung von Personenmerkmalen, wie Erwerbstätigkeit, Schulbesuch, usw., folgende Herausforderungen:

  • Es liegt ein Klumpeneffekt vor: Jeder Haushalt stellt einen Klumpen dar. Die Personen eines Haushalts, insbesondere wenn sie wiederholt befragt werden, sind untereinander ähnlicher als Personen aus verschiedenen Haushalten. Dadurch tritt ein Genauigkeitsverlust ein.

  • Der Mikrozensus ist als Adressstichprobe nicht als Personenpanel konzipiert. Analysiert man trotzdem Personen über die fünf Befragungswellen hinweg, so sind Mobilitätseffekte zu beachten: Eine Person in einem Haushalt wird bei einer wiederholten Befragung nicht mehr angetroffen, da sie z.B. weggezogen ist. Wenn der Ausfallgrund (z.B. Wegzug) mit dem Untersuchungsmerkmal (z.B. Erwerbstätigkeit) korreliert, treten i.d.R. systematische Verzerrungen auf, die als Mobilitäts- bzw. Welleneffekte bezeichnet werden können.

In der Arbeitsgruppe sollen beide Phänomene untersucht und ihre Konsequenzen für zentrale Ergebnisgrößen der Sozialstatistik (Erwerbsstatus, Arbeitssuchverhalten, Schulbildung, NEET, ESL usw.) aufgezeigt werden. Weiters soll untersucht werden, ob bzw. bis zu welchem Ausmaß die verzerrenden Effekte der „Wegzugsmobilität“ durch die ebenfalls beobachtbare „Zuzugsmobilität“ in Mikrozensushaushalte ausgeglichen werden. Darüber hinaus soll evaluiert werden, ob durch die längsschnittliche Einbeziehung (Mikrodatenverknüpfung) von Verwaltungsdaten (insb. HV und AMS) der Mikrozensus in methodischer Hinsicht besser im Sinne eines „echten“ Personenpanels genützt werden kann.

Ziele/Objectives der AG

Ziel 1: Schaffung eines Problembewusstseins bezüglich korrekter Berechnung von Standardfehlern beim MZ

Ziel 2: Bereitstellung von Methoden zur korrekten Berechnung von Standardfehlern beim MZ

Ziel 3: Nutzung der Panelstruktur des MZ

Ziel 4: Analyse der Mobilitätseffekte im MZ

Arbeitsplan der AG

  • Dokumentation des Vorgehens von Bacher et al. in den bisherigen Publikationen
  • Entwicklung eines R-Moduls zur Berechnung der Standardfehler für MZ mittels Bootstrap
  • Testung des R-Moduls durch AG-Mitglieder und Rückmeldung
  • Workshop zum R-Modul

Ziel 2: Schätzung der Auswirkungen des Design- und Mortalitätseffekts

2.1 Auswirkungen auf univariate Verteilungen und ihre Kennzahlen (wie Anteils- und Mittelwerte)

2.2 Auswirkungen auf Zusammenhänge

Assoziierte Partnerorganisationen

Rathausstraße 19/1/9
1010 Wien

T: +43-1-4277-499 01
E-Mail
Universität Wien | Universitätsring 1 | 1010 Wien | T +43-1-4277-0