Multiple Imputations of missing values — ein Erfahrungsbericht

Intro

In der Forschungspraxis werden Datenpunkte mit fehlenden Werten oft von der Analyse ausgeschlossen oder durch einen zentralen Lageparameter (Mittelwert, Median) ersetzt. Als Alternative dazu hat sich das Verfahren der Multiplen Imputation etabliert, welches in diesem Beitrag erklärt wird.

Die im Folgenden geschilderten Erfahrungen habe ich mit der Statistiksoftware R und dem mice-Paket gesammelt [2].

R Pakete

In dieser Blog-Post habe ich die folgenden R-Pakete verwendet:

library(dplyr)
library(ggplot2)
library(mice)

Hintergrund

Bei der Durchführung statistischer Auswertungen ist man oft mit dem Auftreten fehlender Werte konfrontiert. Schließt man Datenpunkte mit fehlenden Werten von der Analyse aus, führt das zu einer Reduktion der Fallzahl und damit zu einer geringeren Power der statistischen Tests. Da Werte nur selten zufällig fehlen, kann ein Fallausschluss zu einer Verzerrung der Ergebnisse führen. Ersetzt man fehlende Werte hingegen durch den Mittelwert oder Median der entsprechenden Messgröße führt dies zu einer Reduktion der Varianz, womit sich das Risiko für einen alpha-Fehler erhöht.

Als Alternative zu diesen und anderen Methoden wurde in den letzten Jahrzehnten die Methode der Multiplen Imputation (MI) entwickelt [5]. Ausgehend von einem Datensatz mit fehlenden Werten wird eine festgelegte Anzahl von kompletten Datensätzen (m) erzeugt, indem die fehlenden Werte durch sogenannte plausible Werte ersetzt werden. Diese plausiblen Werte werden einer Datenverteilung entnommen, die für die jeden fehlenden Wert modelliert wird. Die m imputierten Datensätze gleichen sich hinsichtlich der beobachteten Datenpunkte, unterscheiden sich jedoch in den imputierten fehlenden Werten, wobei die Unterschiede der Unsicherheit des Imputationsprozesses Rechnung tragen [1]. Das Verfahren der MI lässt sich mittlerweile mit (fast) allen gängigen Softwarepaketen (R, SAS, SPSS, STATA) durchführen.

Vorgehen

Entscheidend für die Qualität einer MI ist die Spezifikation des Imputationsmodells, welche in Abhängigkeit vom Variablentyp erfolgen muss. Für die Imputation numerischer Variablen kann z.B. die Methode des “Predictive mean matching” (pmm) verwendet werden. Diese Methode hat den Vorteil, dass die imputierten Werte nur innerhalb der durch die Variable vorgegebenen Spannweite liegen. Imputiert man z.B. die fehlenden Werte der Skala eines EORTC-Fragebogens, liegen die imputierten Werte im Bereich 0 bis 100.

Datensätze, in denen Längsschnittdaten erfasst werden, können in zwei verschiedenen Datenformaten vorliegen. So ist in einem flachen Datensatz für jeden Fall (z.B. Patienten) genau eine Zeile reserviert, während pro Messgröße (z.B. Lebensqualitätsskala) und Befragungszeitpunkt jeweils eine Variable existiert. In einem tiefen Datensatz hingegen entspricht die Anzahl der Zeilen pro Fall der Anzahl der Messzeitpunkte, während pro Messgröße nur eine Variable angelegt wird, welche die Messungen aller Messzeitpunkte enthält. Der Zeitpunkt der Intervention bzw. Befragung wird in einer separaten Variable angegeben. Für die Durchführung einer MI empfiehlt es sich, mit einem tiefen Datensatz zu arbeiten.

Arbeitet man mit Lebensqualitätsfragebögen, so steht man vor der Entscheidung, die Imputationen entweder auf Ebene der Einzelitems oder daraus berechneter Skalen durchzuführen. Da statistische Analysen in der Regel auf der Grundlage von Skalen erfolgen, empfiehlt es sich, die fehlenden Skalenwerte zu imputieren. Dazu kommt, dass die Anzahl der Skalen deutlich geringer ist als die Anzahl der Einzelitems. Mit der Anzahl der zu imputierenden Variablen reduziert sich auch die für die MI benötigte Zeit bzw. Rechnerleistung [4]. Darüber hinaus erscheint es sinnvoll, alle Variablen mit fehlenden Werten in einem “Durchgang” zu imputieren.

Probleme

Imputiert man fehlende Werte eines Datensatzes in tiefer Form, erhält man ein Objekt der Klasse mids. Dieses enthält neben den ursprünglichen, nicht-imputierten Daten auch die Daten der m imputierten Datensätze. Grundlage für die Datenanalyse ist eine gepoolte Version der imputierten Datensätze. Benötigt man aber für die Datenanalyse den Baselinewert einer Variable als eigene Variable, so steht man vor dem Problem, die Daten umformen zu müssen. Da dies unter Beibehaltung der m imputierten Datensätze geschehen soll, muss dass mids-Objekt zunächst in eine gestaplete Matrix (auch stacked oder tall matrix) umgewandelt werden [3]. Hat man diese Matrix in die gewünschte Form gebracht, so kann sie problemlos in ein mids-Objekt zurückverwandelt werden, auf dessen Grundlage statistische Modelle berechnet werden können.

Eigene Erfahrungen haben außerdem gezeigt, dass eine zu starke Collinearität der imputierten Variablen zu einer Verzerrung der imputierten Werte führen kann. Möchte man beispielsweise fehlende Werte von Sub-Skalen eines Fragebogens sowie der entsprechenden Gesamtskala imputieren, empfielt es sich, die Gesamtskala als informations-gebende Variable aus dem Imputationsprozess auszuschließen.

Güteüberprüfung

Um die Güte der MI beurteilen zu können sollte geprüft werden, ob die Verteilung der nicht-imputierten in etwa mit jener der imputierten Werte übereinstimmt. Dies kann z.B. mit Hilfe von Histogrammen oder einer Kombination aus Stripcharts und Violinplots erfolgen* (vgl. Abb. 1).

Abb. 1: Stripchart zur Güteüberprüfung der MI

Abb. 1 zeigt eine Kombination aus Stripchart und Violinplot für eine Variable (n=200) mit 50 fehlenden Werten, die 5 mal imputiert wurden (Methode: pmm). Es wird deutlich, dass die Verteilung der gepoolten imputierten Werte in etwa der Verteilung der nicht-imputierten Werte entspricht.

Fazit für die Praxis

Im Vergleich zum traditionellen Umgang mit fehlenden Werten (Fallausschluss, einfache Imputationen) führen Multiple Imputationen weder zu einem Verlust statistischer Power noch zu einer Unterschätzung der Varianz. Auch die Schätzwerte werden in der Regel nicht zu stark verzerrt. In der Forschungspraxis bieten Multiplen Imputationen eine gute Möglichkeit im Umgang mit fehlenden Werten.

Literatur

  1. Buuren, Stef van. 2012. Flexible Imputation of Missing Data. CRC Press.

  2. Buuren, Stef, and Karin Groothuis-Oudshoorn. 2011. Mice: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software 45 (3). http://doc.utwente.nl/78938/.

  3. Errickson, Josh. 2017. Multiple Imputation. http://dept.stat.lsa.umich.edu/jerrick/courses/stat701/notes/mi.html.

  4. Graham, John W. 2009. Missing Data Analysis: Making It Work in the Real World. Annual Review of Psychology 60. Annual Reviews: 549-76.

  5. Rubin, Donald B. 1987. Multiple Imputation for Nonresponse in Surveys. Vol. 81. John Wiley & Sons.

*PS: Vielen Dank an Axel Klenk für den Tipp.

Advertisements

About norbert

I am post doc at the Department of Medical Psychology and Sociology, Leipzig University (GER), with degrees in sociology (MA) and public health (MPH).
This entry was posted in Indroduction and tagged , . Bookmark the permalink.

2 Responses to Multiple Imputations of missing values — ein Erfahrungsbericht

  1. Axel Klenk says:

    Vielen Dank für den interessanten Post über MI.
    Eine kleine Ergänzung: Verteilungen lassen sich besser vergleichen, wenn man im Stripchart noch einen Violinplot überlagert, was in ggplot2 ohne weiteres möglich ist.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s