Erstellung von Fragebogen

Text
Read preview
Mark as finished
How to read the book after purchase
Font:Smaller АаLarger Aa

1.3 Merkmale und deren Definition aus der Perspektive der Befragten

Die Definition der zu erfassenden Merkmale und dafür repräsentativer persönlicher Reaktionen und Zustände, in denen sich Unterschiede im zu erfassenden Merkmalsbereich niederschlagen, stellt die Basis für eine effiziente und professionelle Entwicklung eines Fragebogens dar (Cronbach, Gleser, Nanda & Rayaratnam, 1972; Osterlind, 1989). Dieser erste wichtige Schritt wird jedoch nur von wenigen EntwicklerInnen mit der notwendigen Aufmerksamkeit und Konsequenz verfolgt.

Das Ergebnis der Operationalisierung aus der Perspektive der Befragten muss eine klare Abgrenzung und Kennzeichnung der zu messenden Konzepte und Merkmale sein. Die Operationalisierung erfolgt aus der Perspektive der Befragten. Dies meint nicht, dass die Operationalisierung auf der Ebene des Alltagsverständnisses der Befragten stehen bleibt. Psychologische Konzepte müssen aber aus der Sicht der Befragten (re)formuliert werden. Dabei ist zu klären, in welchen Ereignissen, Verhaltensweisen, persönlichen Zuständen oder auch Kognitionen sich unterschiedliche Ausprägungen des Merkmals niederschlagen. Ausgehend von einer hinreichend klaren Vorstellung über das zu messende Merkmal und die hierfür relevanten psychologischen Konzepte lassen sich die möglichen Manifestationen als Basis für die Formulierung von Items ableiten. Die möglichst klare und valide Operationalisierung der Merkmale muss immer die Frage beantworten, wie sich unterschiedliche Merkmalsausprägungen aus Sicht der Befragten darstellen und wie sie sich aus Sicht der Befragten kennzeichnen lassen. Die Übernahme der Perspektive von Befragten, von KundInnen, MitarbeiterInnen, PatientInnen und StudienteilnehmerInnen ist zentral für die angemessene und zielorientierte Formulierung von Items.

Fragen sollten sich möglichst konkret auf Aspekte beziehen, die für die Befragten sichtbar, spürbar, erlebbar und erfahrbar sind. Wenn sich Fragen auf abstrakte, vorgestellte und generalisierte Gegenstände beziehen, lassen die Ergebnisse der Befragung nur selten konkrete Vorhersagen zu und die Antworten können durch Faktoren wie eine positive Selbstdarstellungstendenz, soziale Erwünschtheit oder Antworttendenzen stark verzerrt werden. Fragen wie „Sind Sie ein zuverlässiger Mensch?“ oder „Sind Sie ein guter Autofahrer?“ erbringen deutlich mehr Ja-Antworten als aufgrund der Anzahl zuverlässiger Menschen oder guter AutofahrerInnen in der Population zu erwarten sind.

Auf der anderen Seite treffen sehr spezifische Fragen nur auf einen Teil der Personen oder nur sehr selten zu. Fragen zu seltenen Ereignissen sind für die Mehrzahl der Befragten nicht relevant und differenzieren daher oft nicht. Beispiele sind: „Ich bin in den letzten Tagen mit Unverschämtheiten am Arbeitsplatz konfrontiert worden“ oder „Ich habe im letzten halben Jahr ein große Geldsumme gewonnen“.

Fragebogen sind sowohl zur Selbst- als auch zur Fremdbeschreibung oder auch zur Selbst- und Fremdbeurteilung einsetzbar. Fragebogen können sich auf unterschiedliche Merkmalsbereiche beziehen und sind nicht auf die Messung von psychischen Merkmalen wie Emotion oder Persönlichkeitsmerkmalen beschränkt. Beispielsweise kann eine Symptomliste auch physiologische Zustände abbilden (Mehrdimensionale körperliche Symptomliste; Erdmann & Janke, 1978), ein Beschreibungsinstrument wie das „Semantische Differential“ Umweltaspekte aus Sicht der NutzerInnen widerspiegeln (Mehrabian & Russell, 1974) und ein Fragebogen wie das („Instrument zur Stressbezogenen Arbeitsanalyse“ (ISTA; Semmer, Zapf & Dunckel, 1999) Arbeitssituationen aus Sicht der Arbeitstätigen oder auch aus Sicht von ExpertInnen charakterisieren.

Wichtig ist, dass ein Item für die Bezugspopulation eindeutig beantwortbar ist. Dies bedeutet nicht, dass Items für jede Bezugsgruppe anders zu formulieren sind, vielmehr sind zu spezifische Formulierungen zu vermeiden, um Vergleichbarkeit zu erhalten. Dieses scheinbare Dilemma wird in Kapitel 5.2.5 unter dem Stichwort „modulare Fragebogen“ diskutiert und gelöst.

Als Leitfaden gilt, für den Merkmalsbereich spezifische Fragen zu finden, die in Häufigkeit und/oder Intensität für alle Befragten relevant sind. Dabei ist zu berücksichtigen, dass bei der Entwicklung von Items für einen Fragebogen nicht allein die Fragen, sondern auch die zugehörigen Antwortkategorien eine entscheidende Rolle spielen.

1.4 Grundbausteine von Fragebogen: Items als Frage-Antwort-Einheiten

Ein Fragebogen besteht aus systematisch zusammengestellten Frage-Antwort-Einheiten. Diese Frage/Feststellung-Antwort-Kombinationen werden mit dem Begriff Fragebogenitem oder kurz Item bezeichnet. Dabei werden mehrere Fragen mit einem identischen Antwortmodus vorgegeben, d. h., der Fragebogen besteht aus mehreren Items mit identischem Antwortformat. Im Abschnitt über die Formulierung von Items wird ausführlich diskutiert, dass das Antwortformat zur Frage/Feststellung passen sollte und unterschiedliche Antwortformate zur selben Frage unterschiedliche Aussagen ergeben können.

Items sind für die Beantwortenden eindeutig und klar zu formulieren. Subjektiv zu interpretierende Elemente, einseitige, suggestive oder für Personengruppen benachteiligende Formulierungen sind ebenso zu vermeiden wie Mehrdeutigkeiten. Im Idealfall entsprechen die Items dem Merkmal in repräsentativer Weise. Mit dem Perspektivenwechsel, dass es viele Antworten gibt und die dazu richtigen Fragen zu finden das eigentliche Problem darstellt, macht Michael Ende in der „Unendlichen Geschichte“ (Ende, 1979) auf das Problem der Passung zwischen Fragen und Antworten aufmerksam. Bei der Fragebogenentwicklung wird der Schwerpunkt in der Regel auf die angemessenen Fragen gelegt, ohne dabei die Antwortoptionen angemessen zu betrachten. Die Antwortoptionen sind aber oft entscheidend für treffsichere Fragen.

Mögliche Unterschiede lassen sich an der Frage „Haben Sie Kopfweh?“ verdeutlichen (Box 1).

Box 1: Unterschiedliche Antwortmodi zur selben Aussage


Die unterschiedlichen Antwortmodi beleuchten unterschiedliche Facetten des Kopfschmerzproblems. Die erste Antwort lässt eine eher undifferenzierte Aussage zu und trifft wahrscheinlich eher aktuelle Kopfschmerzen, z. B. bei einer Befragung zu kritischem Raumklima oder beim „Sick-Building-Syndrom“. Der zweite Antwortmodus beantwortet die Intensitätsfrage, während die dritte Möglichkeit eher bei chronischen Kopfschmerzproblemen zu hohen Werten führt.

Bei den Antwortmöglichkeiten kann es sich im Falle von gebundenen Antwortformaten auch um qualitative Kategorien handeln (z. B. ja/nein), um geordnete Kategorien („gar nicht“, „wenig“, „etwas“, „viel“, „sehr viel“; vgl. Kallus & Krauth, 1995; Krauth, 1995), um eine metrische Skalierung oder auch um eine kontinuierliche Skala. Das Problem der Skala/Skalierung wird in Kapitel 3.4 ausführlich diskutiert.

Anmerkung: Interessanterweise ist die Mehrzahl der Items in „Fragebogen“ eher als Aussage mit Selbst-/Fremdbeschreibung und mit entsprechenden Antwortoptionen, aber nicht als explizite Frage formuliert.

1.5 Messinformation von Fragebogen: Items, Subtest und Bereichssubtest

Ziel eines psychometrischen Fragebogens ist es, unterschiedliche Merkmalsausprägungen von Eigenschaften, Einstellungen und Meinungen, Bewertungen, Verhaltenstendenzen, Zuständen oder längerfristigen Reaktions- oder Stimmungslagen bei Personen oder Personengruppen repräsentativ zu erfassen und zahlenmäßig wiederzugeben. Dabei kann es sich um Unterschiede im Zeitverlauf (Veränderungen) handeln oder um Unterschiede zwischen Personen oder Personengruppen.

Zu diesem Zweck werden bei einem Fragebogen die Werte für zusammengehörige Items zu einem Messwert, dem Subtestwert, verrechnet. Diese Zusammenfassung von Items zu einem sog. Subtest bildet die Grundlage, um die Güte der Fragen mit den Verfahren der Klassischen Testtheorie (Lord & Novick, 1968) zu analysieren. In der Regel umfasst ein Fragebogen mehrere Subtests, um einen Merkmalsbereich in seinen unterschiedlichen Facetten abzubilden. Jeder Subtest entspricht einer Facette des Merkmals. Das Konzept der Subtests stellt den Unterschied des „Bogens mit Fragen“ zum psychometrischen Fragebogen her.

Den Antworten werden bei jedem Item für die Auswertung Zahlen zugeordnet. Rein technisch werden bei zahlenmäßig vorgegebenen Antworten die Zahlenvorgaben der Antworten gewählt. Diese Konvention ist jedoch messtheoretisch nicht zwingend, da bei einer Intervallskala und natürlich auch bei einer Rangskala die Zahlenzuordnung weit beliebiger ist (vgl. Kap. 3.4). Bei der Auswertung und der Bestimmung der Güte eines Fragebogens geht der Untersuchende explizit oder implizit von den Grundannahmen („Axiomen“) der Klassischen Testtheorie aus. Die Axiome der Klassischen Testtheorie sind in Abbildung 1 dargestellt. Diese sind/lauten:

– Messwert x: Dieser wird additiv in den wahren Wert t und den Messfehler e zerlegt (x = t+e).

 

– Messfehler und wahrer Wert sind unabhängig.

– Messfehler zweier Items sind unabhängig.


Abbildung 1: Axiome der Klassischen Testtheorie (Kallus, 2016)

Die Axiome der Klassischen Testtheorie in Abbildung 1 fassen die Annahmen für zwei Items grafisch in Anlehnung an Steyr und Eid (2001) zusammen. Der aus der Antwort bestimmte Messwert eines Items zerfällt in Fehler und wahren Wert. Ein Subtest besteht aus zwei oder mehr Items, die jeweils eine wichtige Facette des zu messenden Merkmals (z.B. Prüfungsangst) beitragen. Abbildung 1 verdeutlicht, dass weder die Messfehler (z.B. durch unklare Itemformulierungen) mit dem wahren Wert zu tun haben noch untereinander abhängig sein dürfen (z.B. durch komplexe Syntax oder doppelte Verneinungen in beiden Fragen).

In manchen Messmodellen wird ein Teil der Antworten bei einem Item zusätzlich einem spezifischen Anteil zugeschrieben, der zwar zuverlässig erfasst wird, aber nichts Gemeinsames mit allen anderen Items des Subtests hat. Diese spezifische Arbeit wird jedoch in den meisten Auswertungsmodellen nicht berücksichtigt (vgl. Steyr & Eid, 2001; Eid & Schmidt, 2014).

Eine grafische Darstellung für den Subtest „Allgemeine Beanspruchung“ des Erholungs-Belastungs-Fragebogens (EBF; Kallus, 1995, 2016) zeigt Abbildung 2. Dieser Fragebogen bildet den gegenwärtigen Beanspruchungs-/Erholungszustand einer Person ab. Die Subtests des EBF in der Form mit 48 Items bestehen aus je vier Items. Jedes Item wird zerlegt in Messfehler und den wahren Wert, wobei spezifische Varianzanteile dem Fehler zugerechnet sind. Die Zahlen an den Pfeilen in Abbildung 2 verdeutlichen die Gewichte, mit denen die Items zum Subtest „Allgemeine Beanspruchung“ beitragen. Bei der Prüfung dieses Modells durch die statistische Prozedur der „linearen Strukturgleichungsmodelle“ ergab sich ein gutes Ergebnis. Zusammenfassend kann festgehalten werden, dass ein Subtestwert durch die additiv zusammengefassten Werte von mindestens zwei Items gebildet wird.


Abbildung 2: Messmodell für „Allgemeine Beanspruchung“ (Kallus, 2016, S. 66)

Ein Fragebogen wie der EBF umfasst in der Regel mehrere solcher Subtests. Für den EBF wird „Beanspruchung“ theoriegeleitet in Anlehnung an die Klassifikationen von Stress nach Janke (1976) in insgesamt sieben Facetten (Subtests) abgebildet. Die Gesamtheit der Subtests soll den zu messenden Merkmalsbereich über Feststellungen oder Fragen in einem Profil oder Gesamtwert angemessen zahlenmäßig repräsentieren. „Erholung“ umfasst insgesamt fünf Subtests. Alle zwölf Subtests werden in der Regel gemeinsam betrachtet und in einem grafischen Subtestprofil zusammengefasst. Ein Profil lässt sich darstellen, indem die Subtestwerte einer Person oder einer Gruppe in ein Profilschema eingetragen und diese Werte verbunden werden. Details zur Darstellung und Interpretation von Fragebogenprofilen werden in Kapitel 5.4 besprochen. Wenn aus Gründen der Vereinfachung auf die Detailinformation aus den Subtests verzichtet werden soll, ist es möglich, Facetten des Merkmals zusammenzufassen und übergeordnete Werte zu bilden. Die in einen Bereich gehörenden Subtests werden dann zu Bereichssubtests zusammengefasst. Auf diese Weise kann aus dem Erholungs-Belastungs-Fragebogen ein sinnvoller Gesamtwert für sozial-emotionale Beanspruchung gebildet werden. Die Struktur dieses Subtests zeigt Abbildung 3. Für die übergeordneten Werte soll im Folgenden der Begriff des Bereichssubtests verwendet werden. (Anmerkung: Bei älteren Fragebogenverfahren wurde in Anlehnung an den angloamerikanischen Sprachgebrauch der Begriff „Skala“ auch alternativ zum Subtestbegriff benutzt. Der Begriff Skala wird in dieser Arbeit nur zur Bezeichnung der Antwortformate verwendet, z. B. „Intensitätsskala“. Diese Festlegung ist mit der Begriffswelt der linearen Skalierung kompatibel, da bereits auf Itemebene eine erste zahlenmäßige Repräsentation von Merkmalsunterschieden stattfindet.)

Tabelle 1: Subtests des Erholungs-Belastungs-Fragebogens (EBF-Basic)


Subtest (Itemzahl) Bezeichnung (Abkürzung)
1 (k=4) Allgemeine Beanspruchung – Niedergeschlagenheit (BEA-ALLG)
2 (k=4) Emotionale Beanspruchung (BEA-EMO)
3 (k=4) Soziale Spannungen (BEA-SOZ)
4 (k=4) Ungelöste Konflikte – Erfolglosigkeit (KONFL)
5 (k=4) Übermüdung – Zeitdruck (ÜMÜDG)
6 (k=4) Energielosigkeit – Unkonzentriertheit (ENLOS)
7 (k=4) Körperliche Beschwerden (BEA-SOM)
8 (k=4) Erfolg – Leistungsfähigkeit (ERFOLG)
9 (k=4) Erholung im sozialen Bereich (ERH-SOZ)
10 (k=4) Körperliche Erholung (ERH-SOM)
11 (k=4) Allgemeine Erholung – Wohlbefinden (ERH-ALLG)
12 (k=4) Erholsamer Schlaf (SCHLAF)

Statistisch wird die Frage, ob Items zu einem Bereich gehören und ob es sinnvoll ist, Subtests zu einem Bereich zusammenzufassen, auf Basis von Kovarianzen bzw. Korrelationen entschieden. Korrelationen bilden die linearen Zusammenhänge zwischen den Items (oder Subtests) ab. Eine Vielzahl von paarweisen Korrelationen (d. h. die Korrelationsmatrix) kann schnell sehr unübersichtlich werden. Als einfache Methode zur Strukturierung von Korrelationsmatrizen hat sich die sog. Faktorenanalyse etabliert. Die Faktorenanalyse sucht nach voneinander relativ unabhängigen Gruppierungsvariablen, zu denen sich die zum Faktor gehörenden Variablen zusammenfassen lassen. So bilden beispielsweise Erholung und Beanspruchung in Faktorenanalysen bei unterschiedlichen Stichproben immer wieder zwei (relativ unabhängige) Faktoren.

Aus diesem Grund ist eine weitere Zusammenfassung zu einem Gesamtwert nicht sinnvoll, sondern der aktuelle Zustand der Person lässt sich nur über eine Kombination aus beiden Werten charakterisieren. Beanspruchung „zerfällt“ in der Regel noch in je einen Faktor für „sozial-emotionale Beanspruchung“ und „leistungsbezogene Beanspruchung“.

Exkurs

Die Merkmalsstruktur stellt ein lineares Strukturgleichungsmodell anschaulich und präzise dar (Abbildung 3). Dabei wird oft zwischen Messmodell (in Abbildung 2 für „Allgemeine Beanspruchung“) und dem Strukturmodell für den Merkmalsbereich unterschieden. Strukturgleichungsmodelle zeigen Hinweise auf Verletzungen der Annahme der Klassischen Testtheorie in Form von Messfehlerkorrelationen (siehe dazu auch Wagner, Jiménez, Kallus & Kellmann, 2016).


Abbildung 3: Messmodell für „sozial-emotionale Beanspruchung“ (Kallus, 2016, S. 68)

Wie am Beispiel des EBF aufgezeigt wurde, lassen sich hoch korrelierende Subtests in vielen Fällen zu Bereichssubtests für den Merkmalsbereich oder für latente Variablen eines psychologischen Konzepts zusammenfassen. In älteren Arbeiten wurde statt des Begriffs der latenten Variablen auch der Begriff der (latenten) Dimension verwendet, um ein psychologisches Konzept wie z. B. Stress theoretisch zu beschreiben. Wenn alle Subtests hoch korrelieren, ergibt sich bei der Faktorenanalyse ein „Generalfaktor“ (der den Großteil der Varianz auf sich „vereint“). In diesem Fall ist ein einziger Gesamtwert sinnvoll. Ein solcher Gesamtwert ergibt sich z. B. für den Teamqualitätsfragebogen (Kallus & Brandt, 2006), da hier alle Subtests hoch korrelieren.

Die Güte von Subtests, von Bereichssubtests und von einem Gesamtwert lassen sich mit den Methoden der Klassischen Testtheorie überprüfen, wobei in der Analyse in der Regel die Items auch für die Gesamtwerte und die Bereichssubtests als Dateneinheiten verwendet werden. Der Einsatz der Faktorenanalyse und linearer Strukturgleichungsmodelle in der Fragebogenkonstruktion wird in Kapitel 6.4 aufgegriffen. Die Statistik der Fragebogenentwicklung steht jedoch hinter der Entwicklung eines inhaltlich und theoretisch fundierten Systems von angemessenen Fragen zurück.

2 Ansätze zur Präzisierung und Operationalisierung des zu erfassenden Merkmalsbereiches

Bei einem psychometrischen Test werden die Items in mehreren Schritten systematisch entwickelt und zusammengestellt. Ergebnis ist ein Fragebogen mit Subtests, der quantitative Aussagen in zuverlässiger Form erlaubt. Eine einfache, oft unsystematische Zusammenstellung von Fragen zu einem Thema gehört im Vergleich dazu eher in den Bereich der qualitativen Forschung. Bei der qualitativen Interpretation von Antworten zu einem Item ist hohe Vorsicht geboten. Hierbei werden messtheoretische Probleme in vielen Fällen sträflich missachtet. Fehlinterpretationen werden oft nicht erkannt und können bis zur politischen Ebene zu Fehleinschätzungen und Fehlentscheidungen führen. In Kapitel 3.4 wird das Skalierungsproblem ausführlich besprochen.

Auf Basis einer klaren Definition und Operationalisierung des zu messenden Konzepts oder Merkmals lassen sich die Frage-Antwort-Komplexe (Items) in angemessener Weise so formulieren, dass die angezielten zuverlässigen Subtestwerte als Resultat der Fragebogenentwicklung tatsächlich sinnvolle Messwerte erbringen. In vielen Fällen sind vorab entsprechende theoretische Vorarbeiten und empirisch orientierte Entwicklungsschritte vorzunehmen.

Im Folgenden wird ein Spektrum von Ansätzen zur Operationalisierung des Merkmalsbereiches zusammenfassend vorgestellt. Dabei werden die Methoden nach steigender Komplexität geordnet. In allen Fällen sind die zu erfassenden Merkmale mindestens mit einer „Arbeitsdefinition“ hinreichend klar zu umreißen. Arbeitsdefinitionen sollten mit den wichtigsten Normen und etablierten wissenschaftlichen Festlegungen kompatibel sein oder mindestens dort eingeordnet werden können. In diesem Sinne ist es z. B. wenig sinnvoll, Belastung und Beanspruchung abweichend von der ISO 10075 zu definieren. Schwierig scheint die Definition und Einordnung vor allem bei inflationär verwendeten Begriffen wie Stress, Burnout oder Resilienz. Im Hinblick auf eine sinnvolle Testentwicklung sollte sich die Definition an etablierten theoretischen Konzepten orientieren. Unter Umständen kann an dieser Stelle die Neuentwicklung eines Verfahrens enden, da bereits hinreichend gute Messinstrumente von den verschiedenen wissenschaftlichen Arbeitsgruppen entwickelt wurden. Die vorhandenen Tests können nach Rücksprache mit den InhaberInnen des Urheberrechts für die eigene Entwicklung/Befragung ganz oder teilweise übernommen/ übersetzt oder adaptiert werden.

In diesem Kapitel werden die folgenden möglichen Ansätze zur Testentwicklung behandelt:

 

1. Adaptierung – Übersetzung – Neukomposition vorhandener Messinstrumente

2. Konzeptgeleitete Zusammenstellung von Subtests und Items

3. Interviews zur Präzisierung des Merkmalsbereiches

4. Workshop-Methoden

5. Empirisch basierte Konzeptdefinition