feedback tool for rescue force development examinations (FIRE-P)

Abstract: 

The feedback tool for rescue force development examinations (FIRE-P) records the perceived quality of written examinations in rescue force training. The participants of rescue training measures are interviewed. The instrument is based on scales in an academic context, a qualitative analysis of characteristics of good examinations in the field of rescue (N = 6 examiners as well as N = 55 course participants at the Institut der Feuerwehr NRW) and item pre-tests with participants in fire brigade leadership training (N = 22). The final Itempool of the FIRE-P was tested and validated in exam evaluations (total = 729) in the executive training of the fire brigade of North Rhine-Westphalia. Explorative and confirmatory factor analyses show a three-factor structure with the scales: preparation, design and load. The internal consistency of the scales is acceptable to good, as are indications of content and construct validity.

  • Language Documentation: deutsch
  • Language Items: German
  • Number of Items: 24
  • Reliability: Cronbachs Alpha = .76 bis .86
  • Validity: Hinweise auf Inhaltsvalidität, Kriterien- und Konstruktvalidität
  • Construct: Feedback zu Rettungskräfteprüfungen (Vorbereitung, Gestaltung, Belastung)
  • Catchwords: Feuerwehr, Prüfung, Evaluation | fire brigade, examination, evaluation
  • Item(s) used in Representative Survey: nein
  • Status of Development: validiert

Instrument

Instruktion

Liebe/r Lehrgangsteilnehmer/in,

wir danken Ihnen, dass Sie an der Befragung teilnehmen! Im nachfolgenden Teil wird es darum gehen, wie Sie die schriftliche Prüfung bewerten. Sie helfen uns damit, die Qualität der Prüfungen in der Rettungskräfteausbildung zu beurteilen und gegebenenfalls zu verbessern. Wir werden Ihnen nachfolgend zuerst einige Aussagen präsentieren. Bitte teilen Sie uns für jede Aussage mit, wie sehr Sie dieser zustimmen. Kreuzen Sie für jede Aussage das Feld an, das den Grad Ihrer Zustimmung am besten wiedergibt.

Anschließend präsentieren wir Ihnen auch einige Fragen, die Sie gerne stichpunktartig beantworten können. Generell gilt dabei: Es gibt bei dieser Befragung keine richtigen oder falschen Antworten. Vielmehr interessieren wir uns für Ihre ganz persönliche Meinung.

Ihre Teilnahme an der Befragung ist freiwillig. Zudem erfolgt die Befragung selbstverständlich anonym. Die Ergebnisse werden nur in gesammelter Form, das heißt beispielsweise in Form von Mittelwerten aller befragten Lehrgänge, an die Schulungseinrichtung zurückgemeldet. Ein Rückschluss auf Ihre Person ist damit ausgeschlossen.

Items

Tabelle 1

Items der Skala FIRE-P                                                          

Nr. Item Subskala
1 Ich wurde im Lehrgang sehr gut auf die Prüfung vorbereitet. Vorbereitung
2 Vorbereitungsmaterial (Probeklausur, Beispielaufgaben, o. ä.) wurde vor der Prüfung in ausreichender Menge zur Verfügung gestellt. Vorbereitung
3 Die Anforderungen waren vor der Prüfung transparent. Vorbereitung
4 Ich finde, die Aufgaben waren präzise und eindeutig formuliert. Gestaltung
5 Ich finde, die Arbeitsanweisungen zur Beantwortung der Aufgaben waren eindeutig. Gestaltung
6 Mit dem Antwortformat dieser Prüfung bin ich gut zurechtgekommen. Gestaltung
7 Ich finde, die Prüfung war übersichtlich gegliedert. Gestaltung
8 In der Prüfung konnte ich das vermittelte Wissen anwenden. Vorbereitung
9 Die Inhalte der Prüfung sind relevant für meine Tätigkeit. Gestaltung
10 Die Prüfung war zu schwierig für mich. Belastung
11 Ich finde, der Umfang des Prüfungsstoffs für diese Prüfung war zu hoch. Belastung
12 Die Anzahl der Prüfungen in diesem Lehrgang stellt eine große Belastung für mich da. Belastung

Tabelle 2

Je nach Evaluationskontext optionale Items

Nr. Item Itemfokus
13 Die Prüfung konnte ohne Störfaktoren (Lärm, Ablenkung) durchgeführt werden. Rahmenbedingungen
14 Die PrüferInnen haben versucht, eine angenehme Atmosphäre zu schaffen. Rahmenbedingungen
15 Prüfungsmaterial wurde in ausreichender Menge gestellt. Rahmenbedingungen
16 Zu wie viel Prozent wurden die Inhalte der Prüfung im Lehrgang vermittelt? Rahmenbedingungen
17 Ich hatte während der Prüfung die Möglichkeit, Fragen zu stellen. Rahmenbedingungen
18 Die Inhalte des Lehrgangs interessieren mich sehr. Bias-Variable
19 Ich brauche diese Prüfung für meinen weiteren beruflichen Werdegang. Bias-Variable
20 Ich wollte diese Prüfung nur bestehen, egal mit welcher Leistung. Bias-Variable
21 Ich bin zufrieden damit, wie ich die Aufgabe(n) gelöst habe. Bias-Variable
22 Eine Nachbesprechung der Prüfung finde ich wichtig. Feedback
23 Hier ist Platz für weitere Anmerkungen. Was hat Ihnen an der schriftlichen Prüfung, unabhängig von Ihrer eigenen Leistung, gut gefallen? Was kann aus Ihrer Sicht noch verbessert werden? Feedback
24 Insgesamt würde ich die schriftliche Prüfung, unabhängig von meiner eigenen Leistung, mit folgender Schulnote bewerten. Globalurteil

 Antwortvorgaben
Items 1-15, 18-22:

Siebenstufiges Antwortformat mit den Optionen 1 = stimme gar nicht zu, 2 = stimme nicht zu, 3 = stimme eher nicht zu, 4 = neutral, 5 = stimme eher zu, 6 = stimme zu, 7 = stimme vollkommen zu. Ein zusätzliches Feld bietet die Möglichkeit anzugeben, dass das jeweilige Item nicht sinnvoll beantwortbar sei.

Items 16, 23:

Offenes Antwortformat

Item 17:

Dichotomes Antwortformat mit den Optionen ja/nein.

Item 24:

Sechsstufiges Antwortformat mit den Optionen 1 = sehr gut, 2 = gut, 3 = befriedigend, 4 = ausreichend, 5 = mangelhaft und 6 = ungenügend.

Auswertungshinweise

Zur Bildung der Skalen-Mittelwerte werden die Antwortwerte der Items der Skala Vorbereitung (Items Nr. 1, 2, 3 und 8) addiert und durch die Anzahl der bearbeiteten Skalen-Items geteilt. Analog gehen in die Bildung der Skala Gestaltung die Items Nr. 4, 5, 6, 7 und 9 ein bzw. die Items 10, 11 und 12 in die Bildung der Skala Belastung. Wird ein Item mit nicht sinnvoll beantwortbar beantwortet, so ist dies als fehlender Wert zu kodieren. Für eine Online-Befragung empfehlen wir die Items 1-12 als Pflichtfragen vorzugeben. Für eine Papierbefragung empfehlen wir Personen, die drei Items oder mehr komplett auslassen, aus der Auswertung herauszunehmen. Eine hohe Anzahl von fehlenden Werten bei vielen Personen kann in einer mangelnden Passung des Fragebogens in dem jeweiligen Evaluationskontext begründet sein. Bei der Interpretation der Skalen gilt zu beachten, dass bei Vorbereitung und Gestaltung hohe Werte erstrebenswert sind. Bei der Skala Belastung werden niedrige bis maximal mittlere Werte als erstrebenswert erachtet.

Hinsichtlich der Interpretation der Einzelitems (Items Nr. 13-24) schlagen wir vor, diese lediglich als allgemeine Rückmeldung im Sinne einer Checkliste zu nutzen, beziehungsweise offene Anmerkungen (Item Nr. 16 und 23) erst bei einer hohen Zahl von vergleichbaren Nennungen als handlungsleitend heranzuziehen. Während die Items 1 bis 12 vollständig vorgegeben werden sollten, sind die Fragen 13 bis 24 optional und können je nach Bedarf eingesetzt oder ausgelassen werden. Diese weiteren Items zu Rahmenbedingungen resultieren aus der unter dargestellten Studie I, mögliche urteilsverzerrende Variablen (Bias-Variablen, vgl. Spooren, Brockx, & Mortelmans, 2013; Wachtel, 1998) wurden aus der allgemeinen Evaluationsliteratur abgeleitet und in Abstimmung mit Experten des Instituts der Feuerwehr Nordrhein-Westfalen (IdF NRW) in den Fragebogen aufgenommen. In gleicher Weise wurden allgemeine Feedbackaspekte aufgenommen (vgl. Bechler & Thielsch, 2012). Eine spezifische Validierung dieser zusätzlichen Items erfolgte nicht.

Anwendungsbereich

Der FIRE-P wurde zur Bewertung der schriftlichen Prüfungen im Rahmen einer Reihe von verschiedenen Ausbildungen und Lehrgängen am IdF NRW entwickelt. Die Prüfungsbeurteilung erfolgt durch die LehrgangsteilnehmerInnen direkt nach Absolvieren der Prüfung. Grundsätzlich ist der FIRE-P zur Evaluation von schriftlichen Prüfungen im Bereich der Rettungskräfteausbildung geeignet. Eine Verwendung in anderen Ausbildungsbereichen verlangt eine vorherige empirische Überprüfung der Anwendbarkeit der Skalen.

Theory

Die Tätigkeit der Einsatzkräfte im Rettungswesen zeichnet sich durch extreme Bedingungen und hohe Anforderungen aus (siehe bspw. Hagemann, 2011; Smith & Dyal, 2016; Young & Cooper, 1995). Dies gilt insbesondere für die EinsatzleiterInnen und Führungskräfte verschiedener Einheiten, da sie die Verantwortung für das Handeln am Einsatzort und damit für den Erfolg des Einsatzes tragen (Feuerwehr-Dienstvorschrift 100, 1999). Diese hohen Anforderungen machen eine gute und kontinuierliche Aus- und Weiterbildung von Rettungskräften unerlässlich (Schulte & Thielsch, in press). Inwiefern die notwendigen Kompetenzen in der Ausbildung erworben wurden, wird durch die Abschlussprüfungen kontrolliert – damit ergibt sich auch an diese ein hoher Qualitätsanspruch, um eine Selektion der richtigen Personen gewährleisten zu können. Trotz des hohen Stellenwertes der Ausbildungen im Rettungswesen, insbesondere für die öffentliche Sicherheit, wurde die Qualität dieser Abschlussprüfungen bislang, nach unserem derzeitigen Wissensstand, nicht systematisch untersucht.
Ergebnisse und Instrumente zur Prüfungsevaluation finden sich lediglich im universitären Kontext. Als derzeit einziges systematisch entwickeltes Verfahren zur Bewertung von Prüfungen lässt sich der MFE-K (Münsteraner Fragebogen zur Evaluation von Klausuren) von Froncek, Hirschfeld und Thielsch (2014) anführen, der zur studentischen Evaluation schriftlicher Prüfungen im Hochschulkontext eingesetzt wird. Der MFE-K besteht aus 15 Items auf den drei Skalen Belastung der StudierendenTransparenz und Klausurgestaltung (siehe auch Froncek & Thielsch, 2014), Hinsichtlich der psychometrischen Güte zeigt dieses Instrument eine ausreichende bis gute interne Konsistenz sowie faktorielle, diskriminative und inhaltliche Validität. Daher diente, neben unseren eigenen Analysen und Vorbefragungen (siehe unten, Studie I und II), vor allem der MFE-K als Grundlage für die Itementwicklung des FIRE-P.

Scale development

Itemkonstruktion und Itemselektion

Das IdF NRW hat im Jahr 2016/17 die Prüfungskonzepte der Gruppen- und Zugführerlehrgänge überarbeitet. Zur Qualitätssicherung wurden die Prüfungen der bestehenden und der neuen Lehrgänge in Kooperation mit der Organisations- und Wirtschaftspsychologie der Westfälischen Wilhelms-Universität Münster durch eine Evaluation begleitet. Gruppen- und ZugführerInnen der Feuerwehr sind Leiter der taktischen Einheiten Gruppe und Zug. Die Gruppe ist die taktische Grundeinheit bei Einsätzen der Feuerwehr, sie besteht aus neun Einsatzkräften inklusive Gruppenführer und den dazugehörigen Einsatzmitteln (Feuerwehr-Dienstvorschrift 3, 2008). Die Gruppe übernimmt im Regelfall die ersten Maßnahmen an der Einsatzstelle (Feuerwehr-Dienstvorschrift 3, 2008). Dabei trägt der Gruppenführer die Verantwortung für die Leitung der Einheit und übernimmt bei „alltäglichen Einsätzen zur Gefahrenabwehr“ oder bis zur Übernahme der Einsatzleitung durch die nächst höhere Führungskraft auch die Rolle des Einsatzleiters (Feuerwehr-Dienstvorschrift 100, 1999). Der Zug bildet mit einer Mannschaftsstärke von bis zu 22 Personen die nächstgrößere taktische Einheit der Feuerwehr. Ein Zug setzt sich aus dem Zugführer, einer ihm angehörenden Führungseinheit von drei Personen und aus Gruppen, Staffeln und bzw. oder selbstständigen Trupps zusammen. Dem Zugführer obliegt die Verantwortung für die Sicherheit und Führung seiner Einheit, dem Zug. Wird dieser als selbstständige Einheit eingesetzt, ist der Zugführer gleichzeitig Einsatzleiter (Feuerwehr-Dienstvorschrift 3, 2008).

Bei einer umfassenden Recherche wurde kein Instrument zur Prüfungsevaluation im Kontext Rettungswesen gefunden, daher wurde die vorliegende Itembatterie neu entwickelt. Das Vorgehen bestand aus vier Studien (siehe auch Busjan, 2016 und Frerichs, 2017), alle Befragten nahmen anonym, freiwillig und ohne Aufwandsentschädigung teil.

In Studie I wurden Kriterien ermittelt, anhand derer sich die Qualität von Prüfungen in der Rettungskräfteausbildung bemessen lässt. Dazu wurden Lehrgangsteilnehmer, Prüfer und Dozenten des IdF NRW befragt, denen durch die Teilnahme an den Prüfungen oder durch die Beteiligung an der Konzeption bzw. Bewertung dieser eine hohe Sachkenntnis zugeschrieben wurde. Die mündliche Befragung fand mit = 11 (6 Lehrgangsteilnehmer sowie 5 Dozenten und Prüfer am IdF NRW), die schriftliche Befragung mit n = 50 Teilnehmern von Gruppen- und Zugführerlehrgängen statt. Alle Befragten (N = 61) waren männlich, das Alter bei den Lehrgangsteilnehmern lag zwischen 23 und 50 Jahren (M = 34.0; SD = 7.8), bei Prüfern und Dozenten zwischen 33 und 56 Jahren (M = 42.2; SD = 8.8). Mittels qualitativer Inhaltsanalyse wurden die acht Kategorien Vorbereitung, Transparenz, Praxisnähe, Gestaltung, Rückmeldung, Belastung, Fairness und Rahmenbedingungen ermittelt.

Auf Basis der in Studie I identifizierten Merkmale sowie durch Hinzunahme von Items bewährter Instrumente (MFE-K; Froncek et al., 2014; Froncek & Thielsch, 2014) wurde eine erste Version der Itembatterie mit 46 Items zur Evaluation der schriftlichen Prüfungen entwickelt.

Im Rahmen der Studie II wurden die TeilnehmerInnen eines Gruppenführerlehrgangs der Feuerwehrausbildung darum gebeten, die Relevanz und Verständlichkeit der konstruierten Items für eine Prüfungsevaluation in den Führungslehrgängen am IdF NRW zu bewerten.

Für diesen Pretest wurde ein zu diesem Zweck entwickelter, standardisierter Fragebogen eingesetzt, der 37 Items für die schriftliche Prüfung in teilweise gekürzter Form enthielt. Die Items basierten auf dem Itempool der Studie I, ausgenommen waren jedoch 9 Items zu Biasvariablen, spezifischen Rahmenbedingungen und Globalurteilen. Auf einer vierstufigen Skala (1 = sehr unwichtig, 2 = unwichtig, 3 = wichtig, 4 = sehr wichtig) sollte durch die TeilnehmerInnen bewertet werden, wie relevant das Item bzw. der genannte Aspekt für die Bewertung der Prüfung ist. Darüber hinaus gab es die Möglichkeit, in einem zusätzlichen Feld die Unverständlichkeit des Items anzugeben.

Die 22 befragten TeilnehmerInnen eines Gruppenführerlehrgangs waren überwiegend männlich (= 20, 90.9 %; weiblich: = 2, 9.1 %), die Altersspanne lag bei 24 bis 52 Jahren (= 32.3; SD = 7.3). Die Befragung fand direkt nach dem Absolvieren der schriftlichen Prüfung in einem der Schulungsräume statt.

Die Ergebnisse zeigten, dass fast alle Items insgesamt eine hohe Wichtigkeit für die Prüfungsevaluation aufwiesen und insgesamt als sehr verständlich bewertet wurden. Im Rahmen dieser Befragung wurde eine Itemreduktion von drei Items vorgenommen, die von den TeilnehmerInnen als eher unwichtig eingeschätzt wurden, sowie weitere Items hinsichtlich ihrer Formulierung verbessert.

In Studie III wurde die vorläufige Fragebogenversion (resultierend aus Studie II) angewendet und hinsichtlich ihrer psychometrischen Eigenschaften untersucht. In die Item- und Faktorenanalysen gingen dabei 27 Items ein. Ausgenommen aus den Analysen waren Items, die die Kenntnis der Prüfungsnote voraussetzten, Rahmenbedingungen oder Biaseffekte erfragten oder nicht über eine siebenstufige Ratingskala verfügten. Es wurden insgesamt 465 schriftliche Prüfungen aus 17 verschiedenen Gruppen- und Zugführerlehrgängen evaluiert. Ausgehend von ca. 476 durchgeführten schriftlichen Prüfungen in den relevanten Lehrgängen entspricht dies einer Rücklaufquote von 97.7 %. Insgesamt 33 Evaluationen konnten aufgrund fehlender Erlaubnis zur Nutzung der Daten oder Nicht-Beantwortung von mehr als 10 % der aussagebasierten geschlossenen Items in der Analyse nicht berücksichtigt werden, sodass final N = 428 gültige Prüfungsevaluationen bei der nachfolgenden Auswertung vorlagen. Aus Studie III resultierte eine Fragebogenversion mit 15 Items auf drei Skalen.

In Studie IV wurden mithilfe der vorläufigen Fragebogenversion aus Studie III insgesamt 16 Lehrgänge evaluiert, die zu neun verschiedenen Kursen der nicht technischen Ausbildung von Führungskräften am IdF NRW gehören. Es wurden insgesamt 350 schriftliche Prüfungen evaluiert, die Rücklaufquote lag damit bei 91.2 %. Neben dem Evaluationsbogen für schriftliche Prüfungen wurden den TeilnehmerInnen auch verschiedene Persönlichkeitsfragebögen vorgelegt, die zur Sicherung der konkurrenten und diskriminanten Validität dienten. Für eine ausführliche Herleitung der einzelnen Konstrukte siehe Frerichs (2017). Aus Studie IV resultierte die finale Fragebogenversion mit 12 Items auf drei Skalen.

Stichproben

In die Item- und explorative Faktorenanalyse gehen N = 428 gültige Prüfungsevaluationen aus Studie III ein. Einige TeilnehmerInnen (n = 81) evaluierten allerdings mehr als eine schriftliche Prüfung – bei der Berechnung der demographischen Daten wurde jeder Befragte unabhängig von der Anzahl seiner Evaluationen nur einmal berücksichtigt. Die Altersspanne der TeilnehmerInnen liegt bei 21 bis 55 Jahren (= 32.88; SD = 6.66). 93.9 % der Befragten waren männlich, 5.2 % weiblich und weitere 0.9 % machten diesbezüglich keine Angabe (der sehr große Anteil männlicher Ausbildungsteilnehmer ist dabei typisch im Bereich der Feuerwehr). 69.7 % waren TeilnehmerInnen eines Gruppenführer-, 30.3 % TeilnehmerInnen eines Zugführerlehrgangs.

Für die Berechnung der konfirmatorischen Faktorenanalyse in Studie IV ergab sich nach Berücksichtigung des freiwilligen Selbstausschlusses und Ausschluss unvollständiger Datensätze eine finale Stichprobe von 301 Befragten mit 8 weiblichen Teilnehmern (2.7 %). Die Altersspanne reichte von 21 bis 61 Jahren (M = 36.97; SD = 7.7). Die befragten Personen nahmen an verschiedenen Lehrgängen im Bereich der Führungskräfteausbildung im Rettungswesen (z. B. Gruppen-, Zug- und Verbandsführer, Lehrgänge im Bereich ABC-Einsatz, Leitungsfunktionen und Stabsarbeit) teil. Für die Berechnung der Konstruktvalidität mussten 33 Datensätze aufgrund von Unvollständigkeit ausgeschlossen werden (Datenbasis bei diesen Auswertungen: N = 268).

Itemanalysen und Itemkennwerte

In die Item- und Faktorenanalysen gingen wie oben beschrieben (siehe Studie III) 27 Items ein. Für eine schrittweise Reduktion der Items wurde das folgende Vorgehen gewählt: Im ersten Schritt wurden die Items mit geschlossenem Antwortformat eliminiert, die von mehr als 5 % der Befragten nicht beantwortet oder als nicht sinnvoll beantwortbar benannt wurden. Dies traf auf ein Item zu. Für den verbleibenden Itempool wurden relevante Verteilungsparameter, wie Mittelwert, Standardabweichung, Schiefe und Exzess, berechnet sowie Histogramme erstellt, um Aufschluss über das Antwortverhalten zu erlangen. Schiefe und Exzess lagen bei allen Items innerhalb der von West, Finch und Curran (1995) beschriebenen Grenzen von Schiefe > |2| und einen Exzess > |7|. Im Weiteren erfolgte eine Berechnung der Iteminterkorrelationen, um Aufschluss über starke inhaltliche Nähe der Items zu erhalten. Fiel die Korrelation zwischen zwei Items .85 oder höher aus, sollte lediglich eins davon in der Itembatterie verbleiben, dies war jedoch nicht der Fall. Abschließend wurden drei Items identifiziert, die eine sehr hohe Zustimmungsrate und somit eine geringe Itemschwierigkeit aufweisen. Die betroffenen Items wurden mit zwei Experten des IdF NRW diskutiert und infolgedessen wurden zwei Items in der finalen Fragebogenversion nicht berücksichtigt. Aus Basis der Itemkennwerte wurden somit insgesamt drei Items ausgeschlossen.

In der EFA (Hauptachsenanalysen mit Promax-Rotation) der Studie III wurden insgesamt 24 Items berücksichtigt, darunter zwölf Items, die auf Basis der folgenden Analysen ausgeschlossen und damit nicht Teil dieser Dokumentation sind (für Mittelwerte, Standardabweichungen, Trennschärfen und Faktorladungen siehe Tabelle 3, für detailliertere Informationen siehe Busjan, 2016 und Frerichs, 2017). Um die Faktoranzahl zu bestimmen, wurden verschiedene Extraktionskriterien (Kaiser-Guttman-Kriterium, Scree-Test, MAP-Test) herangezogen, die übereinstimmend eine Vier-Faktoren-Lösung vorgaben.

Der erste Faktor (Eigenwert = 9.35) klärt 38.95 %, der zweite Faktor (Eigenwert = 2.15) 8.96 %, der dritte Faktor (Eigenwert = 1.54) 6.42 % und der vierte Faktor (Eigenwert = 1.49) 6.19 % Varianz auf. Mit Ausnahme eines Items wiesen alle Items von Faktor vier Doppelladungen < .3 auf und wurden daraufhin gestützt durch inhaltliche Überlegungen entfernt oder anderen Faktoren zugeordnet. Aufgrund dieser Vorgehensweise verblieb nur ein Item und somit konnte der vierte Faktor bei der Skalenbildung nicht berücksichtigt werden.

Neben den drei Items aus Faktor 4 wiesen vier weitere Items Doppelladungen < .3 auf, weshalb davon drei Items aus der Itembatterie entfernt wurden. Weitere drei Items wurden bedingt durch die Betrachtung statistischer und inhaltlicher Gesichtspunkte ebenfalls nicht berücksichtigt. Aus Studie III resultierte damit eine Fragebogenversion mit 15 Items auf drei Skalen.

In Studie IV zeigen die Ergebnisse der konfirmatorischen Faktorenanalyse einen akzeptablen bis guten Fit des dreifaktoriellen Modells über verschiedene Fit-Indizes hinweg. Dies bestätigt die in Studie III gefundene Drei-Faktor-Struktur des Evaluationsbogens. Drei Items wurden allerdings aufgrund geringer Ladung (λ ≤ 0.50) und hoher Fehlervarianz ε > 0.70) ausgeschlossen, die finale Version des FIRE-P besteht damit aus 12 Items (für Mittelwerte, Standardabweichungen und Faktorladungen siehe Tabelle 4). Inhaltlich bildet Faktor 1 die Vorbereitung der Prüfung ab, Items von Faktor 2 beziehen sich auf die Gestaltung der Prüfung und Faktor 3 beschreibt die Belastung der Teilnehmer durch die Prüfung.

Tabelle 3

Mittelwerte, Standardabweichungen, Trennschärfen und Faktorladungen der final ausgewählten FIRE-P-Items in Studie III

  M SD Trennschärfe Faktorladung
Vorbereitung        
Item 1 4.97 1.45 0.77 0.81
Item 2 3.96 1.82 0.60 0.77
Item 3 4.50 1.52 0.70 0.79
Item 8 5.17 1.30 0.70 0.51
Gestaltung        
Item 4 3.66 1.78 0.67 0.68
Item 5 5.01 1.54 0.58 0.64
Item 6 4.36 1.70 0.76 0.81
Item 7 5.55 1.16 0.56 0.61
Item 9 5.21 1.28 0.49 0.47
Belastung        
Item 10 4.46 1.44 0.59 0.72
Item 11 4.40 1.45 0.66 0.78
Item 12 4.76 1.57 0.61 0.67

Anmerkung. Skala von 1 (stimme gar nicht zu) bis 7 (stimme voll zu), = 428.

Tabelle 4

Mittelwerte, Standardabweichungen und Faktorladungen der FIRE-P-Items in Studie IV

  M SD Faktorladung
Vorbereitung      
Item 1 5.82 1.24 0.79
Item 2 4.75 1.73 0.62
Item 3 5.46 1.36 0.77
Item 8 5.86 1.09 0.80
Gestaltung      
Item 4 5.00 1.56 0.78
Item 5 5.46 1.38 0.79
Item 6 5.19 1.38 0.75
Item 7 5.76 1.16 0.80
Item 9 5.60 1.37 0.64
Belastung      
Item 10 2.95 1.48 0.76
Item 11 1.05 1.50 0.74
Item 12 2.71 1.57 0.66

Anmerkung. Skala von 1 (stimme gar nicht zu) bis 7 (stimme voll zu), = 301.

Tabelle 5

Korrelationen zwischen den Skalen der schriftlichen Prüfungen

  Vorbereitung Gestaltung Belastung
Vorbereitung   0.62** 0.48**
Gestaltung 0.86**   0.47**
Belastung 0.56** 0.62**  

Anmerkungen. ** p < .01 (zweiseitig). Items der Skala Belastung wurden rekodiert, sodass ein höherer Wert eine niedrigere Belastung widerspiegelt. Werte oberhalb der Diagonale beruhen auf der Daten der Studie III (N = 428), Werte unterhalb der Diagonale beruhen auf Daten der Studie IV (N = 301).

Quality criteria

Objektivität

Gezielte Prüfungen der Objektivität fanden neben den in Studie II skizzierten Prüfungen der Verständlichkeit der Items nicht statt. Objektivität ist eine Voraussetzung für die Reliabilität und die Reliabilität wiederum eine Voraussetzung für die Validität. Im Umkehrschluss heißt dies auch, dass gefundene Reliabilitätswerte für eine objektive Anwendbarkeit des Verfahrens (bei standardisierter Vorgabe und Einhaltung der Auswertungs- und Interpretationshinweise) sprechen.

Reliabilität
Tabelle 6

Cronbach’s Alpha der Skalen des FIRE-P

Skala Cronbach’s Alpha (Studie III) Cronbach’s Alpha (Studie IV)
Vorbereitung 0.84 0.82
Gestaltung 0.81 0.86
Belastung 0.79 0.76

Anmerkung. N = 428 (Studie III), N = 301 (Studie IV).

Die interne Konsistenz der Skalen ist insgesamt als akzeptabel bis gut anzusehen, insbesondere da im Rahmen der Prüfungsevaluationen Auswertungen lediglich auf Gruppenebene (je gestellter Prüfung) üblich sind (s. Tabelle 6).

Validität

Die Validierung der Instrumente gestaltet sich durch den Mangel an gesicherten Kriterien für gute Prüfungen als schwierig (vgl. Froncek et al., 2014), dennoch ließ sich eine Reihe von Validitätshinweisen finden: Die Fragebögen basieren auf den empirisch ermittelten Merkmalen guter Prüfungen im Rahmen der Ausbildung im Rettungswesen, die Items wurden zudem dahingehend von Teilnehmern beurteilt, ob sie zur Messung des Konstrukts relevant sind (vgl. Mummendey & Grau, 2014). Dadurch wird angenommen, dass die Itemmenge das zu messende Konstrukt repräsentiert und die inhaltliche Validität gegeben ist.

Um weitere Hinweise auf die Validität zu erhalten, wurden in Studie III verschiedene Kriterien herangezogen, wie die Prüfungsnoten, die Stimmung zum Evaluationszeitpunkt (anhand einer fünfstufigen Smiley-Skala; siehe Jäger, 2004) und das Stresserleben (anhand vier zu diesem Zweck selbstentwickelter Items) während der Prüfung, und diese mit den Skalen-Mittelwerten verglichen. In Studie IV wurden verschiedene Persönlichkeitskonstrukte herangezogen, die mit den drei Faktoren der Prüfungsevaluation entweder positiv, negativ oder gar nicht korrelieren sollten (vgl. Frerichs, 2017 und Tabelle 7). So wurde für jede Skala des Evaluationsbogens sowohl konvergente und konkurrente als auch diskriminante Validität berechnet (vgl. Bühner, 2011). Da es keine anderen Maße der Evaluation der Prüfungen zur Rettungskräfteentwicklung gibt, konnten hierbei nur Proxyvariablen zur Validitätsbestimmung herangezogen werden. Angenommen wurden positive Zusammenhänge der ersten beiden FIRE-P Skalen mit dem Gesamturteil zur Prüfung (erfasst mittels des oben dargestellten Items 24) sowie eine negative Korrelation der FIRE-P-Belastungsskala mit diesem Gesamturteil. Weiterhin erfasst wurden:

–       Gewissenhaftigkeit und Neurotizismus, erfasst mit dem BFI-S von Schupp und Gerlitz (2014)

–       Allgemeine Selbstwirksamkeit, erfasst mit der Kurzskala ASKU von Beierlein, Kovaleva, Kemper und Rammstedt (2014)

–       Arbeitsverbundenheit, erfasst über die Skala zum affektiven organisationalen Commitment des COBB von Felfe, Six, Schmook und Knorz (2014)

–       Interne und externen Kontrollüberzeugungen, gemessen mit der Kurzskala von Jakoby und Jacob (2014)

–       Optimismus / Pessimismus, gemessen mit dem SOP2 von Kemper, Beierlein, Kovaleva und Rammstedt (2014)

–       Entscheidungsfähigkeit, gemessen mit der Selbständigkeitsskala des LMI von Schuler und Prochaska (2001)

–       leistungshemmende Angst / leistungsfördernde Spannung nach Modick (2014)

–       Resilienz, gemessen mit der deutschsprachigen Version des CD-RISC von Sarubin et al. (2015)

Angenommen wurden positive Zusammenhänge zwischen Gewissenhaftigkeit, Selbstwirksamkeit und Arbeitsverbundenheit und den Ergebnissen der FIRE-P-Skala Vorbereitung. Gewissenhafte Personen haben eine höhere Lernmotivation (Colquitt & Simmering, 1998) und ein stärkeres Vertrauen in ihre eigene Lernfähigkeit (Martocchio & Judge, 1997). Eine Metaanalyse von Richardson, Abraham, und Bond (2012) zeigt, dass bei Studierenden die Selbstwirksamkeit mit guten Noten korreliert. Colquitt, LePine und Noe (2000) finden moderate bis starke positive Korrelationen von Selbstwirksamkeit mit der Leistung in einem Training. Eine hohe Arbeitsverbundenheit ist bei Angehörigen der Feuerwehr typisch (Lee & Olshfski, 2002), wir erwarten hier einen positiven Zusammenhang mit dem Engagement in der Vorbereitung auf die Prüfung. Hingegen wurden negative Zusammenhänge zwischen der FIRE-P-Skala Vorbereitung und externen Kontrollüberzeugungen sowie dem Pessimismus erwartet: Eine externe Kontrollüberzeugung senkt die Lernmotivation (Colquitt et al., 2000; Noe, 1986) und wirkt sich vermutlich negativ auf die Prüfungsvorbereitung aus. Pessimistische Personen erwarten negative Konsequenzen (Scheier & Carver, 1985), daher schätzen sie ihre Prüfungsvorbereitung wahrscheinlich gering ein und halten diese für nicht ausreichend.

Hinsichtlich der FIRE-P-Skala Gestaltung wurde angenommen, dass es Personen mit hoher Entscheidungsfähigkeit in Prüfungen leichter fällt Lösungen auszuwählen und Aufgaben zu bearbeiten. Laut Scheier und Carver (1985) erwarten Optimisten, dass ihnen positive Dinge widerfahren. Daher wird angenommen, dass ein optimistischer Mensch vor allem die positiven Aspekte einer Prüfung und die Relevanz der Aufgaben sieht. Im Gegensatz dazu hat das Konstrukt Neurotizismus wahrscheinlich einen negativen Einfluss auf die Bewertung der Prüfungsgestaltung. Personen mit hohen Neurotizismuswerten werden leicht unsicher oder nervös und machen sich schnell Sorgen.

Bei der dritten FIRE-P-Skala Belastung gingen wir von einem Zusammenhang mit Neurotizismus und leistungshemmender Angst aus: Schmidt und Riniolo (1999) fanden eine positive Korrelation zwischen Neurotizismus und Prüfungsangst. Die Anspannung sowie negativer Affekt sind nach einer Prüfung bei Personen mit hohen Neurotizismuswerten sowohl im Vergleich zu deren eigener Baseline als auch im Vergleich zu Personen mit niedrigen Neurotizismuswerten erhöht (Gilbert, Stunkard, Jensen, Detwiler, & Martinko, 1996). Somit wurde erwartet, dass sich Personen mit hohem Neurotizismus durch eine Prüfung stärker belastet fühlen. Leistungshemmende Angst geht mit Furcht vor Misserfolgen einher (Bechler & Thielsch, 2012; Modick, 2014), Personen mit hohen Werten fühlen sich durch Prüfungen vermutlich stärker belastet. Zudem wurden mehrere negative Zusammenhänge mit der empfundenen Belastung der Prüflinge erwartet: Eine hohe Resilienz führt zu einem verringerten Stresserleben (Ong, Bergeman, Wallace, & Bisconti, 2006), was wahrscheinlich die empfundene Prüfungsbelastung senkt. Ein Aspekt der Leistungsmotivation ist die leistungsfördernde Spannung, die Hoffnung auf erfolgreiche Bearbeitung einer Prüfung gibt (Modick, 2014). Dadurch fühlen sich Prüflinge mit hohen Ausprägungen auf dieser Variablen wahrscheinlich weniger belastet. Eine Person mit einer hohen Selbstwirksamkeit fühlt sich kompetent (Beierlein et al., 2014) und daher durch Prüfungen vermutlich weniger belastet.

Tabelle 7

Korrelationen zwischen den einzelnen FIRE-P-Skalen und konvergenten/diskriminanten Variablen in Studie IV

Variable Vorbereitung Gestaltung Belastung
Globalurteil (invertiert) -0,49*** -0,54*** -0,38***
Gewissenhaftigkeit -0,18** -0,24*** -0,10
Selbstwirksamkeit -0,02 -0,13* -0,00
Arbeitsverbundenheit -0,01 -0,10 -0,01
interne Kontrollüberzeugung -0,09 -0,16* -0,17**
externe Kontrollüberzeugung -0,21*** -0,23*** -0,28***
Optimismus -0,03 -0,11 -0,11
Pessimismus -0,04 -0,06 -0,16*
Entscheidungsfähigkeit -0,05 -0,13* -0,19**
Neurotizismus -0,07 -0,15* -0,18**
Resilienz -0,19** -0,27*** -0,19**
leistungshemmende Angst -0,11 -0,20** -0,41***
leistungsfördernde Spannung -0,08 -0,13* -0,07

Anmerkung. * p < .05, ** p < .01, *** p < .001 (zweiseitig). N = 268 (ausgenommen Korrelationen mit dem Globalurteil, hier ist N = 301).

Konvergente Validität. Die Skala Vorbereitung zeigt die erwarteten positiven Korrelationen mit dem Globalurteil sowie dem konvergenten Konstrukt Gewissenhaftigkeit und zudem eine vorher nicht angenommene signifikante positive Korrelation mit Resilienz. Weiterhin findet sich die erwartete negative Korrelation mit externen Kontrollüberzeugungen.

Für die Skala Gestaltung zeigen sich die erwarten Zusammenhänge mit dem Globalurteil, der Entscheidungsfähigkeit sowie mit Neurotizismus. Darüber hinaus finden sich eine Reihe von Zusammenhängen, die vorher nicht angenommen wurden, aber ein logisches Muster ergeben: positive Zusammenhänge der Einschätzung der Prüfungsgestaltung mit Gewissenhaftigkeit, Selbstwirksamkeit, internen Kontrollüberzeugungen, Resilienz und leistungsfördernder Spannung sowie negative Zusammenhänge mit externen Kontrollüberzeugungen und leistungshemmender Angst.

Auch die Skala Belastung zeigt die erwarteten positiven Zusammenhänge mit Neurotizismus und leistungshemmender Angst sowie die erwarteten negativen Korrelationen mit dem Gesamturteil zur Prüfung und der selbsteingeschätzten Resilienz. Darüber hinaus finden sich auch bei dieser Skala weitere Zusammenhänge, die vorher nicht angenommen wurden, aber ein sinnvolles Muster ergeben: positive Korrelationen mit externen Kontrollüberzeugungen und Pessimismus sowie negative Zusammenhänge mit internen Kontrollüberzeugungen und Entscheidungsfähigkeit.

Insgesamt finden sich damit zehn der sechszehn a priori angenommenen Zusammenhänge sowie weitere signifikante Korrelationen, die alle ein sinnvolles Datenmuster ergeben. Die Größe der Effekte liegt dabei weitgehend im niedrigen bis mittleren Bereich, zur Gesamtbewertung der Prüfung finden sich hohe Korrelationen.

Konkurrente Validität. Zwischen der Prüfungsnote und den FIRE-P-Skalen ließen sich in Studie III korrelative Zusammenhänge feststellen, diese liegen bei den Skalen Gestaltung (= .25; p < .01) und Vorbereitung (r = .28; p < .01) im eher niedrigen, bei Belastung (r = .47; p < .001) im mittleren Bereich. Aufgrund der geringen Literaturbasis und fehlenden Vergleichswerten gestaltet es sich als schwierig, diese Korrelationen zu bewerten. Grundsätzlich mag es wünschenswert sein, wenn die Beurteilung der Prüfung durch den Teilnehmer als möglichst unabhängig von der eigenen Leistung bzw. Benotung erfolgt. Es wäre jedoch argumentierbar, dass die subjektive Wahrnehmung der Prüfungsschwierigkeit und des Umfangs (wie in der Skala Belastung erfragt) auch tatsächlich bis zu einem gewissen Grad mit einer Prüfungsnote zusammenhängen sollte.

Stimmung und Stresserleben der Befragten sollten im Optimalfall wenig Einfluss auf die Bewertung der Prüfung selbst mittels des FIRE-P haben. Daher wurde in Studie III der wahrgenommenen Stress während der Prüfung mit einer selbst erstellten Skala sowie die Stimmung anhand der Skala von Jäger (2004) erfasst. Der Mittelwert aus vier Stressitems korrelierte mit den FIRE-P-Skalen Vorbereitung und Gestaltung in einem eher niedrigen Maß (.21 < r < .29; p < .001), mit der Skala Belastung allerdings im hohen Bereich (r = .69; p < .001). Es ist daher davon auszugehen, dass das Antwortverhalten im Prüfungsfragebogen wenig durch das erlebte Stresslevel beeinflusst ist, mit Ausnahme der Skala Belastung, die darauf abzielt, ein ähnliches Konstrukt zu messen. Zwischen der Stimmung der Befragten und den drei Skalen-Mittelwerten konnte ein kleiner positiver Zusammenhang (r = .29 bei allen drei Skalen; p < .01) festgestellt werden, der darauf hinweist, dass die Stimmung zum Evaluationszeitpunkt zwar einen gewissen Zusammenhang zu den Angaben im FIRE-P aufweist, dessen Beantwortung aber nicht in hohen Maße überstrahlt.

Insgesamt konnten im Rahmen der Validierung für jede der drei Skalen sowohl Zusammenhänge mit konvergenten und diskriminanten Konstrukten und konkurrenten Kriterien geprüft werden, sodass sich für den FIRE-P-Evaluationsbogen verschiedene Hinweise auf Konstrukt- und Kriteriumsvalidität finden.

Deskriptive Statistiken (Normierung)

Die Skalen weisen eine leicht schiefe Verteilung auf. Die Mittelwerte und Standardabweichungen der Skalen finden sich in Tabelle 8, die Interkorrelationen liegen im mittleren bis hohen Bereich und finden sich in Tabelle 5. Basis von Tabelle 8 ist die Kombination der Daten aus Studie III und IV, das heißt es gehen Ngesamt = 729 Evaluationsfragebögen zu schriftlichen Prüfungen aus 33 Lehrgängen ein.

Tabelle 8

Deskriptive Statistiken für die Skalen Vorbereitung, Gestaltung und Belastung

Skala M SD Schiefe Kurtosis
Vorbereitung 4.99 1.26 -.67 (.09) -.18 (.18)
Gestaltung 5.02 1.16 -.43 (.09) -.45 (.19)
Belastung 3.23 1.28 -.19 (.09) -.57 (.18)

Anmerkung. Ngesamt = 729.

Danksagung

Die Autoren möchten sich herzlich beim Institut der Feuerwehr Nordrhein-Westfalen (IdF NRW), insbesondere bei Stephanie Vöge, Yannick Ngatchou und Thomas Löchteken, für die umfassende Unterstützung dieser Instrumentenerstellung bedanken.

Contact

  •       Meinald Thielsch, PD Dr. Dipl.-Psych., Westfälische Wilhelms-Universität Münster, Institut für Psychologie, E-Mail: [email protected]
  •       Jessica Busjan, M.Sc. Psychologie, E-Mail: [email protected]
  •       Katharina Frerichs, M.Sc. Psychologie, E-Mail: [email protected] 
x