Münster questionnaire for the evaluation of seminars – revised (MFE-Sr)

Abstract:

 The instrument documented here for the evaluation of seminars is a basic module of the “Münster Questionnaire for Evaluation”. This basic module has the abbreviation “MFE-Sr” because it corresponds to a revised form of the basic module for the evaluation of seminars. less

  • Language Documentation: deutsch
  • Language Items: German
  • Number of Items: 28
  • Reliability: Cronbachs Alpha = .77 bis .89
  • Validity: Hinweis auf die Inhalts- sowie konvergente Validität
  • Construct: Lehrevaluation
  • Catchwords: Lehre, Revision | teaching, revision
  • Item(s) used in Representative Survey: nein
  • Status of Development: validiert

Instrument

Instruktion

Das hier dokumentierte Instrument zur Bewertung von Seminaren ist ein Basismodul des “Münsteraner Fragebogen zur Evaluation” und wird ohne eigene Instruktion präsentiert. Allgemeine Informationen zur Befragung erfolgen beim erstmaligen Zugriff auf das System (Verwendung der Daten, technische Voraussetzungen, u. ä.). Dabei werden auch demografische Merkmale der Teilnehmer erfragt.

Items

Nr. Items zu Dozent & Didaktik
8 Ich finde, das Seminar gab einen guten Überblick über das Themengebiet.
9 Der/Die Lehrende benutzte oft Beispiele, die zum Verständnis der Lehrinhalte beitrugen.
10 Ich finde, der/die Lehrende ging auf Fragen und Anregungen der Studierenden angemessen ein.
11 Der/Die Lehrende hat das Thema interessant aufgearbeitet.
12 Ich konnte im Verlauf des Seminars die Gliederung immer nachvollziehen.
13 Ich finde, der/die Lehrende teilte die zur Verfügung stehende Zeit gut ein.

 

Nr. Items zu Überforderung
14 Die Inhalte des Seminars waren zu schwierig für mich.
15 Das Tempo der Stoffvermittlung war für mich zu hoch.
16 Der mit dem Seminar verbundene Zeitaufwand hat mich überfordert.

 

Nr. Items zu Teilnehmer
17 Die meisten Teilnehmer waren gut auf die einzelnen Termine vorbereitet.
18 Die meisten Teilnehmer brachten sich aktiv ein.
19 Die meisten Teilnehmer verfolgten das Seminar aufmerksam und mit Interesse.

Nr. Items zu Materialien
20 Die in der Vorlesung verwendeten Medien (Folien, Filme, Skizzen, etc.) trugen zum Verständnis der Inhalte bei.
21 Die Qualität der in der Vorlesung verwendeten Medien (Folien, Filme, Skizzen, etc.) war gut.
22 Die Qualität der zusätzlichen Materialien war gut.

Nr. Zusätzlich vorgegebene, hier aber nicht weiter behandelte Items Antwortvorgaben
1 Wie viele Sitzungen hast Du bei diesem Seminar gefehlt? keine, eine, zwei, drei oder mehr Sitzungen
2 Wie viele Stunden hast Du das Seminar im Schnitt pro Woche vor- und nachbereitet? Offenes Antwortfeld
3 Das Seminar war meine: Erstwahl, Zweitwahl, Drittwahl oder geringer
4 Ich habe dieses spezielle Seminar gewählt (Mehrfachantworten möglich): aus Zeitgründen, aus Interesse am Thema, wegen des/r Dozenten/in, kein alternativer Kurs, es waren bei der Wahl keine Informationen verfügbar, weil es eine Pflichtveranstaltung ist
5 Ich finde, die räumliche Ausstattung (Seminarraum, Gruppenräume, Experimentalräume) war angemessen. Wie bei Items  8-22
6 Die Lautstärke war so, dass ich immer alles gut verstehen konnte. Wie bei Items  8-22
7 Der Seminartermin passte gut in meine Zeitplanung. Wie bei Items  8-22
23 Ich habe folgende Materialien zusätzlich zur Veranstaltung benutzt (Mehrfachantworten möglich): keine, Folien, Skript, Literaturangaben, Webseite des Dozenten/der Veranstaltung, andere Webseiten, Handout, Sonstiges
24 Ich fand die Menge des Materials, das zu dieser Veranstaltung zur Verfügung gestellt wurde, war… zu gering, angemessen, zu groß, nicht sinnvoll beantwortbar
25 Ich habe in der Veranstaltung viel gelernt. Ja, Nein
26 Ich würde dieses Seminar anderen Studierenden weiterempfehlen. Ja, Nein
27 Im Punktesystem der gymnasialen Oberstufe (0 [ungenügend] bis 15 [sehr gut +]) bewerte ich dieses Seminar mit folgender Punktzahl: ___ Offenes Antwortfeld
28 Anmerkungen für den/die Lehrende/n (Vorschläge/Lob/konstruktive Kritik): Offenes Antwortfeld

Antwortvorgaben

Für Items 8-22 wird ein 7-stufiges Antwortformat mit den Optionen 1 = “stimme gar nicht zu”, 2 = “stimme nicht zu”, 3 = “stimme eher nicht zu”, 4 = “neutral”, 5 = “stimme eher zu”, 6 = “stimme zu” und 7 = “stimme vollkommen zu” verwendet. Zusätzlich steht die Antwortoption “nicht sinnvoll beantwortbar” zur Verfügung.

Auswertungshinweise

Angesichts der offensichtlichen Eindimensionalität der Items der vier Subskalen können ihre Antwortwerte aufsummiert oder gemittelt werden. Dabei ist zu beachten, dass auf der Skala Überforderung niedrige bis mittlere Werte erwünscht sind. Das Evaluationssystem im Fach Psychologie an der Universität Münster erlaubt den Dozenten einen Vergleich der Ergebnisse für verschiedene Veranstaltungstypen.

Wurde eine Veranstaltung von mehreren Lehrenden abgehalten, so wird die Skala Dozent & Didaktik jeweils für jeden Lehrenden dargeboten. Die Studierenden werden dann instruiert, mit dieser Skala jede/n Veranstalter/in einzeln zu evaluieren. Alle übrigen Skalen und Items beziehen sich auf die Gesamtveranstaltung und werden entsprechend nur einmal abgefragt.

Ein Evaluationsdatensatz wird nur dann für die Auswertung verwendet, wenn der Evaluierende dem am Ende der Online-Befragung explizit zustimmt, ein freiwilliger Selbstausschluss der Daten wird so ermöglicht (vgl. Thielsch & Weltzin, 2012).

Theory

Die Evaluation der Lehre ist ein wichtiges Instrument zur Qualitätssicherung an Hochschulen. Die studentische Lehrveranstaltungskritik blickt dabei auf eine gut 50-jährige Geschichte zurück (Schmidt & Loßnitzer, 2010). Kontroverse Diskussionen in den 1980er und 1990er Jahren haben sich insbesondere mit der Validität dieser Art von Evaluation beschäftigt (Greenwald, 1997; Mutz, 2003; Rindermann, 1996, 2003 & 2009). Dabei hat sich gezeigt, dass studentische Beurteilungen für Lehrevaluationen geeignet sind. Dementsprechend sind sie zu einer zentralen, teilweise gesetzlich verankerten Standardmethode der Qualitätssicherung an Hochschulen geworden (Rindermann, 2009; Schmidt & Loßnitzer, 2010). Nach Rindermann (1996) kann Lehrevaluation in verschiedenen Bereichen Verbesserungen initiieren: So kann sie die Lehrqualifikation der Lehrenden verbessern, Stärken und Schwächen auf Veranstaltungs-, Fach- oder Universitätsebene aufdecken, Diskussionen zwischen Lehrenden und Studierenden unterstützen, die Mittelvergabe steuern und Weiterbildungsmaßnahmen veranlassen. Souvignier und Gold (2002) fassen die verschiedenen Ziele von Lehrevaluation in “Feedback”, “Steuerung” und “Forschung” zusammen.

Seit dem Wintersemester 2000/1 werden im Fach Psychologie an der Universität Münster strukturierte Evaluationsfragebogen zur studentischen Veranstaltungskritik eingesetzt. Dabei wurden zunächst nur die Vorlesungen evaluiert. Eine Seminarevaluation findet seit dem Wintersemester 2002/3 statt. Seit dem Wintersemester 2003/4 wird die Lehrevaluation über eine webbasierte Darbietungsplattform online durchgeführt (vgl. Haaser, Thielsch & Moeck, 2007). Vorteile dieser Online-Erhebungsform sind enorme Zeitersparnisse bei der Erhebung, Auswertung und Präsentation der Daten (vgl. z.B. Göritz, Soucek & Bacher, 2005; Haaser et al., 2007). Außerdem konnte durch sie die Anzahl fehlender Werte durch entsprechend programmierte Rückmeldungen deutlich reduziert und das Feedback für Dozenten durch frei wählbare Vergleichsveranstaltungen verbessert werden. Nach einer Ausweitung der evaluierten Veranstaltungen werden seit 2008 auch vereinzelt so genannte Mixed-Mode Erhebungen durchgeführt, d.h. einzelne Veranstaltungen werden auch mithilfe von Papier-Bleistift Fragebogen evaluiert.

Für den deutschsprachigen Raum liegt bereits eine Reihe von Instrumenten zur Lehrevaluation vor. Eine Übersicht geben Schmidt und Loßnitzer (2010). Sie sind jedoch zum Teil vergleichsweise lang und somit nur bedingt für eine internetgestützte Darbietung und eine gleichzeitige Evaluation unterschiedlicher Veranstaltungen geeignet. Speziell für Online-Erhebungen und Rückmeldungen werden eher kurze und ökonomische Skalen benötigt. Da Lehrevaluationen zudem typischerweise gegen Semesterende stattfinden, fallen diese zeitlich in den neuen Studiengängen oftmals in die angespannte Phase der Prüfungsvorbereitung der Studierenden (vgl. Bechler & Thielsch, 2012). Hohe Ökonomie, d.h. eine möglichst geringe Belastung von Studierenden durch die Befragung, war deshalb ein zentrales Ziel bei der Konstruktion der hier beschriebenen Itembatterie. Zusätzlich wurde die Erhebung verschiedener Biasvariablen, wie z. B. Vorinteresse oder räumliche Ausstattung, gewünscht. Dazu wurden in die aktuelle Revision des MFE-S zum MFE-Sr mehrere Items neu aufgenommen. Für die meisten existierenden Lehrevaluationsinstrumente wurden Daten für eine Prüfung ihrer psychometrischen Eigenschaften nur beim ersten Einsatz erhoben und sie wurden später nicht anhand neuer Daten auch konfirmatorisch geprüft. Im Unterschied dazu wird hier die auf Basis früherer explorativer und konfirmatorischer Faktorenanalysen sowie theoretischer Überlegungen zu den gegenüber dem MFE-S neu aufgenommenen Items die für dem MFE-Sr erwartete vier-dimensionale Strukturierung der Antworten konfirmatorisch getestet.

Scale development

Itemkonstruktion und Itemselektion

Die vorliegende, gegenüber dem Basismodul Evaluation von Seminaren erweitere und revidierte Version des Münsteraner Fragebogens zur Evaluation von Seminaren (MFE-Sr) basiert auf einer Reihe von Vorgängerversionen und einem umfangreichen Modifikationsprozess: Im ersten Schritt wurde auf Basis einer Analyse der Merkmale guter Lehre und ausgehend von empirischen Voruntersuchungen ein erstes Instrument am Fachbereich Psychologie der Universität Münster konstruiert (Grabbe, 2003). Es wurde zwischen dem Wintersemester 2002/3 und dem Sommersemester 2005 jedes Semester eingesetzt. Die Originalversion sollte mit 17 Items drei Dimensionen der Lehrqualität möglichst detailliert erfassen (Grabbe, 2003). Erste Item- und Hauptkomponentenanalysen der im Sommersemester 2005 erhobenen Daten veranlassten eine Verkürzung des Fragebogens auf 14 Items, von denen sich neun drei Hauptkomponenten zuordneten (Haaser, 2006). Für das abschließend beibehaltene Instrument wählte Haaser für diese drei Subskalen bewusst Items aus, die unterschiedliche Aspekte der entsprechenden Konstrukte erfassen sollen. Dies spiegelte sich in teilweise niedrigen Werten für die interne Konsistenz nach Cronbachs Alpha wieder. Dieses Instrument wurde in 2008 einer konfirmatorischen Prüfung unterzogen mit positiver Bestätigung der erwarteten drei faktoriellen Struktur (MFE-S; Hirschfeld & Thielsch, 2009). Danach zeigte sich jedoch weiterer Revisionsbedarf, resultierend aus den Anforderungen, zum einen mögliche Biasvariablen zu erheben, zum anderen aber auch den Fokus der Lehrevaluation zu erweitern. Ausgehend von der Literatur und vorliegenden Itementwürfen wurde daher die hier vorgestellte revidierte Version zum MFE-Sr erstellt. Ihre psychometrischen Eigenschaften wurden mit Daten aus dem Sommersemester 2009 explorativ sowie mit Daten aus dem Wintersemester 2009/10 konfirmatorisch geprüft. Ziel war dabei insbesondere, Itemformulierungen zu optimieren und relevante Aspekte möglichst handlungsnah zu erfassen, Biasvariablen zu erheben sowie die Feedbackmöglichkeiten sinnvoll zu erweitern.

Stichproben

ZIm Wintersemester 09/10 wurden im Rahmen der Lehrevaluation insgesamt 2709 Seminarbewertungen erhoben. Aus diesen wurden 1646 ausgeschlossen, entweder wegen zu vieler fehlender Werte oder weil eine oder mehrere Fragen mit “nicht sinnvoll beantwortbar” bewertet wurden. Ferner wurden die Daten aus weiteren 406 Fragebogen nicht berücksichtigt, weil sie eine identische Session-ID hatten, d.h. Beurteilungen mehrerer Veranstaltungen durch identische Studierende enthielten. Der so bereinigte und hier verwendete Datensatz umfasst somit noch Evaluationen von 657 Studierenden. 172 von ihnen waren männlich, 459 weiblich. 26 machten keine Angabe zu ihrem Geschlecht. Die Befragten waren zwischen 18 und 48 Jahren alt (M = 23.08; SD = 3.41). Die Mehrzahl (52.8%) studierte Psychologie im Bachelorstudiengang, die übrigen im Diplomstudiengang (20.7%), im Nebenfach Erziehungswissenschaften (12.5%), im Bachelorstudiengang Bildungsarbeit mit Kindern und Jugendlichen oder im Studiengang Diplom-Pädagogik (9.3%). Rund fünf Prozent beantworteten die entsprechende Frage nicht.

Die Lehrevaluation wird seit dem Wintersemester 2002/3 jeweils am Ende eines Semesters durchgeführt. Für diese Erhebungen wurde eine Online-Plattform basierend auf PHP und kombiniert mit MySQL-Datenbanken entwickelt (Haaser et al., 2007). Einzelne Veranstaltungen im Nebenfach werden seit 2008 auch mit Papier-Bleistift Fragebogen beurteilt. In alle hier berichteten Analysen wurden Daten aus dem Wintersemester 2009/10 einbezogen.

Variablen und Auswertungsmethode

Ausgehend von den Ergebnissen früherer Analysen wurde die Dimensionalität der hier berücksichtigten Antworten konfirmatorisch mit linearen Faktoranalysen und unter Rückgriff auf den konventionellen Maximum Likelihood Schätzer geprüft. Alle entsprechenden Analysen erfolgten mit AMOS.

Itemanalysen

Ein konfirmatorisches Messmodell (Tabelle 1) mit vier korrelierten Faktoren erzielt eine akzeptable Passung (Chi-Quadrat = 301.0, df = 84; TLI = .95, CFI = .96, RMSEA = .06). Dies bestätigt die auf der Basis früherer Analysen der Daten aus dem Sommersemester 2009 erwartete vier-dimensionale Strukturierung der Antworten zu den 15 Items. Die vier Dimensionen lassen sich interpretieren als Dozent & Didaktik, Überforderung, Teilnehmer und Material. Dozent & Didaktik vereinigt dabei hoch korrelierte Items zum Dozentenverhalten und der Lehrweise in einem Faktor. Als getrennter, aber mit der ersten Skala hoch korrelierter Faktor wird die Qualität zusätzlicher Materialien bewertet. Die Items auf dem Faktor Teilnehmer behandeln Vorbereitung, Interesse und Engagement der Studierenden, während der Faktor Überforderung die Schwierigkeit der Lehrinhalte, Zeitaufwand und Tempo umfasst. Während weitgehend gute bis sehr gute Itemkennwerte vorliegen, zeigt sich bei Item 16 (Zeitaufwand für das Seminar) eine etwas geringere Ladung auf dem Faktor Überforderung. Womöglich fällt dieser Aspekt qualitativ etwas aus dem Rahmen, da er auch von anderen Faktoren außerhalb der Veranstaltung beeinflusst sein kann. Dennoch ist dieses Item aus Gründen der Rückmeldung interessant und soll beibehalten werden. Die Korrelationen (Tabelle 2) zwischen den Subskalen variieren zwischen -.22 und .76.

Tabelle 1

Mittelwerte (M), Standardabweichungen (SD), Trennschärfen (T), Faktorladungen (FL) und Cronbachs Alpha (CA) bei Ausschluss des Items für die Items der vier Subskalen (N = 657)

Item          
Dozent & Didaktik M SD T FL CA
Item 8 5.94 1.18 .74 .79 .87
Item 9 5.85 1.28 .77 .82 .87
Item 10 6.09 1.29 .71 .76 .87
Item 11 5.69 1.41 .79 .86 .86
Item 12 5.87 1.31 .65 .68 .88
Item 13 5.71 1.38 .64 .67 .89
Überforderung          
Item 14 2.22 1.27 .68 .86 .62
Item 15 2.19 1.33 .69 .87 .60
Item 16 2.67 1.61 .48 .52 .86
Teilnehmer          
Item 17 5.49 1.26 .58 .61 .85
Item 18 5.58 1.18 .74 .82 .68
Item 19 5.61 1.20 .71 .90 .71
Materialien          
Item 20 6.02 1.08 .75 .90 .70
Item 21 5.96 1.11 .75 .88 .70
Item 23 5.66 1.25 .57 .62 .88

Anm. Faktorladungen wurden mit AMOS ermittelt, die übrigen Berechnungen erfolgten mit SPSS

Tabelle 2

Korrelation zwischen den Skalen Subskalen Dozent & Didaktik, Überforderung, Teilnehmer und Materialien N = 657)

  Überforderung Teilnehmer Materialien
Dozent & Didaktik -.23 .66 .76
Überforderung   -.22 -.19
Teilnehmer     .65

Anm. Faktorladungen wurden mit AMOS ermittelt, die übrigen Berechnungen erfolgten mit SPSS

Itemkennwerte

Für eine Beurteilung der psychometrischen Eigenschaften der Items liegen Itemkennwerte (Tabelle 1) vor.

Quality criteria

Reliabilität

Cronbachs Alpha beträgt .89 für die sechs Items der Subskala Dozent & Didaktik, .77 für die drei Items der Subskala Überforderung, .82 für die drei Items der Subskala Teilnehmer und .83 für die drei Items der Subskala Materialien. Die interne Konsistenz der Subskalen ist danach als ausreichend bis gut anzusehen, insbesondere bei Berücksichtigung ihrer jeweils geringen Itemzahl. Diese Ergebnisse entsprechen denen aus Studien zu umfangreicheren Lehrevaluationsinstrumenten (z.B. FEVOR, Staufenbiel, 2000; HILVE, Rindermann, 2009; KIEL, Gediga et al., 2000 oder TRIL, Gollwitzer & Schlotz, 2003).

Validität

Bereits Marsh (1984) weist auf die grundsätzliche Schwierigkeit hin, Lehrevaluationsinstrumente angemessen zu validieren, da keine allgemein anerkannten Kriterien für gute Lehre existieren. Die meisten Lehrevaluationsinstrumente, wie auch die Itemsammlung von Grabbe (2003), auf der die hier vorgestellte Itembatterie aufbaut, können als Versuch angesehen werden, alle möglichen relevanten Aspekte zu erfassen. Die Reduktion der Itemzahl wärend der Instrumentenentwicklung hat beim MFE-Sr gegenüber umfangreicheren Instrumenten zu einer Einschränkung der betrachteten Bereiche geführt, mit einer Konzentration auf Auftreten und Didaktik von Lehrenden, das Verhalten der Studierenden, das von den Lehrenden verwendete Material und eine eventuelle Überforderung der Studierenden.

Nach dem multimodalen Bedingungsmodell des Lehrerfolgs stellen die Verhaltensweisen des Dozenten den wichtigsten Bedingungsfaktor des Lehrerfolgs dar (Rindermann, 2009). Dies spricht für die Inhaltsvalidität der hier vorgeschlagenen Subskala Dozent & Didaktik des MFE-Sr. Für die konvergente Validität aller vier Subskalen auf Veranstaltungsebene sprechen nach einer Analyse der Daten aus 93 Veranstaltungen mittlere bis sehr hohe Korrelationen ihrer Summenwerte mit einer Gesamtbewertung der jeweiligen Veranstaltung (.89 für die Skala Dozent & Didaktik, -.33 für die Skala Überforderung, .81 für die Skala Teilnehmer und .81 für die Subdimension Materialien). Ihre divergente Validität belegen z.B. nicht signifikante Rangkorrelationen zwischen der ursprünglichen Präferenz für eine Veranstaltung (Erst-, Zweit- oder Drittwahl) und den Summenwerten für Überforderung, Teilnehmer und Materialien, Obwohl die entsprechende Korrelation von -.13 mit dem Summenwert für die Subskala Dozent & Didaktik als statistisch signifikant ausgewiesen wird, ist auch sie jedoch substantiell eher unbedeutend. Ein multivariater Vergleich, mit Veranstaltungsart als unabhängiger Variable und den Summenwerten für die vier MFE-Sr Subskalen zeigt schließlich, dass verschiedene Veranstaltungen signifikant unterschiedlich mithilfe dieser Itembatterien beurteilt werden (F = 3,06, df = 368, p < .01, Eta-Quadrat = .33). Dies spricht für ihre diskriminate Validität.

Ein zentrales Ziel der Konstruktion der hier dokumentierten Subskalen war auch ihre Ökonomie, die mit nur sechs bzw. drei Items pro Subskala sicherlich als zufriedenstellend beurteilt werden kann, auch wenn das Instrument gegenüber dem MFE-S zur Erfassung einer weiteren Facette mehr Items umfasst. Sehr hohe Rücklaufquoten (im Mittel über alle Seminarveranstaltungen rund 70%, Thielsch et al., 2010) und regelmäßige Metaevaluationen (Thielsch et al., 2010) zeigen zudem, dass Lehrende und Studierende die Befragung mit diesen Items als wenig belastend erleben, das Instrument akzeptieren und es positiv beurteilen.

Deskriptive Statistiken

Deskriptive Statistiken für Subskalen (Tabelle 3) und Items (Tabelle 1) liegen vor.

Tabelle 3

Mediane (Me), Mittelwerte (M), Standardabweichungen (SD) sowie Schiefe und Kurtosis für die Subskalen Dozent & Didaktik, Überforderung, Teilnehmer und Materialien (N = 657)

  Me M SD Schiefe Kurtosis
Dozent & Didaktik 6.17 5.86 1.06 -1.58(.10) 3.10(.19)
Überforderung 2.00 2.36 1.16 1.09(.10) 1.06(.19)
Teilnehmer 5.67 5.56 1.04 -0.96(.10) 1.28(.19)
Materialien 6.00 5.88 0.99 -1.64(.10) 4.36(.19)

Anm. Die Berechnungen erfolgten mit SPSS

Contact

  • Dr. Dipl.-Psych.  Meinald Thielsch, Westfälische Wilhelms-Universität Münster, Psychologisches Institut 1, Fliednerstr. 21, 48149 Münster, E-Mail: [email protected], Tel. 0251 83 34154.
  • Dr. Dipl.-Psych. Gerrit Hirschfeld, Vodafone Stiftungsinstitut und Lehrstuhl für Kinderschmerztherapie und Pädiatrische Palliativmedizin Vestische Kinder- und Jugendklinik Datteln, Private Universität Witten/Herdecke, Dr.-Friedrich-Steiner-Str. 5, 45711 Datteln, E-Mail: [email protected], Tel. 02363 975 183.

x