Schreibkompetenzen in der Fremdsprache

Text
From the series: narr studienbücher
Read preview
Mark as finished
How to read the book after purchase
Font:Smaller АаLarger Aa

4.2.3.4 KontextvaliditätValiditätKontextvalidität

Die KontextvaliditätValiditätKontextvalidität betrifft die AngemessenheitAngemessenheit der sprachlichen und inhaltlichenInhalt Anforderungen und der Testdurchführung und damit u.a. folgende spezifische Aspekte: Art der Administration einer Schreibaufgabe in der Prüfungssituation, Form der ArbeitsanweisungAufgabenArbeitsanweisung (Testinstruktion) und Situierung, Zeit- und Umfangsvorgaben, Art des Inputs (Bildmaterial, Lesetext, ThemaThemen), Information über BewertungskriterienBeurteilungskriterien. Damit umfasst der Begriff der Kontextvalidität auch das bereits genannte Konzept der InhaltsvaliditätValiditätInhaltsvalidität.

4.2.3.5 Kognitive ValiditätValiditätkognitiv

Die kognitive ValiditätValiditätkognitiv bezieht sich insbesondere auf die Frage, inwieweit die bei der Bearbeitung einer Prüfungsaufgabe zum Schreiben involvierten kognitiven Prozesse mit den kognitiven Prozessen übereinstimmen, die beim Schreiben in den angezielten Verwendungssituationen ablaufen. Dazu gehört z.B. eine situations-, adressaten- und textsortenangemesseneTextsorte Planung des Schreibprozesses (vgl. für eine tiefergehende Diskussion des grundlegenden Konzepts der kognitiven Validität ValiditätkognitivField, 2013).

4.2.3.6 Scoring-ValiditätValiditätScoring-Validität

Das im Hinblick auf die Messung von Schreibkompetenzen wichtige Kriterium der Scoring-ValiditätValiditätScoring-Validität definieren Shaw & Weir (2007, S. 6) unter Bezug auf Weir (2005) dabei folgendermaßen:

Scoring validity is linked directly to both context and cognitive validity and is employed as a superordinate term for all aspects of reliability … Scoring validity accounts for the extent to which test scores are based on appropriate criteria, exhibit consensual agreement in their marking, are as free as possible from measurement error, stable over time, consistent in terms of their content sampling and engender confidence as reliable decision-making indicators.

Scoring-ValiditätValiditätScoring-Validität umfasst damit sowohl Aspekte der ReliabilitätReliabilität als auch der ValiditätValidität (wie z.B. die AngemessenheitAngemessenheit der BewertungskriterienBeurteilungskriterien im Hinblick auf das zu messende Konstrukt).1Reliabilität KontextvaliditätValiditätKontextvalidität, kognitiveValiditätkognitiv Validität und Scoring-ValiditätValiditätScoring-Validität stellen nach Shaw & Weir (2007, S. 7) zentrale Komponenten der KonstruktvaliditätValiditätKonstruktvalidität dar.

Während im argumentbasierten Validierungsmodell von Kane (2012, 2013) die Scoring-Inferenz als einfach und unproblematisch charakterisiert wird, weist Chapelle (2012, S. 23) zu Recht darauf hin, dass im Fall der Messung produktiver sprachlicher KompetenzenKompetenzproduktiv mit Hilfe von PerformanztestsPerformanztest die Art der Punktvergabe von erheblicher Bedeutung im Hinblick auf die Interpretation der Testwerte ist und deshalb die Entwicklung, Implementierung und Rechtfertigung valider Regeln für die Punktvergabe ein anspruchsvoller Prozess sind.

4.2.3.7 Konsequentielle ValiditätValidität

Die konsequentielle ValiditätValiditätkonsequentiell im Sinne von Shaw & Weir (2007) und anderen Autoren bezieht sich u.a. auf die Art der RückwirkungenRückwirkung und Konsequenzen, die der Einsatz von TestaufgabenAufgabenTestaufgaben und die Verwendung der Testergebnisse für die Betroffenen und den Unterricht haben (vgl. hierzu bereits Messick, 1989, 1996, 1998 sowie auch Cheng, Sun & Ma, 2015). Es ist ein erklärtes Ziel z.B. von Cambridge English, mit den angebotenen Prüfungen eine positive RückwirkungRückwirkung (impact; washback/backwash) zu erzielen. Entsprechend werden Konsequenzen und RückwirkungenRückwirkung bereits bei der TestentwicklungTestentwicklung berücksichtigt (im Sinne eines Impact by design) und die tatsächlichen Konsequenzen und RückwirkungenRückwirkung anschließend empirisch untersucht (vgl. Cambridge English Language Assessment, 2013; Jones & Saville, 2016; Saville & Khalifa, 2016). Auf das Kriterium der RückwirkungRückwirkung gehen wir noch genauer in Kapitel 4.2.4.1 ein.

4.2.3.8 Kriterienbezogene ValiditätValidität

Die von Shaw & Weir (2007) und vielen weiteren Autoren genannte kriterienbezogene ValiditätValiditätkriterienbezogen wird anhand eines Vergleichs der Ergebnisse der Lernenden in dem zu validierenden Test mit den Ergebnissen in einem unabhängigen validen Außenkriterium ermittelt (vgl. auch American Eucational Research Association et al., 2014, S. 17f.). Im Fall eines Schreibtests oder auch einer einzelnen Schreibaufgabe kann das externe Kriterium z.B. die Leistung in einem bereits validierten Schreibkompetenztest oder die Ermittlung von Schreibkompetenzen anhand eines als valide erachteten Schreibportfolios sein. Stimmen die Ergebnisse in dem zu validierenden Instrument mit den Ergebnissen im externen Kriterium weitgehend überein, ist dies ein Beleg für die kriterienbezogene ValiditätValiditätkriterienbezogen des zu validierenden Instruments und gegebenenfalls auch für die Gültigkeit der Extrapolationsinferenz. Auch im unterrichtlichen Kontext ist die kriterienbezogene ValiditätValiditätkriterienbezogen durchaus von Bedeutung: Wenn z.B. Schülerinnen und Schüler in einem externen Test wie den Cambridge English Prüfungen oder dem französischen Zertifikatstest DELF deutlich anders in ihren Schreibkompetenzen bewertet werden als bei der Leistungsüberprüfung im Unterricht, dann kann eine Lehrkraft die Ergebnisse im externen Test als Außenkriterium nutzen und sich fragen, ob die im Unterricht eingesetzte Prüfung hinreichend valide (und reliabel) war. Insgesamt gilt, dass es zur Validierung von Sprachtests und SprachtestaufgabenAufgabenTestaufgaben in der Regel einer komplexen, sowohl theoretisch als auch empirisch möglichst breit gestützten Argumentation bedarf. Wir werden auf die genannten Aspekte der ValiditätValidität in den folgenden Kapiteln des Studienbuches noch zurückkommen.

4.2.4 Weitere GütekriterienGütekriterien

Neben ObjektivitätObjektivität, ReliabilitätReliabilität und ValiditätValidität wird häufig FairnessFairness als zentrales GütekriteriumGütekriterien aufgeführt (vgl. auch die Hinweise zum Weiterlesen). Zuweilen wird FairnessFairness jedoch auch in erster Linie als spezieller Aspekt der ValiditätValiditätInhaltsvalidität gesehen. Eine Schreibaufgabe ist insbesondere dann fair, wenn sie bestimmte Gruppen von Testteilnehmenden nicht aufgrund von konstruktirrelevanten Faktoren systematisch benachteiligt. Ein entsprechender Bias kann z.B. dann auftreten, wenn sich die Testteilnehmenden im Hinblick auf eine bestimmte Schreibaufgabe in ihrem nicht konstruktrelevanten thematischen Wissen oder in ihrer Vertrautheit mit den BeurteilungskriterienBeurteilungskriterien deutlich unterscheiden oder wenn die Durchführungsbedingungen Gruppen von Testteilnehmern systematisch benachteiligen.

4.2.4.1 RückwirkungRückwirkung

Weiterhin wird häufig die bereits im Zusammenhang mit der konsequentiellen ValiditätValidität genannte RückwirkungRückwirkung von Tests als eigenständiges GütekriteriumGütekriterien gesehen. Dabei kann sich die RückwirkungRückwirkung z.B. auf Unterrichtsmaterialien und -methoden, auf die Prozesse und Produkte des Lehrens und Lernens, auf Emotionen und Einstellungen der betroffenen Personen oder auch gesamtgesellschaftliche Effekte beziehen. Weiterhin können intendierte oder auch nicht intendierte bzw. nicht antizipierte RückwirkungenRückwirkung gemeint sein (vgl. Cheng, Sun & Ma, 2015; Rossa, 2016; Saville & Khalifa, 2016; Xi & Davis, 2016, S. 73f.).1RückwirkungRückwirkung

In Bezug auf die potentielle RückwirkungRückwirkung insbesondere standardisierter Tests wird zuweilen kritisch angemerkt, dass deren Einsatz im Unterricht zu einer negativen RückwirkungRückwirkung in Form eines teaching to the test führe. Die RückwirkungRückwirkung kann aber auch im Fall standardisierter Tests durchaus positiv sein. Handelt es sich z.B. um einen handlungs- und kompetenzorientierten TestEvaluationkompetenzorientiert, der authentische Situationen antizipiert, und bereitet man die Schülerinnen und Schüler auf einen solchen Test kompetenzorientiertEvaluationkompetenzorientiert vor, dann bereitet man damit gleichzeitig auf lebensweltlich relevante AufgabenAufgaben vor. Wichtig für eine positive RückwirkungRückwirkung ist auch, dass die Testergebnisse benutzerfreundlich berichtet werden – z.B. in Form von verständlichen und aussagekräftigen NiveaubeschreibungenNiveaustufe (vgl. Montee & Malone, 2014, S. 849). Auch am IQBIQB wird bei der Entwicklung und dem Einsatz der TestaufgabenAufgabenTestaufgaben versucht, durch eine Orientierung an den Prinzipien der Handlungs- und KompetenzorientierungKompetenzorientierung sowie durch eine geeignete Form der Rückmeldung eine möglichst positive RückwirkungRückwirkung zu erzielen.

Die tatsächliche RückwirkungRückwirkung von Tests ist allerdings ein höchst komplexes Phänomen, das von einer Vielzahl von kontextuellen Variablen abhängig ist. Vor dem Hintergrund einer Reihe von Studien zur RückwirkungRückwirkung von standardisierten Tests stellt deshalb Hamp-Lyons (2016, S. 19) kritisch fest: „It would seem then that we must question whether it would be of any value to make beneficial washback itself a test purpose.“ Auch wenn man die Möglichkeit, mit Hilfe von Tests bestimmte positive RückwirkungseffekteRückwirkung zu erzielen, eher kritisch sieht, sollte u.E. die potenzielle RückwirkungRückwirkung auf jeden Fall bei der TestentwicklungTestentwicklung mit bedacht werden.

 

4.2.4.2 AuthentizitätAuthentizität

Ein vor allem von Vertreterinnen und Vertretern performanz- und aufgabenbasierter Evaluationsformen genanntes Qualitätsmerkmal bezieht sich auf das bereits kurz angesprochene Kriterium der AuthentizitätAuthentizität. Das Kriterium kann sich dabei auf TestaufgabenAufgabenTestaufgaben – unter Einschluss der Vorgaben wie Bildmaterial und zu behandelnde InhaltspunkteInhalt sowie der Situierung und der damit verbundenen Arbeitsanweisungen –, auf die Art der Testdurchführung sowie auch auf die BewertungskriterienBeurteilungskriterien beziehen. Das Merkmal der AuthentizitätAuthentizität steht in engem Zusammenhang insbesondere mit den Qualitätsmerkmalen der Handlungs- und Aufgabenorientierung und damit auch in einem engen Bezug zur ValiditätValidität von Sprachtests.

„Authentisch“ bezieht sich u.a. auf den Grad der Übereinstimmung zwischen den Merkmalen einer gegebenen TestaufgabeAufgabenTestaufgaben und den Merkmalen der jeweiligen zielsprachlichen Verwendungskontexte. Bei der Gestaltung von AufgabenAufgaben wird man in Übereinstimmung mit dem Prinzip der HandlungsorientierungHandlungsorientierung versuchen, potenzielle Handlungskontexte der Schülerinnen und Schüler zu antizipieren. Wenn z.B. die Fähigkeit zum Verfassen eines Bewerbungsschreibens überprüft werden soll, dann wäre ein Input in Form einer Stellenanzeige für einen Hochschulkanzler zusammen mit der Aufforderung, eine informelle Bewerbungsmail zu schreiben, ein Extrembeispiel für eine unauthentische Aufgabenstellung. Dies gilt sowohl im Hinblick auf die für Schülerinnen und Schüler relevanten Handlungskontexte als auch in Bezug auf die in dem Kontext übliche TextsorteTextsorte.

Bezogen auf die BewertungskriterienBeurteilungskriterien von Schreibleistungen bedeutet die Forderung nach AuthentizitätAuthentizität u.a., dass sich auch die im Prüfungskontext verwendeten Kriterien (möglichst weitgehend) an den im zielsprachlichen Verwendungskontext üblicherweise zugrunde gelegten Kriterien orientieren sollten. Spielt z.B. in einem bestimmten zielsprachlichen Verwendungskontext für die Empfänger eines Schreibens die VerständlichkeitVerständlichkeit und kommunikativeKompetenzkommunikativ Effizienz eine größere Rolle als die Korrektheit der verwendeten sprachlichen Mittel, so sollte sich dieser Sachverhalt auch bei der Bewertung der Prüfungsleistungen widerspiegeln (vgl. hierzu auch Kapitel 6).

Ein anderer Aspekt der AuthentizitätAuthentizität ist der Grad der Übereinstimmung in den kognitiven Prozessen bei der Lösung der TestaufgabenAufgabenTestaufgaben und beim Gebrauch der Zielsprache außerhalb der Testsituation. Verlangt der zielsprachliche Verwendungskontext z.B. umfangreiche Planungsprozesse beim Schreiben, dann sollte auch die Bearbeitung der Schreibaufgabe entsprechende Prozesse verlangen. Dieser Aspekt wurde weiter oben auch als kognitive ValiditätValiditätkognitiv bezeichnet. Situationell und kognitiv authentische/valide AufgabenAufgaben erlauben Extrapolationen im Hinblick auf die Fähigkeit zur Lösung analoger zielsprachlicher Probleme außerhalb der Testsituation.

4.2.4.3 AugenscheinvaliditätValiditätAugenscheinvalidität

Vor allem bezogen auf den Unterrichtskontext wird nicht selten auch die sogenannte AugenscheinvaliditätValiditätAugenscheinvalidität/Augenscheingültigkeit (face validity) als GütekriteriumGütekriterien von AufgabenAufgaben und Tests genannt. Die Augenscheinvalidität bezeichnet die Akzeptanz eines Verfahrens in den Augen der Betroffenen (Testteilnehmende und Nutzende der Testergebnisse) und steht im Zusammenhang insbesondere zum GütekriteriumGütekriterien der AuthentizitätAuthentizität. Wenn Schülerinnen und Schüler Aufgaben als authentisch wahrnehmen, werden sie diese eher als gültige, aussagekräftige Instrumente zur Überprüfung ihrer Kompetenzen akzeptieren und die Bearbeitung der Aufgaben ernst nehmen. Dies kann wiederum einen positiven Einfluss auf die KonstruktvaliditätValiditätKonstruktvalidität haben. Die AugenscheinvaliditätValiditätAugenscheinvalidität betrifft damit zumindest mittelbar auch die Gültigkeit der anhand der Testwerte getroffenen Interpretationen und Entscheidungen. Außerdem kann eine geringe Augenscheingültigkeit der Aufgaben negative Auswirkungen auf die Akzeptanz des Verfahrens und damit auch auf die weitere unterrichtliche Qualitätsentwicklung haben. Entsprechend spielt die Augenscheingültigkeit z.B. bei den vom IQBIQB erstellten schriftlichen Vergleichsarbeiten (VERA) Vergleichsarbeiten zur Feststellung des Lernstandes in den beteiligten Bundesländern (vgl. Kapitel 2.5) eine wichtige Rolle.

Ein u.a. mit der Augenscheingültigkeit zusammenhängendes Problem ergibt sich im Fall von AufgabenformatenAufgabenformate, die lediglich einen sehr indirekten Bezug zu den zu messenden Kompetenzen aufweisen. So wurden lange Zeit in einigen bekannten internationalen Tests Schreibkompetenzen ausschließlich auf indirektem Wege u.a. anhand von Multiple-Choice-Tests zu GrammatikGrammatik und Vokabular überprüft. Dies ist zumindest aus folgenden Gründen problematisch: a) Die AugenscheinvaliditätValiditätAugenscheinvalidität solcher AufgabenAufgaben ist im Hinblick auf das Alltagsverständnis der KompetenzKompetenz Schreiben äußerst gering. b) Das Konstrukt „Schreibkompetenz“, insbesondere wenn es handlungsorientiert definiert wird, ist deutlich unterrepräsentiert. c) Entsprechende TestaufgabenAufgabenTestaufgaben können eine negative RückwirkungRückwirkung auf die unterrichtliche Vermittlung von Schreibkompetenzen haben (z.B. in Form eines teaching to the test). AuthentizitätAuthentizität und Augenscheinvalidität stehen damit auch im engen Zusammenhang zur konsequentiellen ValiditätValiditätAugenscheinvalidität und zum RückwirkungseffektRückwirkung (Washback) von Tests.

4.2.4.4 PraktikabilitätPraktikabilität und Ökonomie

Gerade im Unterrichtskontext sind auch die PraktikabilitätPraktikabilität und Ökonomie (im Sinne von Wirtschaftlichkeit) einer Prüfung wichtige Kriterien. Diese beiden Kriterien können sich auf die Herstellung, Durchführung, Auswertung und Verwendung von Prüfungen beziehen. Nach Moosbrugger & Kelava (2012, S. 21) erfüllt ein Test das GütekriteriumGütekriterien der Ökonomie, „wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig finanzielle und zeitliche Ressourcen beansprucht“. Ähnlich definieren Bachman & Palmer (2010, S. 262) PraktikabilitätPraktikabilität (engl. practicality) als die Differenz zwischen verfügbaren Ressourcen und notwendigen Ressourcen. Unter dem Gesichtspunkt der PraktikabilitätPraktikabilität/Ökonomie wird man z.B. bei einer eher informellen ÜberprüfungEvaluationinformell von Schreibkompetenzen nicht für jeden möglichen Punktwert eine detaillierte Kann-Beschreibung formulieren und auch auf eine Bewertung durch eine weitere Lehrkraft verzichten. Es ist allerdings zu bedenken, dass eine Erhöhung der Wirtschaftlichkeit einer Prüfung in vielen Fällen zu einer Verringerung der ValiditätValidität führt. So würde z.B. die indirekte Überprüfung von Schreibkompetenzen anhand von Multiple-Choice-AufgabenAufgaben zu GrammatikGrammatik und LexikLexik die für die Durchführung und Bewertung notwendigen Ressourcen reduzieren. Zugleich wäre damit jedoch eine deutliche Einschränkung der AuthentizitätAuthentizität, AugenscheingültigkeitValiditätAugenscheinvalidität und KonstruktvaliditätValiditätKonstruktvalidität der Prüfung sowie die Gefahr einer negativen RückwirkungRückwirkung verbunden (vgl. die vorangehenden Ausführungen).

4.2.4.5 NützlichkeitNützlichkeit

NützlichkeitNützlichkeit (auch Zweckmäßigkeit; engl. usefulness) gilt für einige Autoren als übergeordnetes GütekriteriumGütekriterien und bestimmt dann den Stellenwert der anderen Kriterien (vgl. z.B. Bachman & Palmer, 1996, 2010 sowie auch Moss, 2016). Vor dem Hintergrund des Kriteriums der NützlichkeitNützlichkeit wird man je nach Zielsetzung einer Prüfung und den zur Verfügung stehenden Ressourcen insbesondere der ValiditätValidität, ReliabilitätReliabilität, AuthentizitätAuthentizität und dem Washback-Effekt ein jeweils unterschiedliches Gewicht geben. So wird man für einen informellen TestEvaluationinformell der Schreibkompetenz im Unterrichtskontext die ReliabilitätReliabilität eher geringer gewichten. Dagegen ist es bei einem Vergleich größerer Bildungseinheiten, wie etwa im Fall der vom IQBIQB durchgeführten Bildungstrend-Studien (ehemals LändervergleicheLändervergleich/Bildungstrend) oder auch bei einer Prüfung, deren Ausgang für die Testteilnehmenden mit gravierenden Konsequenzen verbunden ist, nicht akzeptabel, wenn z.B. eine Erhöhung der AuthentizitätAuthentizität zugleich zu einer massiven Verringerung der ReliabilitätReliabilität führt.

4.2.4.6 TransparenzTransparenz

Schließlich wird zunehmend auch TransparenzTransparenz als GütekriteriumGütekriterien genannt. TransparenzTransparenz bedeutet im schulischen Kontext u.a., dass den Lernenden die Testdurchführungsmodalitäten, AufgabenformateAufgabenformate, BewertungskriterienBeurteilungskriterien und Leistungserwartungen hinreichend vertraut sein sollten und dass das gewählte Vorgehen den Lernenden gegenüber auch begründet werden sollte (vgl. auch Kapitel 6). Außerdem sollte eine Rückmeldung zu den Leistungen in einer Form erfolgen, die für die Schülerinnen und Schüler nachvollziehbar ist (vgl. auch Kapitel 9).

4.2.4.7 SchwierigkeitSchwierigkeit/Leichtigkeit

Auch die SchwierigkeitSchwierigkeit bzw. Leichtigkeit einer Aufgabe oder auch der gesamten Prüfung ist ein wichtiges Qualitätsmerkmal. Die SchwierigkeitSchwierigkeit ist dabei zum einen im Hinblick auf die Messgenauigkeit von Schreibprüfungen und insbesondere im Hinblick auf die Passung von Personenfähigkeit und AufgabenschwierigkeitAufgabenschwierigkeit zu betrachten. Wenn z.B. die Überprüfung von Schreibkompetenzen auf dem NiveauNiveaustufe B1 intendiert ist, die Lösung der Aufgabe aber lediglich Kompetenzen auf dem NiveauNiveaustufe A1 verlangt – wie z.B. das Ausfüllen eines einfachen Formulars mit Fragen zur Person (Alter, Schulform usw.) –, dann können die Prüflinge mit ihren Schreibprodukten nicht zeigen, dass sie auch über Fähigkeiten verfügen, die über das NiveauNiveaustufe A1 hinausgehen (vgl. auch Kapitel 6 sowie die Ausführungen zu Unilevel- und Multilevel-AufgabenAufgaben in den Kapiteln 5, 6 und 7).

Weiterhin ist die SchwierigkeitSchwierigkeit im Zusammenhang mit der KonstruktvaliditätValiditätKonstruktvalidität zu sehen. Unterscheiden sich die Testteilnehmenden z.B. deutlich in ihrem thematischen Wissen im Hinblick auf die zu bearbeitende Schreibaufgabe und ist dieses Wissen nicht Teil des TestkonstruktsTestkonstrukt (vgl. Kapitel 5), dann kann dies zu einer konstruktirrelevanten Erhöhung der SchwierigkeitSchwierigkeit bzw. Leichtigkeit der Aufgabe für die betroffenen Testteilnehmenden und damit zugleich zu einer Beeinträchtigung der FairnessFairness führen (vgl. zur Konstruktrelevanz von SchwierigkeitSchwierigkeit bzw. Leichtigkeit Bühner, 2011, S. 66f.). Es ist deshalb bei der Erstellung von TestaufgabenAufgabenTestaufgaben stets zu überlegen, inwieweit das ThemaThemen möglicherweise bestimmte Lernende benachteiligt.

Auch die BewertungskriterienBeurteilungskriterien müssen natürlich in ihrer SchwierigkeitSchwierigkeit dem jeweiligen KompetenzniveauKompetenzniveau der Gruppe entsprechen. Wenn z.B. die Testteilnehmenden ein Kriterium fast alle erfüllen, dann erlaubt es dieses Kriterium nicht, messgenau zwischen den Schreibleistungen der Teilnehmenden zu differenzieren. Ist allerdings in erster Linie eine kriteriale Evaluation z.B. anhand eines lernzielorientierten Tests intendiert (vgl. Kapitel 3.2.1 und 6.3), darf ein Kriterium auch von allen Testteilnehmenden erfüllt sein. Die durchgängige Erfüllung würde dann lediglich bedeuten, dass alle Testteilnehmenden das entsprechende Lernziel erreicht haben.

Schließlich müssen die Bewertenden die Kriterien natürlich auch im intendierten Sinne interpretieren. Das heißt u.a., dass die Beurteilenden keine Tendenz zu einer unangemessenen Strenge oder Milde zeigen dürfen.

Insgesamt gilt, dass die SchwierigkeitSchwierigkeit einer Schreibaufgabe für einen bestimmten Testteilnehmenden über die Schreibkompetenz hinaus in komplexer Weise von Merkmalen der Aufgabe (unter Einschluss u.a. der Instruktion, der Kontextualisierung sowie der Zeit- und Umfangsvorgaben), von Merkmalen der Bewertungsskala (z.B. Gewichtung der sprachlichen Korrektheit) sowie von Eigenschaften der jeweiligen Beurteilenden abhängt (vgl. auch die Ausführungen zum GütekriteriumGütekriterien der ReliabilitätReliabilität in Kapitel 4.2.2). Wir werden auf diesen Aspekt noch genauer in den Kapiteln 5 bis 8 des Studienbuches eingehen.