Ce ne dezvăluie rapoartele Centrului Național de Evaluare și rezultatele testărilor naționale din 2018?

Evaluările de la clasele a II-a, a IV-a și a VI-a 2018 sunt analizate de la concepție, până la administrarea, interpretarea și prezentarea rezultatelor de către Dragoș Iliescu, fondatorul BRIO, expertul în măsurare educațională și colaborator OCDE la o parte dintre testările standardizate, inclusiv PISA. Analiza a fost realizată pentru site-ul edupedu.ro.

Edupedu.ro a obținut rapoartele Centrului Național de Evaluare din subordinea Ministerului, cu rezultatele elevilor la testările din 2018. Care este nivelul mediu al elevilor, la care trebuie să se raporteze profesorii și părinții? Contactat de Edupedu.ro, Dragoș Iliescu – vicepreședintele Comisiei Internaționale de Testare arată, în analiza făcută pentru Edupedu.ro, că testele nu au fost egale ca dificultate, pe cele două numere pe care au fost administrate în fiecare clasă. La clasa a II-a nu a existat niciun exercițiu foarte dificil, pentru identificarea numărului de elevi din zona de excelență. Nu există cerințe comune cu testele din alți ani, deci nu ”știm dacă există progres sau regres în competențele măsurate ale populației școlare”.

Experții de la Centrul Național de Evaluare și Examinare (CNEE, instituția din subordinea Ministerului Educației care face subiectele și rapoartele cu rezultatele – n.red.) au prezentat doar rezultatele pe fiecare dintre cerințe, dar ”nimic cu privire la scorurile totale”. ”Din acest motiv, nu putem estima care sunt procentele de populație școlară care performează la un anumit nivel”, spune Dragoș Iliescu.

Este gradul de dificultate a itemilor reprezentativ pentru testare? Se pot baza părinții pe notele de la evaluări drept indicator obiectiv al progresului copiilor lor? Sunt pregătiți elevii pentru examenul de clasa a VIII-a?

”Pentru început, câteva comentarii despre teste, așa cum arată ele din date (nu mă voi referi la conținutul itemilor). De ce încep cu asta: orice concluzie am trage, ea este dependentă de calitatea instrumentului de măsurare.

În primul rând, pot spune că datele legate de itemi, așa cum sunt ele prezentate, arată teste rezonabil de bune și probabil adecvate scopului pentru care au fost dezvoltate. Fără a vedea date item-metrice și test-metrice mai aprofundate (sau fără a avea acces la date pentru a face propriile analize) nu pot face alte comentarii, dar nu văd nici o problemă flagrantă reflectată de date. Dacă ar fi totuși să aduc oareșice critici, aș putea spune că:

Variantele 1 și 2 de test sunt în mod evident non-echivalente ca dificultate; uneori acest lucru este foarte strident, precum în cazul clasei a IV-a.

Asigurarea echivalenței formelor multiple e un lucru care se face înainte ca testele să fie administrate. De regulă, e considerată o practică sub-optimă dezvoltarea unor teste cu forme paralele și administrarea lor fără a asigura echivalența lor. Evident, faptul că formele 1 și 2 sunt forme paralele nu se clamează, ci se probează cu mijloace științifice, înainte de a administra testele și a trage concluzii pe marginea lor.

În plus, pentru a genera forme paralele cu adevărat echivalente e nevoie de ceva efort și de ceva resurse – e posibil ca CNEE să nu fi avut la dispoziție aceste resurse. Totuși, în acest context, aș prefera oricând să dau același test peste tot, cu toate riscurile atrase de asta, decât să dau teste care nu sunt echivalente sau echivalabile (și nu am văzut în nici un raport referiri la linking/equating pentru aceste forme).

Dificultatea itemilor în interiorul testului este rezonabil de bine distribuită. Totuși, sunt componente (de ex. la clasa a II-a) unde nu există decât itemi simpli și foarte simpli.

Dacă vă uitați la dificultățile itemilor, fiecare dintre ei a fost rezolvat de cel puțin 40% din populația școlară. Știm că una din problemele majore în educație apare la gimnaziu și că punctăm mai bine la clasele elementare; există destule explicații pentru asta și fenomenul e documentat. Dar cred că, dincolo de acest fenomen, ce observăm în date se datorează și felului în care a fost proiectat testul și au fost redactați itemii lui.

Itemi simpli sunt destui, cred că asta ajută în identificarea zonelor de decalaj masiv. Cred că ar fi fost bine să existe și (măcar) un item foarte dificil: cu o dificultate plasată în intervalul de 90-95% (mă rog, rezolvare corectă în zona de doar 5-10%); ar fi ajutat la identificarea volumelor din populația școlară care se plasează în zona de excelență.

Apreciez însă mult faptul că se lucrează pe baza unor cadre de evaluare explicite: itemii sunt generați pentru a acoperi în mod clar anumite domenii, pe baza unei distribuții propuse etc etc. Asta este bună practică.

Ce concluzii putem trage din rezultatele propriu-zise ale testărilor naționale?

Acum despre concluziile pe care le putem trage… aș spune pentru început că nu putem trage multe concluzii spumoase din mai multe motive.

În primul rând, din păcate nu avem itemi-ancoră care să fie comuni cu testele din alți ani și nici un altfel de efort de echivalare (equating sau linking) și din acest motiv nu știm dacă există progres sau regres în competențele măsurate ale populației școlare.

Să comparăm pur și simplu datele de anul acesta cu datele de anul trecut nu ne duce nicăieri, pentru că nu știm deloc dacă dificultatea testului este diferită. Dacă testul de anul acesta este chiar și numai un pic mai dificil sau mai ușor decât testul de anul trecut, ele nu mai sunt comparabile. Aș fi vrut de aceea să văd câteva analize în text privind evoluția dificultății acestor teste (din acest an, comparativ cu anul trecut sau anii trecuți) și aș fi vrut să văd o discuție despre comparabilitatea rezultatelor. Ideal ar fi fost ca toate corecțiile care să permită compararea să fi fost deja realizate de CNEE.

În al doilea rând, nu avem o ancorare a acestor teste cu măsurările educaționale comparative internaționale.

Veștile proaste date de aceste măsurători internaționale (țineți minte, 40% din populația școlară analfabeți funcționali) nu pot fi verificate și eventualele evoluții nu pot fi observate, decât dacă legăm evaluările naționale de acele evaluări internaționale. Sigur, veți spune, evaluările internaționale nu se fac pentru clasele a II-a și a VI-a; da, dar atât PIRLS (limba), cât și TIMSS (matematică și științe) se realizează și pentru clasa a IV-a. O legare de aceste evaluări ar fi benefică și metoda prin care se poate face acest lucru e foarte simplă.

În al treilea rând, noi nu avem în aceste rapoarte referiri la scorurile totale.

Avem destul de multe analize pe itemi, da. Dar nimic cu privire la scorurile totale, măcar pe componente ale testelor (componentele prescrise de cadrul de evaluare). Din acest motiv, nu putem estima care sunt procentele de populație școlară care performează la un anumit nivel; comparațiile între diverse grupuri se pot face la nivel de item, dar se fac de obicei la nivel de scoruri agregate și exact acest lucru nu poate fi făcut pe baza informațiilor din aceste rapoarte.

În al patrulea rând, în aceste rapoarte nu avem de fapt analize, cu o singură excepție.

Excepția este raportul de matematică și științe pentru clasa a VI-a. Este posibil ca acei colegi care au realizat această analiză să fi fost ei înșiși mai curioși sau poate ei înșiși sunt profesori de matematică și științe și deci mai înclinați spre a descoperi patternuri în date. Dar într-adevar acest raport oferă unele analize, cum ar fi comparații cu alți ani pe scoruri medii, procente de școlari care au rezolvat complet cerințele anumitor competențe, comparații rural-urban, legături ale rezultatelor la Evaluarea Națională pe diferite județe cu câștigul salarial mediu pe acele județe și așa mai departe. Deși după părerea mea nu suficient de acoperitor, ce arată acest raport (nu și celelalte) este un semn de bună practică: de așa ceva e nevoie într-un raport național.

Nu ne ajută cu nimic să știm procente de populație școlară care rezolvă corect un item sau altul, într-un județ sau altul. E o constatare, dar nu una care să extragă o concluzie utilizabilă și în mod cert nu una care să contribuie la dezvoltarea unor intervenții educaționale sau, mai mult, a unor politici.

În acest context, aș vrea să remarc faptul că nu există unitate în raportare.

Deși toate aceste rapoarte au fost emise de aceeași instituție la practic același moment în timp, fiecare raport arată altfel, este formatat altfel, are parțial altă structură și alt conținut. Rapoartele reflectă prea mult personalitatea, interesele, poate abilitățile celor care au lucrat la ele.

O instituție precum CNEE ar trebui să aibă un standard de raportare, care să se reflecte în toate aceste rapoarte – și care, cel mai important, să ghideze proprii specialiști privind ce anume să introducă în rapoarte. Iar acel standard de raportare ar trebui să fie generat pe baza misiunii instituției și a intenției explicit formulate pentru raportul respectiv.

Asta ne duce la hiba cea mai mare a acestor rapoarte, pe care o remarc aici, la final:

Anume, faptul că nu este clar pentru ce sunt făcute. Sau, mai degrabă, este clar că nu sunt făcute cu un scop explicit în minte.

Eu cred că aceste evaluări au menirea de a arăta, ca să supra-simplific, “ce anume merge și ce nu”, comparând nivelul actual cu nivelul anterior (deci ar trebui să surprindă evoluția) și explicând care sunt diferențele între diferitele segmente de populație (de ex. din diverse județe, de diferite genuri, de diferite etnii, locuind în zona urbană sau cea rurală, provenind din familii mai avute sau mai sărace, din familii monoparentale sau nu, cu părinții plecați din țară sau nu etc.), cu scopul de a observa disparități, de a identifica și celebra și multiplica succesul și de combate insuccesul etc. etc.

Nici unul din aceste rapoarte nu ajută la așa ceva – nu ajută la fundamentarea unor politici publice în domeniul educației, pentru că nu oferă răspunsuri la nici una din aceste întrebări.

Știu că avem colegi competenți în CNEE și cred că instituția ar trebui să impună un standard de raportare care să le permită acestor colegi să ofere acest tip de date către societate. Un astfel de standard de raportare, axat pe răspunsul la întrebările care ne frământă – și care e ascuns acolo în date, fără să fi fost dezgropat până acum – ar arăta că instituția își îmbrățișează cu adevărat misiunea de evaluator național”.

Dragoș Iliescu este psiholog, profesor în cadrul Facultății de Psihologie și Științele Educației la Universitatea București, expert în măsurare psihologică și psihologie organizațională, vicepreședintele Comisiei Internaționale de Testare, colaborator OECD la o parte dintre testările standardizate, fondator al Sistemului de Testare Standardizată BRIO. În 2017, a publicat la editura Cambridge University Press primul tratat despre adaptarea culturală și lingvistică a testelor (https://www.cambridge.org/core/books/adapting-tests-in-linguistic-and-cultural-situations/4ECCEECEAA83D0FD390C329A5A9B14F7?fbclid=IwAR1LZcEYM95wdniKJdTnL7u4_E1wb7agRVsdSllVFBnVASAioKQz53r8nv4)

Sursa: https://www.edupedu.ro/evaluari-sabotate-de-ministerul-educatiei-expertul-in-testare-dragos-iliescu-analiza-dura-a-rapoartelor-de-la-clasele-a-ii-a-a-iv-a-si-a-vi-a-2018/