Науково-методичний журнал - Травень 2012

ГОТУЄМОСЬ ДО ЗНО

ОЦІНЮВАННЯ РЕЗУЛЬТАТІВ ЗНО ЗА ШКАЛОЮ 100-200 

Одним з важливих досягнень демократичного суспільства України в галузі освіти є впровадження зовнішнього незалежного оцінювання (ЗНО). Головне його призначення - забезпечити вступ абітурієнтів до вищих навчальних закладів. Критеріями вступу до ВНЗ є сума балів сертифікатів ЗНО (при цьому враховуються бали сертифікатів ЗНО, отримані в будь-який рік і в будь-яку сесію тестування) та середнього бала атестата. За умовами вступу передбачається дотримання під час організації і проведення тестування принципів об’єктивності оцінювання та порівнюваності результатів ЗНО різних сесій і різних років з кожного предмета ЗНО. Одним із засобів реалізації цих принципів є застосування методу еквіпроцентильної нормалізації для шкалювання тестових балів учасників тестування. Питання доцільності переведення тестових балів у нормальну шкалу оцінок обговорювалося багатьма науковцями (Н. Бобак, М. Челишкова, С. Нікіфоров та ін.), проте вони не прийшли до спільної думки з цього питання і щодо методів, які застосовуються.

Мета статті - довести доцільність переведення тестових балів ЗНО у шкалу 100-200.

Існуюча система шкалювання результатів ЗНО (процедура перетворення тестових балів учасників тестування у шкалу 100-200) складалася упродовж п’яти років експериментування з підготовки системи ЗНО в Україні (з 2002 по 2007 роки). Метою шкалювання результатів ЗНО можна назвати подання результатів тестування в ефективному, зрозумілому і зручному форматі для подальшого їх використання під час вступу учасників тестування до ВНЗ. Шкалювання результатів ЗНО дає змогу перевести бали учасників тестування в єдину універсальну шкалу оцінок 100-200. Важливо зрозуміти, що оцінки учасників тестування не відображають їх реальних досягнень відповідно до програмних вимог з кожного предмета, освітніх стандартів за критеріями їх досягнення. Ці оцінки відображають тільки одне - місце учасника в загальному списку всіх учасників тестування, впорядкованих за набраним тестовим балом.

Бали в шкалі 100-200, порівняно з тестовими балами, мають переваги: вони незалежні від тесту (від довжини і складності тесту та інших характеристик), мають однаковий діапазон змін та однаковий розподіл балів (відсоток кількості учасників тестувань, що набрали не менше від заданих балів, однаковий для будь-яких предметів і сесій тестувань).

Розглянемо ці переваги докладно. Серед основних аргументів на користь переведення тестових балів учасників ЗНО у шкалу 100-200 можна назвати вимогу порівнюваності результатів ЗНО різних сесій. Саме шкала 100-200 забезпечує найбільш простий варіант вирівнювання балів учасників тестування різних сесій тестувань і різних років з одного предмета - їх бали за шкалою 100-200 є еквівалентними. Зазначимо, що ЗНО з кожного предмета проводиться щороку кількома сесіями (основні сесії і додаткова сесія). Усі варіанти тестів для сесій ЗНО готуються за єдиною специфікацією, але всі ці тести різні - вони складаються з різних завдань і, таким чином, один бал (еталон) однієї сесії не дорівнює одному балу (еталону) іншої сесії. Як наслідок, наприклад, 20 балів в одній сесії не дорівнюють 20 балам іншої сесії. Специфікації тестів змінюються щороку, іноді незначною мірою, іноді досить радикально (наприклад, у 2010 р. із тесту ЗНО з математики було вилучено завдання із розгорнутою формою відповіді), що також зумовлює зміну ваги одного тестового бала щороку. Зміст оцінок за шкалою 100-200 різних сесій - однаковий, найсильніші учасники кожної сесії завжди мають оцінку 200, найслабші - оцінку 100, середній результат оцінок з кожного предмета дорівнює 150.

Для уніфікації значення одного тестового бала іноді пропонують уніфікувати базу тестових завдань, щоб пропонувати учасникам тестування набори завдань з цієї бази, які обираються випадковим чином. Такий підхід є дуже небезпечним, оскільки перетворює навчання в школі та підготовку до вступу у ВНЗ у натаскування з розв’язування завдань з цієї бази. Крім того, за умови такого підходу важко забезпечити однаковий рівень складності варіантів і, таким чином, проходження тесту перетворюється певною мірою на лотерею.

Часто подібні проблеми виникають внаслідок використання процентних шкал. Особливо це помітно, коли кінцевим балом учасника тестування вважається відсоток набраних ним тестових балів їх максимальної кількості, оскільки вага одного бала залежить від складності завдань тесту.

Іншою важливою перевагою шкалювання за шкалою 100-200 є уніфікованість розподілу учасників тестування, зокрема відсоток тих, хто отримав не менше заданого бала, є одним і тим самим для всіх сесій тестувань і всіх предметів (зі зрозумілою поправкою на дискретність розподілу). Наприклад, відсоток тих, хто набрав більш як 124 бали, дорівнює приблизно 90, більш як 140 балів - 70 %, більш як 150 - 50 %, більш як 175 - 10 %, більш як 190 - 2 %. Така уніфікованість розподілу учасників є зручним засобом регулювання якості набору для приймальної комісії ВНЗ, встановлення мінімального порога балів для прийому документів. Вищі навчальні заклади із високим конкурсом можуть встановлювати пороги з провідних предметів (наприклад, рівний 175 балам) і, таким чином, відбирати найкращих вступників (учасники ЗНО, які набрали 175 балів і більше, становлять приблизно 10 % усіх учасників тестувань).

Шкалювання результатів ЗНО методом еквіпроцентильної нормалізації для відбору вступників до ВНЗ є обґрунтованим, якщо дотримуються дві вимоги: 1) для тестування використовуються тести, що вимірюють один і той самий конструкт (у випадку тестів ЗНО - рівень навчальних досягнень з певного предмета); 2) вибірки учасників різних сесій тестувань з одного предмета статистично не розрізняються. Перша умова забезпечується діючою системою підготовки тестів ЗНО, що постійно вдосконалюється (зокрема, стабільністю програмних вимог з предметів ЗНО і специфікацій тестів). Друга умова є результатом стабільності системи освіти і умов прийому до ВНЗ (еквівалентність вибірок різних років учасників предметних тестувань), а також рандомізованого ділення учасників тестувань з певного предмета різних сесій тестувань.

Тестові бали доцільно використовувати для вступу до ВНЗ тільки в тому разі, коли вступні іспити проводяться раз на рік, однією сесією і за єдиним тестом, а результати тестувань використовуються для вступу до ВНЗ тільки в поточному році. Нагадаємо, що в Україні за правилами прийому приймальні комісії ВНЗ приймають сертифікати ЗНО, отримані в 2008-2012 рр. Крімтого, кожного року ЗНО з кожного предмета має основну сесію (або сесії) і додаткову. Таким чином, безпосереднє використання тестових балів для вступу до ВНЗ є некоректним.

Узагальнивши наведений матеріал, можна стверджувати, що оцінки за шкалою 100-200 задовольняють очікувані критерії якості, а саме: оцінки за шкалою 100-200 є рейтинговими (учасник, який набрав протягом однієї сесії більше тестових балів, отримує оцінку не нижчу, ніж учасник, який набрав з даного предмета меншу кількість тестових балів), оцінки за шкалою 100-200 є справедливими (учасники, які набрали однакову кількість тестових балів протягом однієї сесії тестування отримують однакову оцінку); розподіл оцінок за шкалою 100-200 є стандартизованим (розподіли оцінок учасників ЗНО з різних предметів тестування, різних сесій тестування, різних років тестування істотно не відрізняються); розподіл оцінок за шкалою 100-200 є наближеним до нормального розподілу (симетричного відносно середнього значення, при якому більшість результатів учасників зосереджується в колі середнього значення, а відсоток учасників, що набирають задану кількість тестових балів, монотонно зменшується в напрямку найменшого і найбільшого тестових балів. Переведення тестових балів учасників в оцінки за шкалою 100-200 виконується автоматично, без втручання людини в цей процес.

Слід звернути увагу на те, що розподіл тестових балів учасників тестування зазвичай не є ні стандартизованим, ні нормальним, діапазон оцінок варіюється від тесту до тесту. Якщо тест був легкий - результати учасників тестування зосереджуватимуться в діяльнці високих балів, тим самим ВНЗ матимуть проблеми з відбором на престижні спеціальності. Якщо тест був складний - результати учасників зосереджуватимуться в діяльнці низьких балів, і ВНЗ матимуть ті самі проблеми з відбором лише на непрестижні спеціальності. При нормальному розподілі результати більшості учасників зосереджуються посередині шкали, тобто зникає проблема відбору на престижні та малопрестижні спеціальності.

Розподіл балів за шкалою 100-200 є близьким щодо розподілу результатів за моделлю сучасної теорії тестів IRT, яка забезпечує наближеність балів за цією шкалою до метричної: одна й та сама різниця балів у будь-якій частині шкали має однаковий зміст - це певною мірою обґрунтовує використання суми балів як критерію вступу до ВНЗ.

Як уже зазначалось, тестові бали учасника тестування переводяться в бали за шкалою 100-200 методом еквіпроцентильної нормалізації. Наводимо кроки алгоритму:

1. Обирається еталонний ідеальний розподіл оцінок учасників тестування: в Україні обрано модифікований нормальний закон N*(100, 200, 150, 20), з середнім значенням M = 150 і середньоквадратичним відхиленням а = 20, який є звуженням нормального закону N(100, 200, 150, 20) на інтервал [100...200]. 

2. Для модифікованого нормального закону N*(100, 200, 150, 20) розраховується таблиця процентилів PN*(t) із кроком 0,01.

3. Для розподілу тестових балів учасників тестування розраховується з точністю 0,01 таблиця процентилів P(s) (s < S, де S - максимальна кількість тестових балів в учасників тестування).

4. Створюється таблиця переведення тестових балів учасників тестування в оцінку за шкалою [100, 200] балів за такою схемою: тестовому балу s ставиться у відповідність число t, якщоP(s)=PN*(t), причому всі округлення виконуються на користь учасників тестування.

5. Учасникам тестування виставляється оцінка за їх тестовим балом відповідно до таблиці переведення тестових балів у шкалу [100, 200] балів.

Таблиця переведення тестових балів даної сесії на бали за шкалою 100-200 розраховується автоматично на основі наведеного алгоритму і публікується на сайті УЦОЯО. Завдяки швидкому оприлюдненню таблиці переведення тестових балів УЦОЯО забезпечує прозорість процедури оцінювання результатів учасників ЗНО. Використання такої таблиці просте і доступне кожному абітурієнтові. Учасник тестування може обчислити свій тестовий бал після того, як на сайті УЦОЯО оприлюднюються правильні відповіді на завдання тесту. Правильне виконання завдання кожної форми оцінюється так: 1 бал - завдання з вибором правильної відповіді, 2 бали - завдання з короткою відповіддю тощо. Обчисливши свій тестовий бал, учасник тестування за таблицею переведення може визначити свою оцінку за шкалою 100-200.

Слід звернути увагу, що хоча зміст оцінок за шкалою 100-200 однаковий для різних предметів і сесій тестування, проте тестові бали, які відповідають однаковим оцінкам за шкалою 100-200, для різних сесій можуть бути різними: наприклад, одній і тій самій оцінці 175 балів ЗНО з математики однієї сесії може відповідати 35 тестових балів, а другої сесії, скажімо, 36 або 33 (це означає, що тест ЗНО з математики другої сесії був відповідно дещо простішим (у випадку 36 балів) або дещо складнішим (у випадку 33 бали), ніж першої сесії.

Розглянемо критику шкалювання результатів ЗНО методом еквіпроцентильної нормалізації:

1. Розподіл оцінок не залежить від рівня підготовки учасників тестування, складності тесту, предмета тестування.

Критики методу вважають, що він суперечить усталеним уявленням, що рівні підготовки учнів, навчаються у школах різних регіонів, які варіюються, тому є несподіваним, що розподіли оцінок для всіх вступників у результаті еквіпроцентильної нормалізації є однаковими (мають однаковий нормальний розподіл N (100, 200, 150, 20). Метод еквіпроцентильної нормалізації для шкалювання результатів ЗНО обирався саме для отримання єдиного розподілу балів на кожній сесії тестування (універсальний розподіл оцінок різних сесій і з різних предметів) по всій країні, оскільки в такому разі не виникає потреби у вирівнюванні результатів різних сесій тестувань з одного предмета: вага оцінки є інваріантною для всіх сесій тестування з одного предмета.

Таким чином, те, що некоректно для двох різних класів, шкіл, районів (рівні досягнень у різних класах, школах, районах різні, а отже, і оцінки тестувань повинні бути різними), є коректним для національних тестувань: популяції будь-яких двох різних сесій з кожного предмета статистистично еквівалентні (це досягається рандомізацією складу учасників різних сесій (формування їх складу випадковим чином). Наприклад, внаслідок рандомізованого поділу популяції учасників ЗНО-2010 з математики (більш як 200 тис. учасників) на дві субпопуляції чисельністю по 100 тис. учасників ці популяції є статистично еквівалентними, тобто всі істотно різні категорії вступників (за ґендерною ознакою, соціальним походженням, місцем проживання, типом ЗНЗ тощо) у частотному відношенні однаково представлені в кожній популяції).

Цілком природно, що учасники різних сесій тестувань, які мають оцінки з однаковими процентильними рангами (це означає, що вони випередили за рейтингом однаковий відсоток учасників тестування), мають зіставні рівні підготовки (оскільки популяції учасників сесій статистично еквівалентні), і тому можна вважати їх рівні підготовки однаковими. Це, у свою чергу, означає, що вони отримають однакові оцінки за шкалою 100200. Зокрема, найсильніші в кожній популяції (ті, що набрали максимальну кількість тестових балів у кожній сесії тестувань) отримають однакову оцінку - 200 балів за шкалою 100-200; найслабші - по 100 балів; ті, що перебувають посередині рейтингу й мають оцінку, яка відповідає 50 процентилю (випередили половину учасників), отримають 150 балів; ті, що мають оцінку, яка відповідає 10 процентилю (випередили 10 % учасників тестування), отримають оцінку 124 бали і т. д.

Незалежність оцінок від рівня підготовки популяції та від складності тесту не раз піддавалася критиці з боку представників загальноосвітньої та вищої школи, які вбачали в цьому бажання МОНмолодьспорту України та УЦОЯО прикрасити реальний стан речей в освіті. Насправді ж цей метод обрано й відпрацьовано завдяки можливості ефективного, технологічного та справедливого використання під час вступу до ВНЗ об’єктивних оцінок, отриманих методом еквіпроцентильної нормалізації, що є зрозумілим і природним з позиції педагогічної практики, відповідає сучасному рівню психометрії, світової практики шкалювання результатів національних вступних тестувань.

2. Складність інтерпретації оцінювання за шкалою 100-200.

Критики методу вважають, що оцінювання за шкалою 100-200 не дає інформації про реальний стан підготовки учасника тестування. На цей аргумент слід зауважити, що оцінка за шкалою 100-200 єрейтинговою й специфіку цієї оцінки докладно обговорено в попередньому пункті. Про якісну інтерпретацію оцінювання (а не кількісну - рейтингову) за шкалою 100-200 не йдеться взагалі, оскільки таке оцінювання не дає інформації про реальний рівень підготовки учасника тестування (тобто на основі оцінювання за шкалою 100-200 не можна робити ніяких висновків щодо рівня знань та вмінь учасника тестування). Оцінка за шкалою 100-200 свідчить виключно про те, яке місце учасник тестування з певною оцінкою посідає в рейтингу абітурієнтів, що складали тест з відповідного предмета. Водночас зрозумілим є природне бажання учасників тестування, їхніх батьків і вчителів, викладачів ВНЗ отримати інформацію про те, які реально знання та вміння відображає конкретна оцінка за шкалою 100-200. Те, що з 2010 р. у сертифікаті, крім оцінки за шкалою 100-200, подається тестовий бал учасника тестування, є кроком у напрямі підвищення інформативності сертифіката ЗНО. Цю практику можна розширити і до інформації в сертифікаті додати процентиль учасника, відсоток набраних балів, відсоток правильно виконаних завдань, матрицю відповідей до завдань тесту, гістограму розподілу тестових балів і місце результату учасника.

3. «Спотворення» тестових балів через нелінійність еквіпроцентильного перетворення.

Критики вважають, що в результаті еквіпроцентильної нормалізації реальні дані про успішність учасників тестування спотворюються. Зазначимо, що метою еквіпроцентильної нормалізації є перетворення тестових балів у бали за шкалою 100-200 таким чином, щоб забезпечити справедливий, ефективний, технологічний, прозорий, зрозумілий, науково обґрунтований, відповідний світовій практиці відбір студентів до ВНЗ на основі ЗНО. Тестові бали треба так перетворити, щоб максимально запобігти недолікам шкали тестових балів як критерію відбору до ВНЗ (залежність кількості тестових балів від сесії тестування - як наслідок залежності оцінок від тесту; підготувати еквівалентні варіанти тестів практично неможливо), а також проведенню складних (методологічно та організаційно) процедур вирівнювання результатів різних сесій, що значно «спотворять» як процедуру шкалювання (зробить її незрозумілою й непрозорою), так і самі результати ЗНО та неінтервальності шкали тестових балів.

Уникнути цих недоліків за допомогою лінійних методів (які ґрунтуються на перетвореннях тестових балів X у бали Y за шкалою 100-200 за формулами виду Y = k(X - M) + C, де k, M, C - деякі константи) неможливо. Тому з відомих методів шкалювання результатів тестувань залишаються два: метод еквіпроцентильної нормалізації та метод IRT. Як показали дослідження, ці методи дають близькі результати. Проте застосування методу IRT має значні обмеження. До нього вдаються з метою шкалювання, як правило, результатів моніторингових досліджень і не використовують для шкалювання результатів тестувань високих ставок, якими є тести ЗНО (що зовсім не заперечує застосування методу IRT на підготовчих етапах тестувань: створення каліброваного банку тестових завдань, підготовка тестів із заданими характеристиками тощо).

У сучасних умовах чинна система ЗНО бажаючих вступати до ВНЗ в Україні з використанням шкали 100-200 дає змогу справедливо, ефективно, технологічно розв’язувати завдання відбору студентів до ВНЗ. Система визначення і шкалювання результатів ЗНО не є бездоганною і потребує постійного вдосконалення, зокрема докладного вивчення питання щодо встановлення порогових балів (124 бали для непрофільного предмета і 140 - для профільного), впровадження вагових коефіцієнтів для різних предметів (централізоване визначення ваги предметів для різних напрямів підготовки або надання права ВНЗ їх встановлювати).

Попередня
Сторінка
Наступна
Сторінка