ChatGPT та інші популярні моделі ШІ не впоралися з українським ЗНО: скільки балів набрали нейромережі

Getty Images

Українські вчені розробили ZNOVision – перший багатоформатний тест для штучного інтелекту, який перевіряє знання з 13 предметів ЗНО українською мовою.

Підпишіться на канал Gloss.ua у Telegram.

Результати показали: навіть найпотужніші моделі, такі як GPT4o чи Claude 3.5, не здали б українське ЗНО.

ZNOVision складається з більш ніж 4300 завдань, розділених на 13 категорій: від фізики та математики до історії та літератури. Більше половини містять візуальний компонент — схеми, діаграми, карти, малюнки. Частина запитань потребує логічного висновку, інша — точної інтерпретації інструкцій українською мовою.

До тестування залучили шість основних моделей: GPT4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Qwen2VL72B, Paligemma3B, а також донавчену версію PaligemmaFT.

Жодна з моделей не набрала 70% правильних відповідей. Найкращий результат - 67,5% - у Gemini Pro. Claude 3.5 - 64,3%, Qwen2VL - 51,2%, GPT4o - 47%. Для порівняння випадковий вибір дав би ≈ 22%.

Помилки найчастіше траплялися у складних візуально-текстових задачах: моделі не розпізнавали українські слова на зображеннях, плутали одиниці виміру, ігнорували частину формулювання. У наборі VQAUA (візуальні питання) моделі дали: Claude – 26,7%, GPT4o – 29%, Qwen2VL – 34,4%. Це значно нижче за англомовні результати (> 60%) і свідчить про відсутність підтримки української мови на рівні мультимодальних уявлень.

Читай також

Apple назвала найпопулярніші застосунки та ігри 2025 року для iPhone та iPad

Безкоштовні та платні

Google випустила нейромережу Nano Banana Pro: згенеровані зображення не відрізняються від фото

Реалістичність вражає

Кінець епохи: Ford Focus зняли з виробництва після 27 років на ринку (фото)

Популярна в Україні модель

Експерти підрахували справжню собівартість iPhone 17 Pro Max, який продають за 1200 доларів

В Україні ціна сягає 100 тисяч гривень

Вміє мити посуд та прибирати: у США стартували продажі домашнього робота NEO (відео)

Помічник по дому з безліччю функцій

Понад 1 мільйон користувачів щотижня діляться з ChatGPT думками про суїцид

Моторошна статистика

Водій згорів живцем в електрокарі Xiaomi: розумна система заблокувала двері (відео)

Акції компанії обвалилися на 8,7%

Meta представила розумні окуляри Ray-Ban Display: ШІ-функції, екран у лінзі і сенсорний браслет (відео)

Вражаючі характеристики

Презентація Apple 2025: які оновлення та характеристики отримали iPhone 17, Apple Watch та AirPods Pro 3 (фото)

Всі головні новинки Apple 2025 та ціни на них

OpenAI почне передавати листування з ChatGPT до поліції, якщо виявить загрозу

Які теми можуть закінчитися дзвінком із поліції