ChatGPT та інші популярні моделі ШІ не впоралися з українським ЗНО: скільки балів набрали нейромережі

Getty Images

Українські вчені розробили ZNOVision – перший багатоформатний тест для штучного інтелекту, який перевіряє знання з 13 предметів ЗНО українською мовою.

Підпишіться на канал Gloss.ua у Telegram.

Результати показали: навіть найпотужніші моделі, такі як GPT4o чи Claude 3.5, не здали б українське ЗНО.

ZNOVision складається з більш ніж 4300 завдань, розділених на 13 категорій: від фізики та математики до історії та літератури. Більше половини містять візуальний компонент — схеми, діаграми, карти, малюнки. Частина запитань потребує логічного висновку, інша — точної інтерпретації інструкцій українською мовою.

До тестування залучили шість основних моделей: GPT4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Qwen2VL72B, Paligemma3B, а також донавчену версію PaligemmaFT.

Жодна з моделей не набрала 70% правильних відповідей. Найкращий результат - 67,5% - у Gemini Pro. Claude 3.5 - 64,3%, Qwen2VL - 51,2%, GPT4o - 47%. Для порівняння випадковий вибір дав би ≈ 22%.

Помилки найчастіше траплялися у складних візуально-текстових задачах: моделі не розпізнавали українські слова на зображеннях, плутали одиниці виміру, ігнорували частину формулювання. У наборі VQAUA (візуальні питання) моделі дали: Claude – 26,7%, GPT4o – 29%, Qwen2VL – 34,4%. Це значно нижче за англомовні результати (> 60%) і свідчить про відсутність підтримки української мови на рівні мультимодальних уявлень.

Читай також

Google випустила нейромережу Nano Banana Pro: згенеровані зображення не відрізняються від фото

Реалістичність вражає

Кінець епохи: Ford Focus зняли з виробництва після 27 років на ринку (фото)

Популярна в Україні модель

Експерти підрахували справжню собівартість iPhone 17 Pro Max, який продають за 1200 доларів

В Україні ціна сягає 100 тисяч гривень

Вміє мити посуд та прибирати: у США стартували продажі домашнього робота NEO (відео)

Помічник по дому з безліччю функцій

Понад 1 мільйон користувачів щотижня діляться з ChatGPT думками про суїцид

Моторошна статистика

Водій згорів живцем в електрокарі Xiaomi: розумна система заблокувала двері (відео)

Акції компанії обвалилися на 8,7%

Meta представила розумні окуляри Ray-Ban Display: ШІ-функції, екран у лінзі і сенсорний браслет (відео)

Вражаючі характеристики

Презентація Apple 2025: які оновлення та характеристики отримали iPhone 17, Apple Watch та AirPods Pro 3 (фото)

Всі головні новинки Apple 2025 та ціни на них

OpenAI почне передавати листування з ChatGPT до поліції, якщо виявить загрозу

Які теми можуть закінчитися дзвінком із поліції

У мережі показали кадри пусків української крилатої ракети "Фламінго": що відомо (відео)

«Це найуспішніша ракета, яка в нас є»