ChatGPT та інші популярні моделі ШІ не впоралися з українським ЗНО: скільки балів набрали нейромережі
Getty Images
Українські вчені розробили ZNOVision – перший багатоформатний тест для штучного інтелекту, який перевіряє знання з 13 предметів ЗНО українською мовою.
Підпишіться на канал Gloss.ua у Telegram.
Результати показали: навіть найпотужніші моделі, такі як GPT4o чи Claude 3.5, не здали б українське ЗНО.
ZNOVision складається з більш ніж 4300 завдань, розділених на 13 категорій: від фізики та математики до історії та літератури. Більше половини містять візуальний компонент — схеми, діаграми, карти, малюнки. Частина запитань потребує логічного висновку, інша — точної інтерпретації інструкцій українською мовою.
До тестування залучили шість основних моделей: GPT4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Qwen2VL72B, Paligemma3B, а також донавчену версію PaligemmaFT.
Жодна з моделей не набрала 70% правильних відповідей. Найкращий результат - 67,5% - у Gemini Pro. Claude 3.5 - 64,3%, Qwen2VL - 51,2%, GPT4o - 47%. Для порівняння випадковий вибір дав би ≈ 22%.
Помилки найчастіше траплялися у складних візуально-текстових задачах: моделі не розпізнавали українські слова на зображеннях, плутали одиниці виміру, ігнорували частину формулювання. У наборі VQAUA (візуальні питання) моделі дали: Claude – 26,7%, GPT4o – 29%, Qwen2VL – 34,4%. Це значно нижче за англомовні результати (> 60%) і свідчить про відсутність підтримки української мови на рівні мультимодальних уявлень.
Читай також
Google випустила нейромережу Nano Banana Pro: згенеровані зображення не відрізняються від фото
Реалістичність вражає
Кінець епохи: Ford Focus зняли з виробництва після 27 років на ринку (фото)
Популярна в Україні модель
Експерти підрахували справжню собівартість iPhone 17 Pro Max, який продають за 1200 доларів
В Україні ціна сягає 100 тисяч гривень
Вміє мити посуд та прибирати: у США стартували продажі домашнього робота NEO (відео)
Помічник по дому з безліччю функцій
Водій згорів живцем в електрокарі Xiaomi: розумна система заблокувала двері (відео)
Акції компанії обвалилися на 8,7%
Meta представила розумні окуляри Ray-Ban Display: ШІ-функції, екран у лінзі і сенсорний браслет (відео)
Вражаючі характеристики
Презентація Apple 2025: які оновлення та характеристики отримали iPhone 17, Apple Watch та AirPods Pro 3 (фото)
Всі головні новинки Apple 2025 та ціни на них
OpenAI почне передавати листування з ChatGPT до поліції, якщо виявить загрозу
Які теми можуть закінчитися дзвінком із поліції
У мережі показали кадри пусків української крилатої ракети "Фламінго": що відомо (відео)
«Це найуспішніша ракета, яка в нас є»