ChatGPT та інші популярні моделі ШІ не впоралися з українським ЗНО: скільки балів набрали нейромережі
Українські вчені розробили ZNOVision – перший багатоформатний тест для штучного інтелекту, який перевіряє знання з 13 предметів ЗНО українською мовою.
Підпишіться на канал Gloss.ua у Telegram.
Результати показали: навіть найпотужніші моделі, такі як GPT4o чи Claude 3.5, не здали б українське ЗНО.
ZNOVision складається з більш ніж 4300 завдань, розділених на 13 категорій: від фізики та математики до історії та літератури. Більше половини містять візуальний компонент — схеми, діаграми, карти, малюнки. Частина запитань потребує логічного висновку, інша — точної інтерпретації інструкцій українською мовою.
До тестування залучили шість основних моделей: GPT4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Qwen2VL72B, Paligemma3B, а також донавчену версію PaligemmaFT.
Жодна з моделей не набрала 70% правильних відповідей. Найкращий результат - 67,5% - у Gemini Pro. Claude 3.5 - 64,3%, Qwen2VL - 51,2%, GPT4o - 47%. Для порівняння випадковий вибір дав би ≈ 22%.
Помилки найчастіше траплялися у складних візуально-текстових задачах: моделі не розпізнавали українські слова на зображеннях, плутали одиниці виміру, ігнорували частину формулювання. У наборі VQAUA (візуальні питання) моделі дали: Claude – 26,7%, GPT4o – 29%, Qwen2VL – 34,4%. Це значно нижче за англомовні результати (> 60%) і свідчить про відсутність підтримки української мови на рівні мультимодальних уявлень.
Теги: штучний інтелект , технології , освіта , ЗНО , новини України , світові новини