ChatGPT та інші популярні моделі ШІ не впоралися з українським ЗНО: скільки балів набрали нейромережі
Getty Images
Українські вчені розробили ZNOVision – перший багатоформатний тест для штучного інтелекту, який перевіряє знання з 13 предметів ЗНО українською мовою.
Підпишіться на канал Gloss.ua у Telegram.
Результати показали: навіть найпотужніші моделі, такі як GPT4o чи Claude 3.5, не здали б українське ЗНО.
ZNOVision складається з більш ніж 4300 завдань, розділених на 13 категорій: від фізики та математики до історії та літератури. Більше половини містять візуальний компонент — схеми, діаграми, карти, малюнки. Частина запитань потребує логічного висновку, інша — точної інтерпретації інструкцій українською мовою.
До тестування залучили шість основних моделей: GPT4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Qwen2VL72B, Paligemma3B, а також донавчену версію PaligemmaFT.
Жодна з моделей не набрала 70% правильних відповідей. Найкращий результат - 67,5% - у Gemini Pro. Claude 3.5 - 64,3%, Qwen2VL - 51,2%, GPT4o - 47%. Для порівняння випадковий вибір дав би ≈ 22%.
Помилки найчастіше траплялися у складних візуально-текстових задачах: моделі не розпізнавали українські слова на зображеннях, плутали одиниці виміру, ігнорували частину формулювання. У наборі VQAUA (візуальні питання) моделі дали: Claude – 26,7%, GPT4o – 29%, Qwen2VL – 34,4%. Це значно нижче за англомовні результати (> 60%) і свідчить про відсутність підтримки української мови на рівні мультимодальних уявлень.
Читай також
У США запустили відеочат з Ісусом Христом на базі ШІ за $1,99 за хвилину (фото)
Духовні поради та підтримка
Meta створює ШІ-клон Марка Цукерберга для спілкування зі співробітниками компанії
3D-модель замінить реального керівника
Видання The New York Times назвало можливого творця біткоїну
Його особистість вважається однією з найважливіших таємниць
Витрата палива до 5 літрів на сотню: 10 економних сімейних авто в Україні (фото)
Актуально за нинішніх умов
Україна створює свій чат GPT: у Мінцифри оприлюднили назву української мовної моделі ШІ
Голосування проходило в «Дії»
Італія тестуватиме новий "купол" ППО Michelangelo в умовах реальної війни в Україні
Як працює система
Apple готує презентацію щонайменше п'яти нових продуктів, включаючи iPhone, наступного тижня
Очікується бюджетний MacBook
У Китаї показали людиноподібного робота Moya: тепла шкіра, зоровий контакт та інші функції
Робот створювався для максимальної схожості з людьми
Apple інтегрує штучний інтелект Gemini у персонального помічника Siri за $1 млрд на рік
Новий альянс на ринку ШІ