ChatGPT и другие популярные модели ИИ не справились с украинским ЗНО: сколько баллов набрали нейросети
Getty Images
Украинские ученые разработали ZNOVision – первый многоформатный тест для искусственного интеллекта, проверяющий знания по 13 предметам ВНО на украинском языке.
Подпишитесь на канал Gloss.ua в Telegram.
Результаты показали: даже самые мощные модели, такие как GPT4o или Claude 3.5, не сдали бы украинский ВНО.
ZNOVision состоит из более чем 4300 заданий, разделенных на 13 категорий: от физики и математики до истории и литературы. Более половины из них содержат визуальный компонент — схемы, диаграммы, карты, рисунки. Часть вопросов требует логического вывода, другая — точной интерпретации инструкций на украинском языке.
К тестированию привлекли шесть основных моделей: GPT4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Qwen2VL72B, Paligemma3B, а также дообученную версию PaligemmaFT.
Ни одна из моделей не набрала 70% правильных ответов. Лучший результат — 67,5% — у Gemini Pro. Claude 3.5 — 64,3%, Qwen2VL — 51,2%, GPT4o — 47 %. Для сравнения, случайный выбор дал бы ≈ 22%.
Ошибки чаще всего случались в сложных визуально-текстовых задачах: модели не распознавали украинские слова на изображениях, путали единицы измерения, игнорировали часть формулировки. В наборе VQAUA (визуальные вопросы) модели дали: Claude — 26,7%, GPT4o — 29%, Qwen2VL — 34,4%. Это значительно ниже англоязычных результатов (> 60%) и свидетельствует об отсутствии поддержки украинского языка на уровне мультимодальных представлений.
Читай также
В США запустили видеочат с Иисусом Христом на базе ИИ за $1,99 в минуту (фото)
Духовные советы и поддержка
Meta создает ИИ-клона Марка Цукерберга для общения с сотрудниками компании
3D-модель заменит реального руководителя
Издание The New York Times назвало возможного создателя биткоина
Его личность считается одной из самых важных тайн
Расход топлива до 5 литров на «сотню»: 10 экономных семейных авто в Украине (фото)
Актуально в нынешних условиях
Украина создает свой чат GPT: в Минцифры обнародовали название украинской языковой модели ИИ
Голосование проходило в «Дії»
Италия будет тестировать новый "купол" ПВО Michelangelo в условиях реальной войны в Украине
Как работает система
Apple готовит презентацию как минимум пяти новых продуктов, включая iPhone, на следующей неделе
Ожидается бюджетный MacBook
В Китае показали человекоподобного робота Moya: теплая кожа, зрительный контакт и другие функции
Робот создавался для максимального сходства с людьми
В Украине выставили на продажу двухместный пассажирский дрон: цена и время полета (фото)
По цене авто
Apple интегрирует искусственный интеллект Gemini в персонального помощника Siri за $1 млрд в год
Новый альянс на рынке ИИ