Хоча штучний інтелект уже давно обганяє людей у швидкості обробки даних і точності обчислень, його логічне мислення, як і раніше, залишає бажати кращого, пише УНІАН.
Новий тест ARC-AG2 наочно демонструє, що навіть найпотужніші моделі ШІ не здатні вирішувати завдання, які для людини здаються елементарними.
ARC-AG2 (Abstraction and Reasoning Corpus) - це серія логічних завдань, де ШІ необхідно визначити закономірність у послідовності різнокольорових квадратів і вибрати правильну відповідь. Такі головоломки неможливо розв'язати методом запам'ятовування, вони вимагають гнучкості мислення, здатності до узагальнення і перенесення знань на нові завдання.
Результати тесту показують, що ШІ поки що не володіє цими навичками:
- Deepseek R1 набрав лише 1,3% правильних відповідей
- Google Gemini і Claude 3.7 Sonnet показали близько 1%,
- GPT-4.5 від OpenAI впорався ще гірше - 0,8%.
Розробники ARC-AG2 навмисно зробили завдання складними для штучного інтелекту, але простими для людини. На відміну від традиційних тестів, де ШІ може спиратися на величезні бази даних, тут йому доводиться адаптуватися до нової інформації на ходу - і це його слабке місце.
Попередню версію тесту, ARC-AG1, було створено у 2019 році, і вона залишалася нерозв'язною для ШІ протягом чотирьох років. Якщо нова версія виявиться настільки ж складною, це може значно уповільнити прогрес у розробці штучного загального інтелекту (AGI).
Чому ви можете довіряти vesti-ua.net →
Читайте vesti-ua.net в Google News