OpenAI представила «найрозумніший ШІ у світі»: на 88% наздогнав людину

В останній день акції Shipmas, в рамках якої було обіцяно протягом 12 днів показувати, анонсувати та розповідати про нові ШІ-функції, компанія OpenAI представила кілька великих мовних моделей нового покоління o3 та o3-mini, які мають здатність розмірковувати.

OpenAI зазначає, що не йдеться про випуск нових мовних моделей сьогодні. Компанія пояснила, що навчання цих нейромереж ще не завершено і остаточний результат навчання може відрізнятися від того, про що вона говорить сьогодні. У той же час OpenAI приймає заявки дослідницької спільноти на тестування цих моделей перед їх публічним випуском. Компанія ще не вирішила, коли це станеться.

У вересні цього року OpenAI запустила ШІ-модель, яка «розмірковує» o1 (кодова назва Strawberry). Рішення назвати нові моделі o3 пов’язане з тим, що таким чином компанія вирішила уникнути плутанини (або конфліктів товарних знаків) із британською телекомунікаційною компанією O2.

Термін «розмірковуюча модель ШІ» останнім часом став дуже модним у середовищі розробки технологій штучного інтелекту та машинного навчання. Однак, по суті, він означає лише те, що для вирішення цього питання машина розбиває задані інструкції на дрібніші завдання. Це зрештою дозволяє досягти від неї більш точного результату. «Розмірковуюча» модель ШІ найчастіше показують весь процес рішення і те, як ШІ прийшов до тієї чи іншої відповіді, а не просто дають остаточну відповідь без пояснення.

Як стверджує OpenAI, її нова модель o3 перевершує попередні рекорди продуктивності в усіх напрямках. В рамках тесту ARC-AGI, який був спеціально створений для порівняння можливостей штучного інтелекту з інтелектом людини, модель o3 більш ніж утричі перевершила можливості o1, продемонструвавши результат у 88%.

Результат моделі o3

Нова модель також швидше за попередника в написанні коду (тест SWE-Bench Verified) на 22,8% і навіть перевершила провідного вченого OpenAI у спортивному програмуванні.

Модель o3 майже впоралася з одним із найскладніших математичних тестів, AIME 2024, пропустивши в ньому лише одне питання, а також набрала в бенчмарку GPQA Diamond 87,7% – значно більше ніж будь-який результат людини-експерта.

У найскладніших математичних та логічних тестах, які зазвичай ставлять у глухий кут будь-які інші ШІ, o3 вирішила 25,2 відсотка завдань — результати інших моделей не перевищують і двох відсотків.

Вагомою перевагою o3, як і o1, є можливість моделей «міркувати» та ефективно перевіряти свої ж факти, щоб уникати різноманітних помилок і галюцинацій. Щоправда, розробники з OpenAI заявили, що процес перевірки фактів перед видачею відповіді призводить до невеликої затримки – від кількох секунд до кількох хвилин (залежить від складності питання). Крім того, затримка пов’язана з тим, що модель визначає, чи відповідає запит користувача щодо політики безпеки OpenAI. Компанія стверджує, що при тестуванні нового алгоритму захисту на o1 вона набагато краще дотримувалася правил безпеки, ніж попередні моделі, включаючи GPT-4.

І все ж, як зазначають журналісти TechCrunch, основним недоліком моделей, що «розмірковують», є те, що для їх роботи потрібно набагато більше обчислювальних потужностей, тому в результаті їх використання обходиться значно дорожче за «звичайні» рішення.

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

введіть свій коментар!

введіть тут своє ім'я

ви ввели неправильну адресу електронної пошти!

введіть тут свою адресу електронної пошти

OpenAI представила «найрозумніший ШІ у світі»: на 88% наздогнав людину

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Стрічка новин

Grok від Ілона Маска став проукраїнським: як ШІ бореться з російською пропагандою

Starlink Direct to Cell: як супутниковий зв’язок для смартфонів змінить життя українців

WhatsApp додає транскрипцію голосових повідомлень: як це працюватиме для українців

Які зміни для українців «Київстар» готує в серпні 2025 року

Фахівці назвали смартфони з найкращими камерами в цьому році

Оновлено список смартфонів, які не отримають HyperOS 2.0

Windows 11 обійшла Windows 10: що нового в оновленні 2025

Як захистити смартфон від хакерів у 2025 році

Як прискорити застарілий смартфон за 5 хвилин

Як швидко звільнити пам’ять в Android-смартфонах і iOS

Названо смартфони з найкращою автономністю: для перегляду відео, веб-сторінок і соціальних мереж

Як відключивши одну функцію збільшити автономність смартфону

Представлено новий лазерний проектор Xiaomi: 4K, 1000 люменів та звук Hi-Fi

Тест продуктивності Samsung Galaxy S25 FE: новий «король» серед бюджетних флагманів

Фахівець розповів, які смартфони мають найкращу автономність в іграх

Актуально:

Grok від Ілона Маска став проукраїнським: як ШІ бореться з російською пропагандою

WhatsApp додає транскрипцію голосових повідомлень: як це працюватиме для українців

Які зміни для українців «Київстар» готує в серпні 2025 року

Підпишись: