Вітаємо на сайті Радіо Максимум!

На вказану електронну адресу було надіслано повідомлення для підтвердження реєстрації

Форма для відновлення паролю
Вітаємо, Ваші дані успішно оновлено!

Chat GPT-4o навчили значно краще генерувати зображення: результати вражають

  • 232

Випущений близько року тому, GPT-4o від OpenAI був вдосконалений і доповнений новими функціями. Останньою з них є генерація зображень.

ШІ-модель може генерувати високоякісні, деталізовані зображення і може слідувати вашим інструкціям природною мовою, змінюючи їх, поки ви не отримаєте саме те зображення, яке ви уявляли собі в голові, пише GSMArena.

Читайте також: Google оголосив про закриття одного зі своїх застосунків

Ви знаєте, як старі моделі ШІ боролися з текстом – якщо ви попросите їх згенерувати вивіску, в кращому випадку ви отримаєте вивіску з нерозбірливими словами, в гіршому – закарлючки, які навіть не є буквами. Але подивіться на це:

Генерація зображення зазвичай починається з введення текстової підказки, а потім ви вдосконалюєте зображення, уточнюючи початкову підказку. GPT-4o працює інакше – ви запитуєте у нього зображення, потім вказуєте, що змінити, потім запитуєте, що ще змінити і так далі, доки не отримаєте потрібний результат. Ось кілька прикладів:

Зауважте, що OpenAI трохи перебрала – багато зображень є "кращими з 2" або навіть "кращими з 8", тому моделі знадобилося кілька спроб, щоб зробити все правильно. З усім тим, результати виглядають досить вражаюче, а інтерфейс максимально простий.

Ось ще один приклад. GPT-4o може почати з нуля або змінити зображення, яке ви йому надали. Тут користувач дає йому фотографію кота і просить ШІ надати йому детективний капелюх і монокль. Потім користувач продовжує вдосконалювати зображення, перетворюючи його на щось, що може бути скриншотом з рольової гри.

Можна також почати з декількох зображень і інтегрувати елементи з кожного з них у кінцевий результат. OpenAI стверджує, що GPT-4o чудово виконує детальні інструкції – він може маніпулювати 10 – 20 різними об'єктами в сцені, не заплутуючись (інші моделі ШІ можуть працювати лише з 5 – 8 об'єктами, кажуть у компанії).

GPT-4o не ідеальний, і OpenAI першим визнає це. Іноді він обрізає зображення внизу, галюцинації все ще залишаються проблемою, робота з більш ніж 10 – 20 об'єктами може бути складною, рендеринг тексту з нелатинськими символами також потребує доопрацювання і багато іншого.

Звернімо увагу, що спочатку функціонал буде доступним у платній версії. Згодом він з'явиться у безплатній. Але коли це буде – невідомо.

Це цікаво: ШІ від Microsoft: застосунок Copilot тепер доступний для Mac

А ви користуєтесь Chat GPT? Розкажіть у коментарях, як він допомагає вам у житті.



пропозиції партнерів
Новини