Вітаємо на сайті Радіо Максимум!

На вказану електронну адресу було надіслано повідомлення для підтвердження реєстрації

Вітаємо, Ваші дані успішно оновлено!

Chat GPT-4o навчили значно краще генерувати зображення: результати вражають

27.03.2025, 16:11
918

Chat GPT-4o генерує круті зображення - фото 1

Chat GPT-4o генерує круті зображення / wayhomestudio

Випущений близько року тому, GPT-4o від OpenAI був вдосконалений і доповнений новими функціями. Останньою з них є генерація зображень.

ШІ-модель може генерувати високоякісні, деталізовані зображення і може слідувати вашим інструкціям природною мовою, змінюючи їх, поки ви не отримаєте саме те зображення, яке ви уявляли собі в голові, пише GSMArena.

Читайте також: Google оголосив про закриття одного зі своїх застосунків

Ви знаєте, як старі моделі ШІ боролися з текстом – якщо ви попросите їх згенерувати вивіску, в кращому випадку ви отримаєте вивіску з нерозбірливими словами, в гіршому – закарлючки, які навіть не є буквами. Але подивіться на це:

Генерація зображення зазвичай починається з введення текстової підказки, а потім ви вдосконалюєте зображення, уточнюючи початкову підказку. GPT-4o працює інакше – ви запитуєте у нього зображення, потім вказуєте, що змінити, потім запитуєте, що ще змінити і так далі, доки не отримаєте потрібний результат. Ось кілька прикладів:

Зауважте, що OpenAI трохи перебрала – багато зображень є "кращими з 2" або навіть "кращими з 8", тому моделі знадобилося кілька спроб, щоб зробити все правильно. З усім тим, результати виглядають досить вражаюче, а інтерфейс максимально простий.

Ось ще один приклад. GPT-4o може почати з нуля або змінити зображення, яке ви йому надали. Тут користувач дає йому фотографію кота і просить ШІ надати йому детективний капелюх і монокль. Потім користувач продовжує вдосконалювати зображення, перетворюючи його на щось, що може бути скриншотом з рольової гри.

Можна також почати з декількох зображень і інтегрувати елементи з кожного з них у кінцевий результат. OpenAI стверджує, що GPT-4o чудово виконує детальні інструкції – він може маніпулювати 10 – 20 різними об'єктами в сцені, не заплутуючись (інші моделі ШІ можуть працювати лише з 5 – 8 об'єктами, кажуть у компанії).

GPT-4o не ідеальний, і OpenAI першим визнає це. Іноді він обрізає зображення внизу, галюцинації все ще залишаються проблемою, робота з більш ніж 10 – 20 об'єктами може бути складною, рендеринг тексту з нелатинськими символами також потребує доопрацювання і багато іншого.