Команда розробників Facebook навчила штучний інтелект генерувати рецепти та підраховувати кількість калорій з фотографій страви. Цей підхід ґрунтується на масштабному наборі даних Recipe1M. Зробили його для того, аби можна було насолоджуватися стравами, вказавши фото їжі.
Створення рецепта з зображення вимагає одночасного розуміння інгредієнтів, а також типів обробки, яку вони пройшли, наприклад, нарізки або змішування з іншими інгредієнтами.
І ще: Ніяких людей: через 10 років музику створюватимуть за допомогою штучного інтелекту
Традиційно проблема "зображення-рецепта" формулюється як задача пошуку, де рецепт витягується з фіксованого набору даних на основі показника подібності зображень. Продуктивність таких систем сильно залежить від розміру і різноманітності наборів даних, а також від якості вивченого матеріалу. Не дивно, що ці системи дають збій, коли в статичному наборі даних відсутній відповідний рецепт для запиту зображення.
Альтернатива для подолання обмежень набору даних пошукових систем полягає в тому, щоб сформулювати проблему "зображення-рецепт" як умовну задачу генерації. Розробники стверджують, що замість отримання рецепта з зображення безпосередньо, конвеєр генерації рецепта виграє від проміжного кроку: прогнозування списку інгредієнтів. Потім буде згенеровано послідовність інструкцій, обумовлена як зображенням, так і відповідним йому списком інгредієнтів, де взаємодія між зображенням і інгредієнтами може дати додаткове розуміння того, як останні будуть оброблялися для отримання страви.
Система створення зображення для рецепта бере на вхід зображення їжі і виводить рецепт, що містить назву, інгредієнти й інструкції з приготування. Метод починається з попередньої підготовки кодера зображення та декодера інгредієнтів, який передбачає набір інгредієнтів, використовуючи візуальні особливості, витягнуті з вхідного зображення і спільного використання інгредієнтів. Потім розробники навчають кодувальник інгредієнтів і декодер команд, які генерують заголовок і інструкції, беручи візуальні особливості зображення і передбачені інгредієнти і вводячи їх у сучасну модель генерації послідовності.
Розпізнавання їжі кидає виклик існуючим системам комп'ютерного зору, що виходять за рамки просто видимого. У порівнянні з природним розумінням зображення, візуальне пророкування інгредієнта вимагає високорівневих міркувань і попереднього знання (наприклад, що круасани, ймовірно, містять масло). Це створює додаткові проблеми, адже харчові компоненти мають високу внутрішньокласову мінливість, під час приготування виникають сильні деформації, а інгредієнти часто включаються в приготовану страву. Ця система – перший крок до ширших систем розуміння їжі, таких як оцінка калорій і створення рецептів.
Крім того, цей вид навчання може використовуватися для будь-якого завдання, яка вимагає прогнозування довгого структурованого тексту з зображення і прогнозованих ключових слів. Перша частина конвеєра (прогнозування інгредієнта) може бути застосована для вирішення ширших проблем, таких як прогнозування зображення для набору.
Читайте також: Штучний інтелект навчили визначати зовнішність по голосу