Як правило, люди можуть без проблем виділяти голос одного співрозмовника в галасливому натовпі. Комп'ютерам ця задача вдавалась не вельми просто. Однак, у компанії Google розробили рішення для усунення цієї проблеми.
Група дослідників розробила систему глибокого навчання, яка здатна виділяти конкретні голоси, фіксуючи особи людей і визначаючи, коли вони говорять. Команда навчила свою нейронну мережу розпізнавати окремих мовців, а потім створювати віртуальні "групи" (разом з фоновим шумом), щоб навчити ШІ, як ізолювати кілька голосів на окремі звукові доріжки.
І ще: Стів Возняк пояснив, чому штучний інтелект не витіснить людину
У результаті, система штучного інтелекту навчилася досить добре розпізнавати голос окремої людини, навіть коли кілька людей говорить одночасно. При цьому, виходить створювати окремі звукові доріжки з чистою вимовою кожного мовця. ШІ справляється навіть з тими ситуаціями, коли людина частково закриває обличчя руками або мікрофоном.
Як працює система, дивіться на відео:
Наразі Google вивчає можливості використання цієї функції в своїх продуктах. В основному їх будуть застосовувати у відеочатах (Hangouts або Duo), де система зможе допомогти зрозуміти, хто говорить в переповненому приміщенні. Також це рішення може бути корисним для поліпшення мови при запису відео. Крім того, можливі застосування і в інших сферах. Хоча існують і потенційні проблеми конфіденційності, якщо хтось вирішить скористатися системою для публічного підслуховування.
Читайте також: Штучний інтелект буде наглядати за працівниками