Google Translate страждає гендерними упередженнями

Бразильські програмісти з Федерального університету Ріу-Гранді-ду-Сул, проаналізували алгоритми сервісу Google Translate та прийшли до вельми несподіваного висновку.

На їхню думку, нейромережа упереджена при перекладі ділянок тексту без граматичної категорії роду і значно частіше відносить до жіночого роду професії в області медицини, ніж, наприклад, технічні спеціальності.

Як повідомляється, дослідники відібрали 12 мов, у яких повністю відсутня граматична категорія роду – у тому числі угорську, фінську, суахілі, йоруба, вірменську й естонську (в естонській, наприклад, і "він", і "вона" перекладаються як "ta", а в угорській – "ő"). Після цього вони склали на цих мовах гендерно-нейтральні пропозиції на кшталт "X is Y" з займенником і професією.

Виявилося, що пропозиції без згадки конкретної статі Google Translate перекладає абсолютно по-різному: так, "ő egy ápoló" (він/вона медсестра) він переклав як "she is a nurse", а "ő egy tudós" ("він/вона вчений") – як "he is a scientist".

У цілому, згідно з висновками вчених, перекладач у 71% випадків відносить технічні професії до чоловічого роду, а до жіночого – тільки в 4%. Що стосується медичних спеціальностей, то тут Google Translate використовував займенники жіночого роду у 23% випадків, а чоловічого – в 49%. Інші випадки були віднесені до середнього роду.

Дослідники пояснюють, що гендерна упередженість, яка зустрічається в роботі алгоритмів машинного навчання, виникає не з вини розробників, а через особливості навчальної вибірки: набори даних несуть в собі відбиток живої мови, наповненої стереотипами, які мимоволі засвоюються штучним інтелектом.

Щоб виключити будь-які гендерні упередження в алгоритмах перекладача, вчені запропонували зробити вибір займенників для мов, в яких немає роду, випадковим і звернулися з цією ідеєю в Google.

