27.05.2019 15:34
1756

В США нейросеть Speech2Face воссоздает лицо по голосу человека

Американские инженеры представили новую нейросеть Speech2Face, использующую спектрограмму человеческой речи для воссоздания изображения говорящего лица. Разработкой и обучением алгоритма занимались сотрудники Массачусетского технологического института (MIT).

В MIT создали нейросеть для воссоздания лица человека по его голосу

Точность изображения оставляет желать лучшего, но успехи нейросети удовлетворяют ученых

Перед использованием нейросети Speech2Face через нее прогнали несколько миллионов роликов, на котором некое лицо произносило речь. При этом каждое видео было разделено на две дорожки: аудио и видео. Одна часть алгоритма пыталась выделить особенности лица путем анализа видеоряда. Вторая часть преобразовывала аудиодорожку в спектрограмму, после чего, используя данные анализа видеоряда, воссоздавала облик человека.

Результаты исследования пока не особо впечатляют. Нейросеть может с максимальной точностью определить пол и даже расу говорящего человека. Разработчики отмечают, что алгоритм часто верно относит людей к азиатской или европеоидной расе. А вот с определением возраста пока не все так гладко. Однако ученые не стремятся к тому, чтобы Speech2Face создавал точную копию лица, им достаточно выделить из голоса особые параметры, которые помогут найти произносящего речь человека.

Получайте 5 лучших статей дня на Email

Подписаться в Телеграме

Подписка на новости

Простая форма подписки MailerLite!

Пожалуйста, подождите

Вы успешно подписались на рассылку!