Опубликовано видео создания «реалистичных говорящих голов» с помощью исскуственного интеллекта

Горячие новости

В Якутии стартовал автопробег «Sakha Arctic Expedition 2023»

В России утвердили Концепцию технологического развития до 2030 года

Служба спасения РС (Я): не допускайте несанкционированных выездов на лед

Церковный праздник 28 апреля 2023: Пудов день

С космодрома “Восточный” запустят ракету-носитель “Союз-2”

Народные приметы на 28 октября 2023 года. День Ефимия Осеннего

Открыта самая молодая галактика с прекращенным звездообразованием

Народные приметы на 13 января 2024 года: что нельзя делать в Васильев день

Якутия, Нижегородская область и Санкт-Петербург борются за лидерство во всероссийском конкурсе «Смотри, это Россия!»

Народные приметы на 21 апреля 2023 года: что нельзя делать в день Родиона Ледолома

Политика

Мария Захарова назвала сегодняшних американцев самой напуганной нацией

25 Мар в 17:05

606

< 1 мин.

Сенатор Рубио: теракт в Подмосковье стал возможен из-за ухода США из Афганистана

25 Мар в 16:07

475

< 1 мин.

Сийярто: лидеры ЕС из-за психоза превращают конфликт на Украине в личное дело

25 Мар в 11:03

405

< 1 мин.

Депутат Шеремет предостерег США от попыток обелить Киев в расследовании теракта

25 Мар в 10:34

386

< 1 мин.

Лавров: Россия готова разговаривать с Западом по-честному

25 Мар в 09:03

292

< 1 мин.

Наука, Технологии

26 Ноя 2023

140

Опубликовано видео создания «реалистичных говорящих голов» с помощью исскуственного интеллекта

Группа исследователей под руководством доцента Лу Шицзяня из Nanyang Technological University (NTU) разработала компьютерную программу, которая создает реалистичные видеоролики, отражающие мимику и движения головы говорящего человека. Для этого требуется только аудиозапись и фото лица.

DIverse yet Realistic Facial Animations (DIRFA), — это ПО, основанное на ИИ, которое, получив аудиозапись и фотографию, создает 3D-видео на котором аватар демонстрирует реалистичные и последовательные лицевые анимации, синхронизированные с произносимым звуком. Сообщается, что программа превосходит существующие подходы, которые с трудом справляются с изменением позы и эмоциональным контролем. Для этого команда обучила DIRFA на более чем 1 млн. аудиовизуальных клипов с участием более 6 тыс. человек, взятых из открытой базы данных, чтобы предсказать сигналы из речи и связать их с мимикой и движениями головы.

Исследователи рассчитывают, что DIRFA сможет найти новые применения в различных отраслях и сферах, включая здравоохранение, поскольку она позволяет создавать более сложных и реалистичных виртуальных помощников. Кроме того, она может стать полезным инструментом для людей с нарушениями речи, помогая им передавать свои мысли и эмоции с помощью выразительных аватаров или цифровых представлений, повышая их способность к общению.

«Влияние нашего исследования может быть глубоким и далеко идущим, поскольку оно революционизирует сферу мультимедийных коммуникаций, позволяя создавать высокореалистичные видеоролики говорящих людей, сочетая такие методы, как ИИ и машинное обучение — говорит доцент Шицзянь. — Наша программа также опирается на предыдущие исследования и представляет собой прогресс в технологии, поскольку видеоролики, созданные с помощью нашей программы, дополнены точными движениями губ, яркой мимикой и естественными позами головы, при этом используются только их аудиозаписи и статичные изображения».

«Речь имеет множество вариаций. Люди произносят одни и те же слова по-разному в различных контекстах, варьируя продолжительность, амплитуду, тон и т.д. Кроме того, помимо лингвистического содержания, речь передает богатую информацию об эмоциональном состоянии говорящего и таких факторах его личности, как пол, возраст, этническая принадлежность и даже черты характера. — говорит доктор Ву Ронглианг, первый автор статьи. — Наш подход представляет собой новаторскую попытку повысить производительность с точки зрения обучения представлению звука в ИИ и машинном обучении».

Исследователи планируют добавить дополнительные опции и усовершенствовать интерфейс DIRFA, а также доработать мимику с помощью более широкого набора данных, включающего разнообразные выражения лица и голосовые аудиоклипы. Работа «Audio-driven talking face generation with diverse yet realistic facial animations» была опубликована в журнале Pattern Recognition.