Meta cria modelos de IA que fornecem sons realistas em VR
Os três modelos de IA — Correspondência Visual-Acústica, Deseverberação visualmente informada e VisualVoice – concentram-se na fala humana e nos sons em vídeo e são projetados para nos levar a “uma realidade mais imersiva em um ritmo mais rápido”, disse a empresa em comunicado.
“A acústica desempenha um papel em como o som será experimentado no metaverso, e acreditamos que a IA será essencial para fornecer qualidade de som realista”, disseram os pesquisadores de IA da Meta e especialistas em áudio de sua equipe do Reality Labs.
Eles construíram os modelos de IA em colaboração com pesquisadores da Universidade do Texas em Austin e estão tornando esses modelos para compreensão audiovisual abertos aos desenvolvedores.
O modelo de correspondência visual-acústica auto-supervisionado, chamado AVITARajusta o áudio para corresponder ao espaço de uma imagem de destino.
O objetivo de treinamento autossupervisionado aprende a correspondência acústica de vídeos da Web em estado selvagem, apesar da falta de áudio acusticamente incompatível e dados não rotulados, informou Meta.
O VisualVoice aprende de uma maneira semelhante à forma como as pessoas dominam novas habilidades, aprendendo dicas visuais e auditivas de vídeos não rotulados para obter a separação de fala audiovisual.
Por exemplo, imagine ser capaz de participar de uma reunião de grupo no metaverso com colegas de todo o mundo, mas em vez de as pessoas terem menos conversas e falarem umas com as outras, a reverberação e a acústica se ajustariam de acordo à medida que se movessem pelo espaço virtual e se juntassem. grupos menores.
“VisualVoice generaliza bem para desafiar vídeos do mundo real de diversos cenários”, disse Meta AI pesquisadores.
FacebookTwitterLinkedin
Source link