<ul><li>Researchers propose a multimodal joint training framework called MMAudio for high-quality video-to-audio synthesis.</li><li>MMAudio is trained using both video and text-audio data to generate semantically aligned audio samples.</li><li>A conditional synchronization module improves audio-visual synchrony at the frame level.</li><li>MMAudio achieves state-of-the-art performance in audio quality, semantic alignment, and audio-visual synchronization with low inference time and parameter count.</li></ul>

Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

Discover more