<ul><li>Audio-Visual Target Speaker Extraction (AV-TSE) aims to enhance auditory perception using visual cues.</li><li>A model-agnostic strategy called Mask-And-Recover (MAR) is proposed to improve extraction quality by integrating contextual correlations.</li><li>The Fine-grained Confidence Score (FCS) model is introduced to assess extraction quality and guide improvement on low-quality segments.</li><li>The proposed model-agnostic training paradigm demonstrated consistent performance improvements across various metrics on the VoxCeleb2 dataset.</li></ul>

$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction

Discover more