Voicebox de Meta : un générateur de voix avancé
Voicebox est un modèle d'IA générative pour la synthèse vocale, capable de généraliser à des tâches non spécifiquement entraînées avec une performance de pointe. Contrairement aux synthétiseurs vocaux existants, il peut être formé sur des données diverses et non structurées sans nécessiter d'entrées soigneusement étiquetées. Utilisant une approche innovante appelée Flow Matching, Voicebox apprend des mappages non déterministes entre le texte et la parole, offrant ainsi une flexibilité remarquable.
Ce générateur de voix produit des clips audio de haute qualité dans une vaste gamme de styles et peut synthétiser la parole dans six langues. Ses fonctionnalités incluent l'élimination du bruit, l'édition de contenu, la conversion de style et la génération d'échantillons divers. Voicebox se distingue par sa capacité à modifier n'importe quelle partie d'un échantillon audio, ce qui le rend adapté pour des tâches telles que la synthèse vocale textuelle en contexte et le transfert de style multilingue. Bien qu'il ne soit pas encore accessible au public, ses performances surpassent celles des modèles de discours existants.