Texte pour parler

Évolution de la technologie de synthèse vocale – Des années 1700 à nos jours !

La technologie de synthèse vocale a transformé la façon dont nous communiquons avec les ordinateurs et les appareils, passant de voix robotisées à une parole naturelle semblable à celle de l'homme. Découvrez l'évolution de la technologie de la synthèse vocale, comment elle s'est développée au fil des ans, quels sont ses avantages et ses défis, et quelles sont ses applications actuelles et futures.

La technologie de synthèse vocale (TTS) est le processus de conversion d'un texte écrit en son parlé. Elle a de nombreuses applications, notamment dans les domaines de l'accessibilité, de l'éducation, du divertissement et de la communication. La technologie TTS a considérablement évolué au fil des ans, passant de simples voix de synthèse au son robotique et peu naturel à des systèmes avancés de traitement du langage naturel (NLP) capables de produire un discours humain avec des émotions, des accents et des intonations.

Dans cet article, nous explorerons l'histoire et le développement de la technologie TTS, les défis et les opportunités auxquels elle est confrontée, ainsi que les directions qu'elle pourrait prendre à l'avenir.

Les grandes étapes de l'histoire de la synthèse vocale

Voici un bref résumé de l'évolution de la synthèse de discours et les étapes importantes de l'histoire de la synthèse vocale.

Année	Événement
1700s	Le scientifique germano-danois Christian Kratzenstein crée des résonateurs acoustiques qui imitent la voix humaine.
1952	AUDREY, le premier système de reconnaissance vocale permettant de reconnaître les chiffres prononcés, a été développé par les Laboratoires Bell.
1962	Shoebox, un système qui reconnaît les nombres et les termes mathématiques simples, a été développé par IBM.
1968	Noriko Umeda invente la synthèse vocale pour l'anglais au laboratoire électrotechnique du Japon.
1970s	Développement du premier synthétiseur articulatoire basé sur le tractus vocal humain.
1976	HARPY, un système qui reconnaît des phrases à partir d'un vocabulaire de 1 011 mots en utilisant des modèles de Markov cachés, a été développé par l'université Carnegie Mellon.
1980s	La synthèse vocale fait son entrée dans le monde des jeux vidéo avec la sortie de Stratovox. Steve Jobs crée NeXT, qui fusionnera plus tard avec Apple.
1984	Kurzweil Applied Intelligence a lancé le premier logiciel de reconnaissance vocale disponible dans le commerce pour les ordinateurs personnels.
1990s	Les améliorations apportées à la synthèse vocale permettent d'adoucir les consonnes et d'obtenir des voix plus naturelles. Microsoft lance Narrator, une solution de lecture d'écran incluse dans Windows.
1990	Dragon Dictate, le premier logiciel de reconnaissance vocale continue permettant aux utilisateurs de parler naturellement sans pause entre les mots, a été lancé par Dragon Systems.
1996	Les laboratoires Bell présentent AT&T Natural Voices, un système de synthèse vocale qui utilise des réseaux neuronaux pour générer des sons naturels.
2000s	Les développeurs sont confrontés à la difficulté de créer des normes reconnues pour la synthèse vocale.
2001	Microsoft a présenté Speech Application Programming Interface (SAPI) 5.0, une interface standard pour le développement d'applications vocales sur les plates-formes Windows.
2006	Google a lancé Google Voice Search, un service qui permet aux utilisateurs d'effectuer des recherches sur le web à l'aide de commandes vocales sur leur téléphone portable.
2011	Apple a présenté Siri, un assistant personnel à commande vocale qui utilise le traitement du langage naturel et l'apprentissage automatique pour répondre aux questions et effectuer des tâches.
2014	Amazon a lancé Alexa, un service vocal basé sur le cloud qui alimente des haut-parleurs intelligents et d'autres appareils dotés de capacités d'interaction vocale.
2016	WaveNet, un modèle de synthèse vocale basé sur un réseau neuronal profond qui génère des formes d'ondes audio brutes, a été développé par DeepMind.
2018	Baidu a présenté Deep Voice 3, un modèle de synthèse vocale basé sur un réseau neuronal, capable de cloner une voix humaine avec seulement quelques minutes de données audio.
2020	OpenAI a présenté Jukebox, un modèle de génération de musique basé sur un réseau neuronal, capable de produire des chansons avec paroles et voix dans différents genres et styles.
L'avenir	L'accent est mis sur la création d'un modèle du cerveau pour mieux comprendre les données vocales. L'accent est mis sur la compréhension du rôle de l'émotion dans la parole et sur la création de voix d'IA impossibles à distinguer de celles des humains.

Voyons maintenant plus en détail l'histoire de la technologie de synthèse vocale.

Développement historique du TTS

Les origines de la technologie TTS et ses premières applications

Les premières origines de la technologie TTS remontent au XVIIIe siècle, lorsque certains scientifiques ont construit des modèles du tractus vocal humain capables de produire des voyelles. Le premier synthétiseur vocal électronique a été inventé par Homer Dudley en 1939. Il utilisait un clavier et une pédale pour contrôler la hauteur et la durée des sons vocaux.

Les premières applications de la technologie TTS étaient principalement destinées à l'accessibilité, par exemple pour aider les personnes malvoyantes souffrant de déficiences visuelles ou de difficultés de lecture à accéder à des textes écrits. Par la suite, la technologie TTS a également été utilisée à des fins de divertissement, d'éducation et de communication, par exemple pour créer des robots vocaux, des livres audio et des assistants vocaux.

Les limites des premiers systèmes TTS.

Les premiers systèmes TTS présentaient certaines limites :

Voix robotiques: Les premiers systèmes TTS utilisaient des technologies basées sur des règles, telles que la synthèse de formants et la synthèse articulatoire, qui permettaient d'obtenir un résultat similaire grâce à des stratégies légèrement différentes. Les chercheurs pionniers ont enregistré un locuteur et extrait les caractéristiques acoustiques de cette parole enregistrée - les formants, qui définissent les qualités des sons de la parole, dans la synthèse des formants, et les paramètres articulatoires, tels que la position de la langue et la forme des lèvres, dans la synthèse articulatoire. Ces caractéristiques ont ensuite été utilisées pour synthétiser les sons de la parole à partir de zéro, en utilisant des modèles mathématiques du conduit vocal et d'autres composants de la production de la parole. Cependant, ces méthodes ont souvent produit des sons de parole non naturels, dépourvus de la prosodie, de l'intonation et de la variabilité de la parole humaine.
Manque de naturel: Une autre limite des premiers systèmes TTS était leur difficulté à produire une parole naturelle correspondant au contexte, à l'émotion et à l'intention de l'orateur. Les premiers systèmes TTS s'appuyaient sur des règles et des algorithmes fixes pour générer la parole, ce qui ne tenait pas compte des nuances et des variations du langage et de la communication humaine. Par exemple, les premiers systèmes TTS ne pouvaient pas ajuster leur ton, leur hauteur ou leur vitesse en fonction de l'humeur ou de l'attitude du locuteur ou de l'auditeur. Ils ne pouvaient pas non plus gérer des phénomènes linguistiques complexes tels que le sarcasme, l'ironie, l'humour ou les expressions idiomatiques.
Erreurs de prononciation: Une troisième limitation des premiers systèmes TTS était leur incapacité à prononcer correctement les mots dans différentes langues, accents ou dialectes. Les premiers systèmes de reconnaissance vocale utilisaient la conversion texte-phonème pour mettre en correspondance les mots écrits et les sons vocaux correspondants. Cependant, ce processus était souvent inexact ou incomplet, en particulier pour les mots ayant plusieurs prononciations ou une orthographe irrégulière. En outre, les premiers systèmes TTS n'avaient pas accès à des bases de données d'échantillons vocaux vastes et diversifiées, capables de couvrir toutes les variations et nuances de la parole humaine dans les différentes régions et cultures. Par conséquent, les premiers systèmes TTS prononçaient souvent mal les mots ou les phrases qu'ils ne connaissaient pas ou qui n'étaient pas courants pour eux

Les principes des premiers modèles TTS

Les principes qui sous-tendent les premiers modèles TTS, tels que la synthèse des formants et la synthèse concaténative, sont les suivants :

Synthèse des formants: Cette méthode utilise des modèles mathématiques du conduit vocal et d'autres composants de la production de la parole pour synthétiser des sons vocaux à partir de zéro1 Elle repose sur l'extraction de caractéristiques acoustiques, telles que les formants, à partir de la parole enregistrée et sur leur utilisation pour contrôler les paramètres des modèles2 La synthèse par formants peut produire de la parole dans n'importe quelle langue ou avec n'importe quel accent, mais elle semble souvent robotisée et peu naturelle3
Synthèse concaténative: Cette méthode utilise des unités vocales préenregistrées, telles que des phones, des diphones ou des syllabes, et les concatène pour produire de la parole1 Elle repose sur la recherche des unités les mieux adaptées à un texte donné et sur le lissage des transitions entre elles2 La synthèse concaténative peut produire une parole naturelle, mais elle nécessite une base de données importante et diversifiée d'échantillons vocaux et ne peut pas gérer les mots hors vocabulaire ou les nouveaux accents.

Progrès dans la technologie TTS

Voix synthétiques et prosodie

Développement de voix synthétiques et leur impact sur le TTS.

Le développement des voix synthétiques et leur impact sur le TTS sont :

Voix synthétiques: Les voix synthétiques sont des voix artificielles créées par des applications de synthèse vocale, telles que les systèmes de synthèse vocale (TTS), qui convertissent le texte ou d'autres représentations symboliques en parole. La synthèse vocale peut être utilisée à diverses fins, telles que l'accessibilité, l'éducation, le divertissement et la communication.
Développement: Le développement des voix synthétiques est passé par plusieurs étapes, depuis les méthodes basées sur des règles telles que la synthèse des formants et la synthèse concaténative, jusqu'aux méthodes basées sur des données telles que la synthèse paramétrique statistique et la synthèse basée sur les réseaux neuronaux. Les méthodes fondées sur des règles utilisent des modèles mathématiques et des unités vocales préenregistrées pour générer des sons vocaux à partir de zéro ou par concaténation. Les méthodes basées sur les données utilisent des algorithmes d'apprentissage automatique et des corpus de parole à grande échelle pour apprendre la correspondance entre les caractéristiques du texte et de la parole et générer de la parole par échantillonnage ou optimisation.
Impact: L'impact des voix synthétiques sur le TTS est qu'elles ont amélioré la qualité, le naturel et la diversité de la parole synthétisée au fil du temps. Les voix synthétiques peuvent désormais produire une parole qui ne peut être distinguée de la parole humaine dans certains cas, et peuvent également s'adapter à différentes langues, accents, styles et émotions. Les voix synthétiques peuvent également permettre de nouvelles applications et de nouveaux scénarios pour les TTS, tels que le clonage de voix, la conversion de voix, l'usurpation d'identité et le filigrane vocal. Cependant, les voix synthétiques posent également certains défis et risques pour les systèmes de reconnaissance vocale, tels que les questions éthiques, les implications sociales et l'utilisation abusive potentielle d'imitations profondes et de contenus trompeurs.

Importance de la prosodie dans la création d'un discours à consonance naturelle.

L'importance de la prosodie (intonation, rythme et accentuation) dans la création d'un discours naturel est.. :

Prosodie La prosodie est le modèle de variation de la hauteur, du volume et de la durée des sons de la parole qui transmet des informations sur la structure, le sens et l'émotion d'un énoncé. La prosodie est un aspect essentiel de la parole humaine qui influe sur la façon dont nous percevons et comprenons le langage parlé.
Modélisation de la prosodie La modélisation de la prosodie est un processus qui consiste à ajouter l'intonation, l'accentuation et le rythme appropriés à la sortie vocale, en fonction du contexte et du sens du texte3 La modélisation de la prosodie est cruciale pour créer un TTS à la sonorité naturelle qui transmet le sentiment et l'émotion appropriés dans le discours3 Cette technologie implique l'analyse des caractéristiques linguistiques et acoustiques du texte et l'application des règles et des modèles prosodiques appropriés2
Impact de la prosodie est l'effet de la prosodie sur la qualité, le naturel et l'expressivité de la parole synthétisée. L'impact de la prosodie peut améliorer l'intelligibilité, la clarté et la fluidité du discours, ainsi que l'engagement, l'attention et la satisfaction de l'auditeur2 L'impact de la prosodie peut également améliorer la communication des émotions, des attitudes, des intentions et des personnalités dans le discours, le rendant plus humain et plus réaliste.

Techniques utilisées pour améliorer la prosodie dans les systèmes TTS

Voici quelques-unes des techniques utilisées pour améliorer la prosodie dans les systèmes TTS :

Prédiction de la prosodie: Cette technique consiste à prédire les caractéristiques prosodiques, telles que la hauteur, la durée et l'énergie, à partir du texte d'entrée ou d'autres caractéristiques linguistiques1. La prédiction de la prosodie peut être effectuée à l'aide de méthodes basées sur des règles, telles que l'annotation ToBI et le modèle Fujisaki, ou de méthodes basées sur des données, telles que les arbres de décision, les modèles de Markov cachés et les réseaux neuronaux. La prédiction de la prosodie peut améliorer l'intelligibilité et le naturel de la parole synthétisée en ajoutant le stress, l'intonation et le rythme appropriés.
Modélisation de la prosodie: Cette technique consiste à modéliser la structure et les schémas prosodiques de la parole naturelle et à les appliquer à la sortie vocale. La modélisation de la prosodie peut être réalisée à l'aide de méthodes basées sur des règles, telles que le modèle de superposition et le modèle d'approximation de la cible, ou de méthodes basées sur des données, telles que la synthèse paramétrique statistique et la synthèse basée sur des réseaux neuronaux. La modélisation de la prosodie peut améliorer la qualité et l'expressivité de la parole synthétisée en capturant les variations linguistiques et acoustiques de la prosodie.
Contrôle de la prosodie: Cette technique consiste à modifier ou à incorporer la prosodie souhaitée à un niveau plus fin en contrôlant la fréquence fondamentale et la durée du téléphone. Le contrôle de la prosodie peut être effectué à l'aide de méthodes basées sur des règles, telles que la mise à l'échelle de la hauteur et de la durée, ou de méthodes basées sur des données, telles que les jetons de style et les jetons de style globaux3 Le contrôle de la prosodie peut améliorer la diversité et l'adaptabilité de la parole synthétisée en permettant l'utilisation de langues, d'accents, de styles et d'émotions différents.

Modèles basés sur des réseaux neuronaux

L'émergence de modèles basés sur des réseaux neuronaux dans la technologie TTS.

L'émergence de modèles basés sur des réseaux neuronaux dans la technologie TTS est.. :

Modèles basés sur des réseaux neuronaux: Les modèles basés sur les réseaux neuronaux sont des modèles d'apprentissage automatique qui utilisent des réseaux neuronaux artificiels pour apprendre la correspondance entre les caractéristiques du texte et de la parole et générer de la parole par échantillonnage ou optimisation. Les modèles basés sur les réseaux neuronaux peuvent surmonter certaines des limites des méthodes basées sur les règles et les données, telles que le manque de naturel, le manque de diversité et les erreurs de prononciation.
L'émergence: L'émergence de modèles basés sur des réseaux neuronaux dans la technologie TTS peut être attribuée au développement de l'apprentissage profond et de l'intelligence artificielle, ainsi qu'à la disponibilité de corpus vocaux à grande échelle et de ressources informatiques. Le premier modèle basé sur les réseaux neuronaux pour le TTS a été proposé par Zen et al. en 2009, qui a utilisé un réseau neuronal profond (DNN) pour prédire les caractéristiques acoustiques à partir des caractéristiques linguistiques. Depuis lors, diverses architectures et techniques de réseaux neuronaux ont été appliquées au TTS, telles que les réseaux neuronaux récurrents (RNN), les réseaux neuronaux convolutifs (CNN), les mécanismes d'attention, les réseaux adversaires génératifs (GAN), les autoencodeurs variationnels (VAE) et les transformateurs.
Impact: L'impact des modèles basés sur les réseaux neuronaux sur la technologie TTS est qu'ils ont atteint des performances de pointe en termes de qualité, de naturel et de diversité de la parole synthétisée. Les modèles basés sur les réseaux neuronaux peuvent produire une parole qu'il est impossible de distinguer de la parole humaine dans certains cas, et peuvent également s'adapter à différentes langues, accents, styles et émotions. Les modèles basés sur les réseaux neuronaux peuvent également permettre de nouvelles applications et de nouveaux scénarios pour le TTS, tels que le clonage vocal, la conversion vocale, l'usurpation d'identité et le filigrane vocal. Cependant, les modèles basés sur les réseaux neuronaux posent également certains défis et risques pour le TTS, tels que l'efficacité des données, l'interprétabilité, la robustesse et l'utilisation abusive potentielle de deepfakes et de contenu trompeur.

Avantages des réseaux neuronaux par rapport aux approches traditionnelles fondées sur des règles.

Voici quelques-uns des avantages des réseaux neuronaux par rapport aux approches basées sur des règles :

L'apprentissage fondé sur les données: Les réseaux neuronaux peuvent apprendre la correspondance entre les caractéristiques du texte et de la parole à partir de corpus de parole à grande échelle, sans dépendre de règles élaborées à la main ou d'unités de parole préenregistrées. Cela les rend plus flexibles et adaptables à différentes langues, accents, styles et émotions.
Génération de bout en bout: Les réseaux neuronaux peuvent générer de la parole directement à partir d'un texte, sans étapes intermédiaires telles que l'analyse du texte, la modélisation acoustique et le vocodage. Cela réduit la complexité et la propagation des erreurs dans le pipeline de synthèse.
Caractère naturel et diversité: Les réseaux neuronaux peuvent produire une parole plus naturelle et plus diversifiée que les approches basées sur des règles, en capturant les variations linguistiques et acoustiques de la prosodie et de la qualité de la voix. Les réseaux neuronaux peuvent également permettre de nouvelles applications et de nouveaux scénarios pour le TTS, tels que le clonage vocal, la conversion vocale, l'usurpation d'identité et le filigrane vocal.

Composants des modèles neuronaux de TTS

Les composants des modèles neuronaux de TTS sont les suivants :

Traitement de texte: Ce composant consiste à analyser le texte d'entrée et à le convertir en une séquence de caractéristiques linguistiques, telles que des phonèmes, des syllabes, des mots ou des caractères. Le traitement du texte peut également inclure l'ajout de ponctuation, de majuscules, la normalisation et d'autres étapes de prétraitement du texte. Le traitement de texte peut être effectué à l'aide de méthodes basées sur des règles, telles que les grammaires d'analyse de texte et les lexiques, ou de méthodes basées sur des données, telles que les réseaux neuronaux et les transformateurs.
Modélisation acoustique: Cette composante consiste à prédire les caractéristiques acoustiques, telles que la hauteur, la durée et l'énergie, à partir des caractéristiques linguistiques. La modélisation acoustique peut également inclure la modélisation de la structure prosodique et des modèles de la parole naturelle et leur application à la sortie vocale. La modélisation acoustique peut être réalisée à l'aide de méthodes basées sur des règles, telles que le modèle de superposition et le modèle d'approximation de la cible, ou de méthodes basées sur des données, telles que les réseaux neuronaux et les transformateurs.
Vocodage: Cette composante consiste à convertir les caractéristiques acoustiques en un signal audio continu. Le vocodage peut également comprendre la modification ou l'incorporation de la qualité vocale et du timbre souhaités à un niveau plus fin en contrôlant la fréquence fondamentale et la durée du téléphone. Le vocodage peut être effectué à l'aide de méthodes basées sur des règles, telles que le modèle source-filtre et la concaténation de formes d'onde, ou de méthodes basées sur des données, telles que les réseaux neuronaux et les transformateurs.

WaveNet et SampleRNN

Exploration du modèle révolutionnaire WaveNet et de sa contribution au TTS.

Le modèle WaveNet et sa contribution au TTS sont :

Modèle WaveNet: WaveNet est un modèle génératif de formes d'ondes audio brutes qui utilise un réseau neuronal convolutionnel profond avec des convolutions causales dilatées. WaveNet modélise directement la distribution de probabilité de chaque échantillon audio conditionné par tous les échantillons précédents, en utilisant une couche de sortie softmax. WaveNet peut générer de la parole en échantillonnant à partir de cette distribution ou en conditionnant des entrées supplémentaires telles que du texte ou l'identité du locuteur.
Contribution au TTS: WaveNet a considérablement amélioré la qualité, le naturel et la diversité de la parole synthétisée par rapport aux méthodes précédentes. WaveNet peut produire une parole qui ressemble davantage à celle de l'homme et qui est plus réaliste, et peut également s'adapter à différentes langues, à différents accents, à différents styles et à différentes émotions. WaveNet a inspiré de nombreux modèles ultérieurs de TTS basés sur des réseaux neuronaux, tels que Tacotron, Deep Voice et Transformer TTS3 WaveNet a également permis de nouvelles applications et de nouveaux scénarios pour les TTS, tels que le clonage vocal, la conversion vocale, l'usurpation d'identité et le tatouage vocal.

Capacité de WaveNet à générer une parole de haute qualité, semblable à celle de l'homme, grâce à une modélisation générative profonde.

La capacité de WaveNet à générer une parole de haute qualité, semblable à celle de l'homme, grâce à une modélisation générative profonde est.. :

Modélisation générative profonde: WaveNet est un modèle génératif profond de formes d'ondes audio brutes qui utilise un réseau neuronal convolutionnel profond avec des convolutions causales dilatées. WaveNet modélise directement la distribution de probabilité de chaque échantillon audio conditionné par tous les échantillons précédents, en utilisant une couche de sortie softmax. WaveNet peut générer de la parole en échantillonnant à partir de cette distribution ou en conditionnant des entrées supplémentaires telles que du texte ou l'identité du locuteur.
Un discours de qualité: WaveNet peut produire une parole plus naturelle et plus réaliste que les méthodes précédentes, en capturant les variations linguistiques et acoustiques de la prosodie et de la qualité de la voix. WaveNet peut également s'adapter à différentes langues, accents, styles et émotions. WaveNet a considérablement amélioré la qualité de la parole synthétisée par rapport aux méthodes précédentes, réduisant l'écart avec la performance humaine de plus de 50%.
Parole de type humain: WaveNet peut générer une parole qui imite n'importe quelle voix humaine, en modélisant directement la voix d'après des enregistrements d'acteurs à voix humaine. Au lieu de synthétiser des sons, il émule une personne réelle. WaveNet peut également permettre de nouvelles applications et de nouveaux scénarios pour le TTS, tels que le clonage de voix, la conversion de voix, l'usurpation d'identité et le filigrane vocal.

Introduction du SampleRNN en tant qu'approche alternative pour générer de la parole avec une efficacité améliorée.

L'introduction du SampleRNN en tant qu'approche alternative pour générer de la parole avec une efficacité améliorée est.. :

SampleRNN: SampleRNN est un modèle génératif autorégressif de formes d'ondes audio brutes qui utilise une structure hiérarchique d'algorithmes profonds. réseaux neuronaux récurrents (RNN) pour modéliser les dépendances dans la séquence d'échantillons. Le SampleRNN peut générer de la parole en échantillonnant la distribution conditionnelle de chaque échantillon audio en fonction de tous les échantillons précédents et d'entrées supplémentaires telles que le texte ou l'identité du locuteur.
Approche alternative: SampleRNN est une approche alternative à WaveNet, qui utilise un réseau neuronal convolutionnel profond avec des convolutions causales dilatées pour générer de la parole. SampleRNN comporte différents modules fonctionnant à des fréquences d'horloge différentes, ce qui permet une plus grande flexibilité dans l'allocation des ressources de calcul et la modélisation de différents niveaux d'abstraction.
Amélioration de l'efficacité: SampleRNN peut générer de la parole avec une efficacité accrue par rapport à WaveNet, car sa complexité de calcul et ses besoins en mémoire sont moindres. SampleRNN peut également exploiter le parallélisme et les techniques d'optimisation telles que le forçage de l'enseignant et l'échantillonnage programmé pour accélérer l'apprentissage et l'inférence.

Apprentissage par transfert et TTS multilingue

Progrès dans les techniques d'apprentissage par transfert pour le TTS

Les avancées dans les techniques d'apprentissage par transfert pour le TTS sont les suivantes :

Apprentissage par transfert: L'apprentissage par transfert est une technique d'apprentissage automatique qui exploite les connaissances d'un modèle pré-entraîné pour une nouvelle tâche ou un nouveau domaine1 L'apprentissage par transfert peut réduire les besoins en données et le temps d'entraînement pour adapter les modèles TTS à une nouvelle voix, en utilisant seulement quelques minutes de données vocales.

Progrès : Voici quelques-unes des avancées dans les techniques d'apprentissage par transfert pour le TTS :

Affiner les modèles TTS à haut-parleur unique: Cette technique consiste à affiner les modèles TTS de haute qualité pour un nouveau locuteur, en utilisant seulement quelques minutes de données vocales. Cette technique permet d'obtenir des performances comparables à celles d'un modèle formé à partir de zéro sur plus de 27 heures de données pour des locuteurs cibles masculins et féminins.
Adaptation des modèles TTS à plusieurs locuteurs: Cette technique consiste à adapter des modèles TTS multilocuteurs pré-entraînés à une nouvelle voix, en utilisant quelques minutes de données vocales du nouveau locuteur. Cette technique peut soit conditionner le modèle pré-entraîné directement sur l'intégration dérivée du nouveau locuteur, soit affiner le modèle sur les données du nouveau locuteur.
Explorer les TTS émotionnels à faibles ressources: Cette technique consiste à explorer les méthodes d'apprentissage par transfert pour le TTS émotionnel à faibles ressources, en utilisant une petite quantité de données vocales émotionnelles. Cette technique peut améliorer le naturel et l'expressivité de la parole synthétisée en capturant l'émotion et le style du locuteur cible.

Explication de la manière dont l'apprentissage par transfert permet de former des modèles TTS dans plusieurs langues avec des données limitées.

L'apprentissage par transfert permet de former des modèles TTS dans plusieurs langues avec des données limitées :

Plusieurs langues: L'apprentissage par transfert peut permettre de former des modèles TTS dans plusieurs langues avec des données limitées en utilisant des méthodes d'apprentissage par transfert interlingual ou multilingue. L'apprentissage par transfert interlinguistique consiste à affiner un modèle TTS pré-entraîné d'une langue à ressources élevées vers une langue à ressources faibles, en utilisant une petite quantité de données de la langue cible. L'apprentissage par transfert multilingue consiste à adapter à une nouvelle langue un modèle TTS pré-entraîné pour plusieurs locuteurs, à l'aide d'un ensemble de données multilingues commun de langues à faibles ressources.
Données limitées: L'apprentissage par transfert peut résoudre le problème de la rareté des données pour les langues à faibles ressources en utilisant l'augmentation des données et des techniques d'apprentissage par transfert basées sur des réseaux partiels. L'augmentation des données consiste à générer des données vocales synthétiques à partir des données originales en appliquant diverses transformations, telles que le décalage de la hauteur, la perturbation de la vitesse et l'ajout de bruit. L'apprentissage par transfert partiel de réseaux consiste à transférer uniquement certaines couches ou certains modules du modèle pré-entraîné vers le nouveau modèle, tout en gelant ou en éliminant le reste.

Avantages et défis du développement de systèmes TTS multilingues

Voici quelques-uns des avantages et des défis liés au développement de systèmes TTS multilingues :

Avantages: Les systèmes TTS multilingues peuvent fournir une synthèse vocale pour plusieurs langues à l'aide d'un seul modèle, ce qui peut réduire les besoins en données et le temps de formation pour les langues à faibles ressources. Les systèmes TTS multilingues peuvent également améliorer la qualité, le naturel et la diversité de la parole synthétisée en capturant les variations linguistiques et acoustiques des différentes langues. Les systèmes TTS multilingues peuvent également permettre de nouvelles applications et de nouveaux scénarios pour les TTS, tels que la synthèse multilingue, le clonage vocal, la conversion vocale, l'usurpation d'identité et le tatouage vocal.
Défis: Les systèmes de synthèse vocale multilingues sont confrontés à plusieurs défis, tels que la recherche d'une représentation appropriée pour plusieurs langues, comme l'alphabet phonétique international (IPA) ou les graphèmes. Les systèmes de synthèse vocale multilingues doivent également gérer le compromis entre la modélisation spécifique à la langue et la modélisation indépendante de la langue, ainsi que l'équilibre entre la quantité et la qualité des données pour les différentes langues. Les systèmes TTS multilingues doivent également traiter les questions d'identité du locuteur, de style d'élocution et d'émotion dans différentes langues.

Défis et orientations futures

Considérations éthiques

Voici quelques-unes des préoccupations éthiques liées au TTS :

Clonage vocal: Le clonage vocal est le processus de création d'une voix synthétique qui imite une voix humaine spécifique, en utilisant une petite quantité de données vocales du locuteur cible. Le clonage vocal peut avoir des applications positives, telles que la restauration de la voix de personnes qui ont perdu leur capacité à parler en raison d'une maladie ou d'une blessure, ou la préservation de la voix de personnages historiques ou de célébrités. Cependant, le clonage vocal peut également avoir des implications négatives, telles que la violation de la vie privée et du consentement du locuteur cible, ou la création d'un contenu faux ou trompeur qui peut nuire à la réputation ou à la crédibilité du locuteur cible.
Fausses découvertes: Les deepfakes sont des médias synthétiques qui combinent et superposent des images et des vidéos existantes à des images ou des vidéos sources en utilisant des techniques d'apprentissage profond. Les deepfakes peuvent créer des vidéos ou des clips audio réalistes et convaincants qui montrent des personnes disant ou faisant des choses qu'elles n'ont jamais dites ou faites. Les deepfakes peuvent avoir des applications malveillantes, telles que la diffusion de fausses informations, la propagande ou la diffamation, ou la manipulation de l'opinion publique, du comportement ou des émotions.
Préjugés et discrimination: La partialité et la discrimination sont le traitement injuste ou préjudiciable de personnes ou de groupes sur la base de caractéristiques telles que la race, le sexe, l'âge ou la religion. Les préjugés et la discrimination peuvent affecter les systèmes de synthèse vocale de diverses manières, comme la sélection des langues, des accents, des styles et des émotions pour la synthèse vocale, ou la représentation et l'inclusion de voix et d'identités diverses dans les données et les modèles vocaux. Les préjugés et la discrimination peuvent avoir des conséquences néfastes, comme le renforcement des stéréotypes, la marginalisation des minorités ou l'exclusion de certains groupes de l'accès à l'information ou aux services.

Cela nous amène à parler de l'importance d'une utilisation responsable de la technologie TTS et des réglementations potentielles :

Utilisation responsable: L'utilisation responsable de la technologie TTS est l'utilisation éthique et légale de la technologie TTS qui respecte les droits, la vie privée et le consentement des artistes de la voix et des utilisateurs de la voix, et qui empêche ou minimise le préjudice ou l'utilisation abusive des voix synthétiques. L'utilisation responsable de la technologie TTS nécessite l'engagement et la collaboration des parties prenantes tout au long de la chaîne de valeur technologique, depuis la conception et le développement jusqu'à la vente et l'utilisation finale des produits et services TTS. L'utilisation responsable de la technologie TTS nécessite également l'adoption de bonnes pratiques et de lignes directrices en matière de prise de décision éthique, d'évaluation des risques, de transparence et de responsabilité.
Réglementations potentielles: Les réglementations potentielles pour la technologie TTS sont les lois et les politiques qui régissent le développement, le déploiement et l'utilisation de la technologie TTS, et qui protègent les intérêts et les droits des professionnels de la voix et des utilisateurs de la voix. Les réglementations potentielles pour la technologie TTS peuvent inclure :

Lois sur la protection des données et de la vie privée: Ces lois réglementent la collecte, le traitement, le stockage et le partage des données à caractère personnel, telles que les enregistrements vocaux ou les modèles vocaux, et exigent le consentement des personnes concernées ainsi que le respect des règles par les responsables du traitement et les sous-traitants.
Propriété intellectuelle et droits d'auteur: Ces lois protègent la propriété et les droits des chanteurs sur leurs enregistrements ou modèles vocaux, et empêchent l'utilisation ou la reproduction non autorisée de leur voix par des tiers.
Lois anti-fraude et anti-diffamation: Ces lois interdisent la création ou la diffusion de contenus faux ou trompeurs utilisant des voix synthétiques, tels que les deepfakes ou le phishing vocal, qui peuvent nuire à la réputation ou à la crédibilité des artistes vocaux ou des utilisateurs de voix.

TTS en temps réel et faible latence

Voici quelques-uns des défis à relever pour obtenir un TTS en temps réel et une faible latence :

Complexité informatique: Les modèles TTS, en particulier les modèles basés sur les réseaux neuronaux, ont une complexité de calcul et des besoins en mémoire élevés, car ils doivent traiter de grandes quantités de données textuelles et vocales et générer des échantillons audio de haute qualité. Cela peut limiter la vitesse et l'efficacité des modèles TTS, en particulier pour les contenus de longue durée ou les applications à grande échelle.
Congestion du réseau: Les modèles TTS, en particulier les modèles basés sur l'informatique dématérialisée, dépendent de la connectivité du réseau et de la bande passante pour fournir des données vocales aux utilisateurs. Cependant, la congestion du réseau peut entraîner des retards, des pertes de paquets ou de la gigue dans la transmission des données vocales, ce qui peut dégrader la qualité et le naturel de la parole synthétisée.
Expérience de l'utilisateur: Les modèles TTS, en particulier pour les applications de communication en temps réel, doivent fournir une expérience utilisateur transparente et interactive qui corresponde aux attentes et aux préférences des utilisateurs. Cependant, l'expérience de l'utilisateur peut être affectée par divers facteurs, tels que la latence, la fiabilité et la diversité de la parole synthétisée, ainsi que la qualité vocale, le style et l'émotion des voix synthétiques.

Cela nous amène à l'importance de réduire le temps d'inférence pour les applications TTS :

Performance en temps réel: La réduction du temps d'inférence pour les applications TTS peut permettre une synthèse vocale en temps réel, ce qui est une exigence pour de nombreuses applications pratiques telles que les assistants numériques, les téléphones mobiles, les dispositifs intégrés, etc. Les systèmes de synthèse vocale en temps réel peuvent fournir une expérience utilisateur transparente et interactive qui correspond aux attentes et aux préférences des utilisateurs.
Efficacité des ressources: La réduction du temps d'inférence pour les applications TTS peut également améliorer l'efficacité des ressources des modèles TTS, en particulier les modèles basés sur les réseaux neuronaux, qui ont une grande complexité de calcul et des exigences élevées en matière de mémoire. L'efficacité des ressources peut réduire le coût et la consommation d'énergie des modèles TTS et les rendre plus accessibles et évolutifs pour divers appareils et plateformes.
Amélioration de la qualité: La réduction du temps d'inférence pour les applications TTS peut également améliorer la qualité, le naturel et la diversité de la parole synthétisée, en minimisant les retards, les pertes de paquets ou la gigue causés par la congestion du réseau ou d'autres facteurs. L'amélioration de la qualité peut accroître la satisfaction et la confiance des utilisateurs et des professionnels de la voix, et prévenir ou atténuer le préjudice ou l'utilisation abusive des voix synthétiques.

Emotion et expressivité

Parmi les recherches en cours sur l'ajout d'émotions et d'expressivité aux voix TTS, on peut citer

Intensité de l'émotion: Cette recherche porte sur l'utilisation de l'intensité de l'émotion à partir d'une extraction non supervisée afin d'améliorer le TTS émotionnel. L'entrée de l'intensité de l'émotion est dérivée d'une carte d'attention ou de saillance d'un reconnaisseur d'émotions, qui indique les régions de la parole qui sont plus émotionnelles. L'intensité de l'émotion peut être utilisée pour contrôler le degré d'expression de l'émotion dans le discours synthétique.
Intégration des émotions et du style: Cette recherche implique l'utilisation de méthodes non supervisées pour extraire l'émotion et le style de l'audio de référence au niveau global, groupé ou de l'image. L'intégration des émotions et des styles peut capturer les variations de la prosodie et de la qualité de la voix dans différentes émotions et différents styles. Ils peuvent être utilisés pour conditionner le modèle TTS à générer un discours avec l'émotion et le style souhaités.
Conversion des émotions: Cette recherche implique l'utilisation de techniques telles que la conversion vocale ou émotionnelle pour générer un discours émotionnel à partir d'un discours neutre. La conversion des émotions peut modifier les caractéristiques prosodiques et spectrales de la parole afin de changer l'émotion perçue par le locuteur. La conversion des émotions peut être utilisée pour augmenter les données émotionnelles pour l'entraînement des modèles TTS, ou pour synthétiser un discours avec différentes émotions à partir d'un même texte.

Compte tenu de ce qui précède, le facteur suivant est l'importance de la synthèse vocale émotionnelle dans divers domaines :

Assistants virtuels: La synthèse vocale émotionnelle peut améliorer le naturel et l'interactivité des assistants virtuels, tels que Siri, Alexa ou Cortana, en leur permettant d'exprimer des émotions et des styles différents en fonction du contexte et des réactions de l'utilisateur. La synthèse vocale émotionnelle peut également améliorer la satisfaction et la confiance des utilisateurs dans les technologies d'assistance virtuelle, en les rendant plus engageantes et empathiques.
Divertissement: La synthèse vocale émotionnelle peut enrichir l'industrie du divertissement, comme les jeux vidéo, les films ou les livres audio, en créant des voix synthétiques réalistes et diverses pour les personnages, les narrateurs ou les chanteurs. La synthèse vocale émotionnelle peut également permettre de nouvelles applications et de nouveaux scénarios pour le divertissement, tels que le clonage vocal, la conversion vocale, l'usurpation d'identité et le filigrane vocal.
Accessibilité: La synthèse vocale émotionnelle peut améliorer l'accessibilité et l'inclusion des personnes handicapées ou ayant des besoins particuliers, tels que la déficience visuelle, la dyslexie ou l'aphasie, en leur fournissant une parole synthétique expressive et personnalisée pour la communication ou l'information. La synthèse vocale émotionnelle peut également contribuer au bien-être émotionnel et à la santé mentale des personnes handicapées ou ayant des besoins particuliers, en leur fournissant un retour émotionnel ou un accompagnement.

Intégration avec les assistants d'IA et les dispositifs IoT

Intégration de la technologie TTS avec les assistants d'IA et les appareils IoT.

Voici quelques-unes des évolutions dans l'intégration de la technologie TTS avec les assistants IA et les appareils IoT :

Azure Neural TTS sur les appareils: Azure Neural TTS est un puissant service de synthèse vocale qui permet aux utilisateurs de transformer un texte en une parole réaliste grâce à l'IA. Azure Neural TTS a récemment annoncé la disponibilité de voix naturelles sur les appareils pour les scénarios déconnectés et hybrides, tels que les lecteurs d'écran, les assistants vocaux dans les voitures ou les appareils embarqués. Azure Neural TTS sur les appareils peut fournir une qualité, une efficacité et une réactivité élevées pour la synthèse vocale sur divers appareils et plates-formes.
API de synthèse vocale dans le nuage de Google: Google Cloud Text-to-Speech API est un service basé sur le cloud qui permet aux utilisateurs de synthétiser des paroles naturelles grâce aux réseaux neuronaux révolutionnaires de Google. L'API Google Cloud Text-to-Speech prend en charge plus de 140 langues et variantes, et permet aux utilisateurs de personnaliser la hauteur, la vitesse d'élocution et le profil vocal de la synthèse vocale. L'API Google Cloud Text-to-Speech prend également en charge la création et l'ajustement de voix personnalisées afin de créer des voix uniques et personnalisées pour différentes marques et applications.
UberTTS est un synthèse vocale avancée qui combine les capacités des technologies Azure et Google AI susmentionnées en une seule, ainsi que l'utilisation de l'ensemble des technologies Azure et Google AI. Caractéristiques du SSML.
Parole sur l'appareil: Speech On-Device est une solution qui permet aux utilisateurs d'exécuter localement une IA vocale de qualité serveur sur n'importe quel appareil, comme les téléphones, les tablettes, les voitures, les téléviseurs ou les haut-parleurs. Speech On-Device peut fournir une reconnaissance et une synthèse vocales rapides et fiables sans problèmes de connectivité réseau ou de latence. Speech On-Device peut également prendre en charge des fonctionnalités vocales multilingues et interlinguistiques pour divers scénarios et préférences des utilisateurs.

Il est également important de discuter des avantages de l'incorporation des TTS dans les systèmes domestiques intelligents, les soins de santé et les solutions d'accessibilité :

Systèmes domestiques intelligents: Les TTS peuvent améliorer la fonctionnalité et l'interactivité des systèmes domestiques intelligents, tels que les haut-parleurs intelligents, les écrans intelligents ou les appareils intelligents, en leur permettant de communiquer avec les utilisateurs à l'aide d'une parole naturelle et expressive. Les TTS peuvent également améliorer l'expérience et la satisfaction des utilisateurs des systèmes domestiques intelligents, en les rendant plus attrayants et personnalisés.
Soins de santé: Les TTS peuvent améliorer la qualité et l'accessibilité des services de santé, tels que la télémédecine, l'éducation à la santé ou le soutien à la santé mentale, en fournissant aux utilisateurs une synthèse vocale réaliste et personnalisée. Les TTS peuvent également réduire le coût et la durée des soins de santé, en permettant une communication à distance et efficace entre les patients et les prestataires.
Solutions d'accessibilité: Les TTS peuvent aider les personnes souffrant de handicaps ou de besoins particuliers, tels que la déficience visuelle, la dyslexie ou l'aphasie, en leur fournissant une sortie vocale pour la communication ou l'information. Les TTS peuvent également contribuer au bien-être émotionnel et à l'intégration des personnes handicapées ou ayant des besoins particuliers, en leur fournissant un retour d'information émotionnel ou en les accompagnant.

Foire aux questions (FAQ)

Quel est le premier logiciel de synthèse vocale ?

Le premier logiciel de synthèse vocale est Kurzweil Applied Intelligence, qui a publié en 1984 le premier logiciel de reconnaissance vocale disponible dans le commerce pour les ordinateurs personnels. Cependant, les premiers systèmes de synthèse vocale étaient basés sur des ordinateurs et ont été développés à la fin des années 1950 par Bell Laboratories et IBM. Le premier synthétiseur de parole mécanique a été mis au point par Charles Wheatstone au début des années 1800.

Qui est à l'origine de TTS ?

Il n'y a pas de réponse définitive à la question de savoir qui est à l'origine du TTS, car différents chercheurs et entreprises ont contribué au développement des systèmes de synthèse et de reconnaissance vocales au fil des ans. Toutefois, parmi les pionniers du TTS, on peut citer

Christian Kratzenstein, un scientifique germano-danois qui a créé des résonateurs acoustiques imitant le son de la voix humaine dans les années 1700.
Charles Wheatstone, inventeur britannique qui a mis au point le premier synthétiseur vocal mécanique au début des années 1800.
Homer Dudley, ingénieur électricien américain qui a créé le VODER (Voice Operating Demonstrator), le premier synthétiseur vocal électronique, en 1939.
John Larry Kelly Jr, physicien aux laboratoires Bell, qui a utilisé un ordinateur IBM pour synthétiser la parole en 1961.
Noriko Umeda et al, chercheurs au Laboratoire électrotechnique du Japon, qui ont développé le premier système de synthèse vocale en anglais général en 1968.
Ray Kurzweil, inventeur américain qui a mis sur le marché le premier logiciel de reconnaissance vocale pour ordinateurs personnels en 1984.

Quelle est l'histoire de la synthèse vocale ?

L'histoire de la synthèse vocale peut être résumée comme suit :

L'histoire de la synthèse vocale remonte aux années 1700, lorsque certains chercheurs et inventeurs ont essayé de construire des dispositifs mécaniques capables de produire des sons semblables à ceux de l'homme, tels que des résonateurs acoustiques et des synthétiseurs de parole.
L'histoire de la synthèse vocale a progressé au 20e siècle, lorsque des systèmes électroniques et informatiques ont été mis au point pour générer de la parole à partir de textes ou d'autres données, comme le VODER, l'ordinateur IBM et le système du Laboratoire électrotechnique.
L'histoire de la synthèse vocale a progressé à la fin du 20e et au début du 21e siècle, lorsque de nouvelles techniques et technologies ont été introduites pour améliorer la qualité, le naturel et la diversité de la synthèse vocale, comme les réseaux neuronaux, le clonage de voix et l'intégration d'émotions et de styles.

Quel est l'historique de la reconnaissance vocale dans l'IA ?

L'histoire de la reconnaissance vocale dans l'IA peut être résumée comme suit :

La reconnaissance vocale est la technologie qui permet aux ordinateurs de reconnaître et de traduire la langue parlée en texte.
Le premier système de reconnaissance vocale a été développé par les Laboratoires Bell en 1952 et pouvait reconnaître des nombres parlés avec une grande précision.
Dans les années 1960 et 1970, les systèmes de reconnaissance vocale ont élargi leur vocabulaire et utilisé des méthodes probabilistes telles que les modèles de Markov cachés pour améliorer la précision et la vitesse.
Dans les années 1980 et 1990, les systèmes de reconnaissance vocale sont devenus plus indépendants du locuteur et ont utilisé des réseaux neuronaux et des modèles de langage statistiques pour traiter le langage naturel et les grands vocabulaires.
Dans les années 2000 et 2010, les systèmes de reconnaissance vocale ont bénéficié des avancées en matière d'apprentissage profond et de big data, atteignant des performances proches de l'humain dans divers domaines et applications.

Qu'est-ce que la technologie de la synthèse vocale ?

La technologie de la synthèse vocale fait référence au processus de génération d'un discours artificiel à partir d'un texte numérique. Cette technologie est couramment utilisée dans les appareils et les logiciels qui nécessitent une sortie audio du contenu écrit.

Quand les systèmes de synthèse vocale ont-ils été créés ?

Les premiers systèmes de synthèse vocale ont été créés dans les années 1770 par Wolfgang von Kempelen et le professeur russe Christian Kratzenstein. Ces machines acoustiques et mécaniques ont été les premiers appareils à être considérés comme des synthétiseurs de parole.

Quel a été le premier appareil considéré comme un synthétiseur vocal ?

Le premier appareil considéré comme un synthétiseur vocal a été le Voder, créé par Homer Dudley à la fin des années 1930. Il était capable de produire une gamme limitée de sons de type humain et a été utilisé principalement pour les premières expériences de codage de la voix.

Comment la technologie de synthèse a-t-elle évolué au fil du temps ?

La technologie de synthèse a considérablement évolué depuis la création du Voder. Dans les années 1970, Texas Instruments a produit le premier système complet de synthèse vocale, connu sous le nom de "Speak & Spell". Le développement de la synthèse par sélection d'unités dans les années 1980 a permis d'obtenir une parole plus naturelle en assemblant des mots et des phrases préenregistrés. L'introduction des techniques de spectrogramme et du codage prédictif linéaire dans les années 1990 a encore amélioré la qualité de la parole synthétisée. Actuellement, des algorithmes de traitement du langage naturel sont utilisés pour générer une parole hautement réaliste et intelligible.

Qu'est-ce qu'un vocodeur ?

Un vocodeur est un type de synthétiseur vocal qui analyse et synthétise les caractéristiques des signaux vocaux. Il a été inventé à l'origine pour sécuriser les communications pendant la Seconde Guerre mondiale et a depuis été utilisé dans la production musicale pour créer des voix robotisées.

Qu'est-ce que la synthèse de la sélection des unités ?

La synthèse par sélection d'unités est une technique dans laquelle des unités de discours préenregistrées, telles que des mots ou des phrases, sont sélectionnées sur la base de leurs caractéristiques phonétiques et prosodiques et assemblées pour créer un discours à la sonorité naturelle.

Qu'est-ce que la parole intelligible ?

Une parole intelligible est une parole qui peut être comprise par un auditeur. Dans le contexte de la synthèse vocale, il s'agit de la capacité de la parole synthétisée à être perçue aussi clairement et précisément que la parole naturelle.

Qu'est-ce que Dectalk ?

Dectalk est un synthétiseur vocal qui utilise la synthèse concaténative, qui est une autre forme de synthèse par sélection d'unités. Il était couramment utilisé dans les dispositifs d'assistance technologique pour les malvoyants ou les personnes ayant des difficultés de lecture.

Qu'est-ce que les laboratoires Haskins ?

Haskins Laboratories est un institut de recherche privé à but non lucratif qui se consacre à l'étude de la parole, du langage et des processus cognitifs. Ils ont mené des recherches approfondies sur la technologie de la synthèse vocale.

Comment le texte est-il transformé en audio ?

Le texte est transformé en son par le biais de la synthèse vocale. Ce processus consiste à décomposer le texte en éléments phonétiques et linguistiques et à utiliser une technologie de synthèse pour générer des signaux vocaux qui sont ensuite convertis en sortie audio.

Réflexions finales

Sur la base de tout ce qui précède, on peut conclure que l'évolution de la technologie TTS, des voix robotiques à la parole naturelle de type humain, pourrait être la suivante :

La technologie TTS a connu des avancées significatives au cours des dernières décennies, passant de la production de voix robotiques et monotones à la génération d'une parole vivante et expressive. Les principaux moteurs de cette évolution sont le développement de nouvelles techniques de synthèse, telles que les modèles basés sur les réseaux neuronaux, la disponibilité de données vocales nombreuses et variées, et l'application de méthodes d'apprentissage par transfert et d'augmentation des données.

L'évolution de la technologie TTS a permis l'apparition de nouvelles capacités et fonctionnalités, telles que le clonage de la voix, l'intégration des émotions et du style, et l'ajustement de la voix. L'évolution de la technologie TTS a également permis de créer de nouvelles applications et de nouveaux scénarios, tels que les assistants vocaux, les divertissements et les solutions d'accessibilité.

L'évolution de la technologie TTS a également apporté de nouveaux défis et de nouvelles opportunités, tels que les préoccupations éthiques, l'évaluation de la qualité et l'expérience de l'utilisateur. L'évolution de la technologie TTS devrait se poursuivre à l'avenir, à mesure que la recherche et l'innovation se développent dans ce domaine.

Partagez-le avec vos amis et collègues !

Facebook LinkedIn Xing Pinterest Copie

Anson Antoine

Anson est auteur collaborateur et fondateur de www.askeygeek.com. Apprendre quelque chose de nouveau a toujours été sa passion, ASKEYGEEK.com est le résultat de sa passion pour la technologie et les affaires. Il possède une décennie d'expérience polyvalente dans l'externalisation des processus métiers, la finance et la comptabilité, les technologies de l'information, l'excellence opérationnelle et la business intelligence. Au cours de son mandat, il a travaillé pour des organisations telles que Genpact, Hewlett Packard, M*Modal et Capgemini dans divers rôles et responsabilités. En dehors des affaires et de la technologie, c'est un cinéphile qui passe des heures ensemble à regarder et à apprendre le cinéma et un cinéaste aussi !

Laisser un commentaire Annuler la réponse

Plus de 121 000+ lecteurs

Connectez-vous avec ASKEYGEEK.com

Messages récents

*Remise appliquée automatiquement

Créateur d'IA avancé

Un outil d'IA qui fait tout
UberCréer l'IA 🎩