SSML Text To Speech – Utilisez les balises SSML pour créer du contenu attrayant

synthèse vocale ssml
Vous êtes-vous déjà demandé comment produire une synthèse vocale captivante et attirant l'attention à l'aide des balises SSML ? Dans cet article, nous allons nous pencher sur la synthèse vocale SSML, ses fonctions et les raisons pour lesquelles elle peut vous aider à produire des contenus attrayants.
Table des matières

Imaginez que vous puissiez transformer un texte en un discours riche et expressif qui ressemble à s'y méprendre à une voix humaine. C'est là que la synthèse vocale SSML entre en jeu, ouvrant un monde de possibilités pour créer un contenu dynamique et attrayant.

Comprendre les bases du SSML

Qu'est-ce que le SSML ?

  • Définition de SSML et de son rôle dans le contrôle de la synthèse vocale

SSML signifie Speech Synthesis Markup Language (langage de balisage de la synthèse vocale), un langage de balisage basé sur XML. Il s'agit d'une façon d'écrire du texte qui indique à un ordinateur comment le dire à haute voix, ce qui est contenu dans l'élément.

SSML peut contrôler des éléments tels que la vitesse, la hauteur, le volume, la prononciation et l'accentuation du discours. Il peut également ajouter des pauses et d'autres effets pour rendre le discours plus naturel et plus expressif.

  • Comment SSML améliore l'expressivité et le naturel de la parole synthétisée

La synthèse vocale (TTS) est une technologie qui convertit un texte écrit en mots parlés. Les moteurs TTS sont des programmes qui effectuent cette conversion. Cependant, tous les textes ne sont pas faciles à lire ou à prononcer pour un ordinateur.

Parfois, le texte peut contenir des abréviations, des acronymes, des chiffres, des symboles ou des mots étrangers qui nécessitent un traitement spécial. Le SSML peut aider dans ces cas en fournissant des informations et des instructions supplémentaires aux moteurs TTS.

SSML peut également adapter le discours à différents contextes et publics en modifiant le ton, le style et l'humeur de la voix. SSML et TTS travaillent ensemble pour créer une sortie vocale de haute qualité et personnalisée à partir d'une entrée textuelle. 

Comment fonctionne la synthèse vocale SSML ?

Le texte est transformé en un fichier audio qui peut être lu par les utilisateurs via la synthèse vocale SSML. La première étape de la procédure consiste à envoyer le texte à un système TTS, qui l'analyse et le transforme en parole.

Pour fournir au système TTS davantage d'informations et lui permettre de produire un discours plus naturel, des balises SSML sont utilisées. Le fichier audio peut ensuite être lu par les utilisateurs via divers outils, notamment une page web ou une application mobile, une fois que le système TTS l'a préparé.

Mécanisme de fonctionnement des balises SSML dans la synthèse vocale

  • Le processus technique de conversion du texte en parole à l'aide de SSML

L'entrée textuelle est enveloppée de balises SSML qui fournissent des informations et des instructions supplémentaires pour le processus de synthèse vocale. Par exemple, SSML peut définir la voix, la langue, la prononciation, la hauteur, le volume, l'accentuation et d'autres attributs de la sortie vocale.

L'entrée SSML est envoyée à un moteur de synthèse vocale (TTS) qui la convertit en sortie vocale. Le moteur TTS analyse l'entrée SSML et applique les règles et les paramètres spécifiés par les balises. Le moteur TTS utilise également des techniques de traitement du langage naturel et de synthèse vocale pour générer des sorties vocales synthétiques.

La sortie vocale est renvoyée sous la forme d'un fichier ou d'un flux audio qui peut être lu par une application ou un appareil. La sortie vocale doit correspondre à l'entrée SSML en termes de contenu, de structure et de style.

  • Rôle des balises SSML dans le contrôle de la prononciation, de la prosodie et d'autres caractéristiques de la parole

Les balises SSML sont une façon d'écrire du texte qui indique à un ordinateur comment le dire à haute voix. Les balises SSML peuvent contrôler la prononciation, la prosodie et d'autres caractéristiques de la parole synthétisée. En voici un exemple :

  1. Prononciation: Les balises SSML peuvent aider l'ordinateur à prononcer les mots correctement, en particulier lorsqu'ils ont des significations ou des orthographes différentes selon la langue ou le contexte. Les balises SSML peuvent également définir la façon de prononcer les nombres, les dates, les heures, les abréviations, les acronymes et d'autres termes spéciaux. Les balises SSML peuvent utiliser des alphabets phonétiques ou des lexiques personnalisés pour spécifier les sons exacts de la parole.
  2. Prosodie: Les balises SSML peuvent ajuster la hauteur, le débit, le volume et l'accentuation de la sortie vocale. Les balises SSML peuvent modifier le ton, le style et l'humeur de la voix pour s'adapter à différents scénarios et publics. La rupture prosodique par des termes relatifs peut aider à créer des schémas de stress dans les mots et les phrases.
  3. Autres caractéristiques de la parole: Utilisez une balise SSML pour insérer des fichiers audio préenregistrés, tels que des effets sonores ou des notes de musique, dans la sortie vocale. Les balises SSML peuvent également envelopper du texte avec des balises d'événement, telles que des signets ou des visèmes, qui peuvent être traités ultérieurement par l'application..

Les balises SSML et les moteurs TTS travaillent ensemble pour créer une sortie vocale de haute qualité et personnalisée à partir d'une entrée textuelle.

  • Balises SSML couramment utilisées et leur fonctionnalité

Voici quelques exemples de balises SSML :

  1. : Cette balise incorpore un fichier audio dans la sortie vocale. Elle peut être utilisée pour ajouter des effets sonores ou des notes de musique au discours.

  2. : Cette balise insère une pause dans la sortie vocale. Elle peut être définie sur une durée spécifique en secondes ou en millisecondes, ou en fonction de la force de la pause (par exemple après une virgule, une phrase ou un paragraphe).
  3. <emphasis>: Cette balise prononce les mots marqués plus fort et plus lentement pour les mettre en valeur.
  4. <lang>: Cette balise spécifie la langue des mots marqués. Elle peut être utilisée pour passer d'une langue à l'autre ou d'un dialecte à l'autre dans la sortie vocale.
  5. <p>: Cette balise définit un paragraphe dans la sortie vocale. Elle ajoute une pause après le texte balisé pour indiquer la fin d'un paragraphe.
  6. <phoneme>: Cette balise spécifie la prononciation phonétique des mots marqués. Elle peut utiliser des alphabets phonétiques ou des lexiques personnalisés pour améliorer la prononciation des mots difficiles ou ambigus à lire par l'ordinateur.
  7. <prosody>: Cette balise permet de régler le volume, le débit et la hauteur de la sortie vocale. Elle peut être utilisée pour modifier le ton, le style et l'humeur de la voix.
  8. <say-as>: Cette balise contrôle la façon dont certains types de mots sont prononcés, tels que les nombres, les dates, les heures, les abréviations, les acronymes et d'autres termes spéciaux.
  9. : Cette balise substitue une phrase au texte balisé. Elle peut être utilisée pour prononcer les acronymes et les abréviations comme des mots complets.
  10. <w>: Cette balise améliore la prononciation en spécifiant la partie du discours du mot marqué. Elle peut être utilisée pour désambiguïser des mots qui ont des prononciations différentes en fonction de leur rôle grammatical.

Comment implémenter SSML dans la synthèse vocale ?

Manuel SSML

La mise en œuvre de la synthèse vocale SSML est relativement simple. Tout d'abord, vous devez choisir un système de synthèse vocale prenant en charge SSML, tel que Google Cloud Text-to-Speech ou Amazon Polly. Une fois que vous avez choisi un système TTS, vous pouvez commencer à ajouter des balises SSML à votre texte pour créer une voix plus naturelle. Pour commencer à utiliser le SSML, vous pouvez vous référer à la documentation du système TTS ou trouver des tutoriels en ligne.

Automatique SSML

Si vous n'êtes pas familiarisé avec les balises SSML et les formats XML et que vous ne souhaitez pas passer par la courbe d'apprentissage, nous vous suggérons d'utiliser des solutions avancées de synthèse vocale telles que UberTTS ou VOIX qui intègrent automatiquement les balises SSML.

Pourquoi utiliser UberTTS ?

Le SSML est pris en charge par la plupart des plateformes et applications de synthèse vocale, telles que Google Cloud Text-to-Speech, Amazon Polly, Microsoft Azure Speech Services, etc. Pour utiliser le SSML, vous devez écrire votre texte au format XML et inclure l'élément Balises SSML dans l'élément .

Si vous n'êtes pas familiarisé avec le code SSML, il devient difficile d'obtenir les résultats souhaités. C'est là qu'intervient UberTTS SSML Text To Speec.h s'avère très utile. Avec UberTTS, il suffit de sélectionner un menu déroulant pour obtenir le résultat souhaité. Il n'est pas nécessaire d'écrire manuellement ou de connaître les balises SSML ou les formats XML, il suffit de sélectionner l'option dans la liste déroulante et de placer votre texte entre le code XML qui a été automatiquement créé en fonction de la sélection.

Par exemple :

				
					<speak>
  Hello, <break time="500ms"/> world!
</speak>

				
			

Ce code SSML permet au moteur TTS de dire "Hello", puis de marquer une pause d'une demi-seconde avant de dire "world". Vous pouvez utiliser différents attributs et valeurs pour personnaliser les balises SSML en fonction de vos besoins.

Par exemple :

				
					<speak>
  <prosody rate="slow" pitch="+10st">Wow</prosody>, this is <emphasis level="strong">amazing</emphasis>!
</speak>

				
			

Ce code SSML permet au moteur TTS de dire "Wow" lentement et avec une tonalité plus aiguë, puis de dire "amazing" avec une forte emphase.

Vous pouvez créer un compte gratuit avec UberTTS et essayer d'utiliser les options de synthèse vocale SSML.

SSML peut vous aider à créer une sortie vocale plus naturelle et plus expressive à partir de votre texte. Il peut également vous aider à surmonter certaines des limites ou des défis du TTS, comme la gestion des abréviations, des acronymes, des nombres, des dates ou des mots étrangers. En utilisant SSML, vous pouvez améliorer votre expérience TTS et la rendre plus attrayante et plus efficace pour votre public.

Essayez UberTTS dès aujourd'hui pour voir ce que SSML peut réaliser avec la synthèse vocale.

Meilleures pratiques pour la synthèse vocale SSML

Meilleures pratiques pour tester et affiner les sorties vocales basées sur le SSML

Il est essentiel de respecter les pratiques recommandées lors de l'utilisation de la synthèse vocale SSML afin de produire la voix la plus réaliste possible. Nous vous suggérons notamment d'utiliser l'accentuation et la pause appropriées, de ne pas utiliser les balises SSML de manière excessive et d'utiliser les paramètres linguistiques et vocaux adaptés à votre public.

Afin de s'assurer que votre synthèse vocale SSML est compréhensible et claire, il est également essentiel de la tester auprès d'utilisateurs réels.

Voici quelques bonnes pratiques pour tester et affiner les sorties vocales basées sur le SSML :

  1. Utiliser l'outil de création de contenu audio: Il s'agit d'un outil sans code qui vous permet de créer du texte simple et du SSML dans Speech Studio. Vous pouvez écouter la sortie audio et ajuster le SSML pour améliorer la synthèse vocale. Vous pouvez également exporter le code SSML pour votre application.
  2. Utiliser la galerie vocale: Il s'agit d'une page web qui vous permet d'entendre des voix de styles et de hauteurs différents lisant un texte d'exemple. Vous pouvez l'utiliser pour comparer et sélectionner la meilleure voix pour votre scénario.
  3. Utiliser l'interface de commande vocale: Il s'agit d'un outil en ligne de commande qui vous permet de synthétiser la parole à partir d'un texte ou d'une entrée SSML. Vous pouvez l'utiliser pour tester et déboguer rapidement votre code SSML.
  4. Utiliser le Speech SDK : Il s'agit d'un kit de développement logiciel qui vous permet d'intégrer la synthèse vocale dans votre application. Vous pouvez l'utiliser pour fournir des données SSML via la méthode SSML "speak".
  5. Utiliser l'API de synthèse par lots: Il s'agit d'une API REST qui vous permet de synthétiser de manière asynchrone des fichiers de synthèse vocale de plus de 10 minutes (tels que des livres audio ou des conférences). Vous pouvez l'utiliser pour fournir des entrées SSML via la propriété inputs.
  6. Utiliser la référence SSML: Il s'agit d'une page web qui fournit des informations détaillées et des exemples de balises et d'attributs SSML pris en charge. Vous pouvez l'utiliser pour apprendre à utiliser SSML pour contrôler divers aspects de la sortie vocale, tels que la prononciation, la prosodie, la voix, la langue, etc.

Outils et techniques permettant d'obtenir un son naturel et de haute qualité

Voici quelques outils et techniques qui permettent d'obtenir un son naturel et de haute qualité :

  1. Google Cloud Text-to-Speech: Il s'agit d'un service basé sur l'informatique dématérialisée qui convertit le texte en paroles naturelles à l'aide d'une API alimentée par les technologies d'intelligence artificielle de Google. Il offre un large éventail de voix, de langues et de styles, ainsi que la possibilité de créer des voix personnalisées et d'affiner la sortie vocale à l'aide de SSML.
  2. UberTTS & VOICEAIR Text To Speech intègre la technologie Google Cloud Text-to-Speech AI dans l'outil, ainsi que d'autres solutions AI d'AWS, Azure et IBM. 
  3. Translatotron 2: Il s'agit d'un projet de recherche qui développe un système de traduction directe de la parole à la parole qui peut préserver la voix du locuteur source dans la parole traduite. Il utilise une nouvelle architecture de modèle et une nouvelle méthode pour le transfert de la voix qui améliore la qualité de la traduction, le naturel de la parole et la robustesse de la parole.
  4. WaveGlow : Il s'agit d'un projet de recherche qui développe un réseau basé sur le flux capable de générer une parole de haute qualité à partir de spectrogrammes mélodiques. Il combine les connaissances de Glow et WaveNet pour fournir une synthèse audio rapide, efficace et de haute qualité, sans besoin d'auto-régression.

Exploiter la puissance de la synthèse vocale SSML

Personnalisation de la synthèse vocale avec SSML

Permettez-moi de vous donner quelques exemples de la manière dont SSML peut améliorer votre contenu de synthèse vocale. Supposons que vous souhaitiez vous présenter sur un ton amical et décontracté. Vous pouvez utiliser la balise pour spécifier le nom et le style de la voix que vous souhaitez utiliser.

Par exemple, j'utilise la voix UberTTS nommée "Aria" avec le style "cheerful". Voici ce que cela donne :

				
					<voice name=\"Aria\" style=\"cheerful\">Hi, I'm Aria, and I'm happy to be your text-to-speech narrator today.</voice>
				
			

Supposons maintenant que vous souhaitiez mettre l'accent sur un certain mot ou une certaine phrase dans votre discours. Vous pouvez utiliser la balise pour ajuster le niveau d'accentuation du mot ou de la phrase.

Par exemple, si je veux souligner à quel point j'aime SSML, je peux utiliser le niveau "strong". Voici ce que cela donne :

				
					<voice name=\"Aria\" style=\"cheerful\">I <emphasis level=\"strong\">love</emphasis> SSML!</voice>
				
			

Une autre façon d'utiliser SSML est de contrôler la prononciation de mots ou d'expressions qui pourraient être difficiles ou ambigus pour le moteur de synthèse vocale. Vous pouvez utiliser la balise pour spécifier comment un mot ou une expression doit être interprété par le moteur de synthèse vocale.

Par exemple, si je veux prononcer l'acronyme "SSML", je peux utiliser l'attribut interpret-as "characters" pour m'assurer que chaque lettre est prononcée séparément. Voici ce que cela donne :

				
					<voice name=\"Aria\" style=\"cheerful\">The acronym <say-as interpret-as=\"characters\">SSML</say-as> stands for Speech Synthesis Markup Language.</voice>
				
			

Vous pouvez également utiliser SSML pour insérer des éléments audio dans votre sortie vocale. Vous pouvez utiliser la balise

				
					<voice name=\"Aria\" style=\"cheerful\">SSML is amazing! <audio src=\"https://www.example.com/applause.mp3\">Sorry, I couldn't play the applause sound.</audio></voice>
				
			

Ce ne sont là que quelques-unes des façons dont vous pouvez utiliser SSML pour créer un contenu dynamique et attrayant avec la synthèse vocale. Il existe de nombreuses autres balises et attributs SSML que vous pouvez explorer et expérimenter.

Synthèse vocale multilingue et accentuée

Synthèse vocale multilingue et accentuée. Qu'est-ce que c'est ? Il s'agit d'une technologie qui permet à un ordinateur de parler dans différentes langues et avec différents accents, comme le font les humains. Imaginez que vous puissiez écouter votre podcast préféré en espagnol avec un accent britannique, ou votre livre audio préféré en français avec un accent indien. Ça a l'air génial, non ?

Mais comment cela fonctionne-t-il ? Comment un ordinateur peut-il apprendre à parler couramment une langue étrangère ou à imiter différents accents ? Il existe différentes approches de ce problème, mais l'une des plus populaires est basée sur des modèles de synthèse vocale de bout en bout. Il s'agit de réseaux neuronaux capables de convertir directement le texte en parole, sans passer par des étapes intermédiaires telles que la transcription phonétique ou la prédiction de la prosodie. Ils peuvent produire une parole de haute qualité et à la sonorité naturelle, difficile à distinguer de la parole humaine.

Cependant, la plupart de ces modèles sont formés à partir de données provenant d'une seule langue et d'un seul locuteur, ce qui limite leur capacité à s'appliquer à d'autres langues et locuteurs. Pour surmonter cette limitation, certains chercheurs ont proposé des modèles TTS multilingues et multilocuteurs qui peuvent apprendre des représentations partagées entre les langues et les locuteurs, et les utiliser pour synthétiser la parole avec des caractéristiques différentes.

Par exemple, RADTTS est un modèle qui peut contrôler l'accent, la langue, le locuteur et les caractéristiques fines de la parole synthétisée, sans dépendre de données d'apprentissage bilingues. Il peut générer de la parole avec n'importe quel accent pour n'importe quel locuteur dans son ensemble de données, qui comprend sept accents.

Un autre exemple est un modèle qui peut réaliser un TTS multilingue avec des données d'entraînement bilingues limitées. Les résultats de ce modèle synthétisent la parole pour les locuteurs qui n'ont enregistré des données que dans une seule langue, en transférant les caractéristiques de leur voix dans une autre langue. Il utilise une nouvelle architecture qui combine un décodeur autorégressif avec un décodeur non autorégressif, et tire parti d'un gramme postérieur phonétique multilingue comme représentation intermédiaire.

Ce ne sont là que quelques exemples de la manière dont la synthèse vocale multilingue et accentuée peut être réalisée à l'aide de réseaux neuronaux. Il existe de nombreux autres défis et opportunités dans ce domaine, tels que l'amélioration du naturel et de la diversité de la parole, la gestion du changement de code et des scénarios de langues mixtes, et l'adaptation à de nouvelles langues et à de nouveaux locuteurs grâce à l'apprentissage à petite échelle.

Créer des expériences personnalisées et interactives avec les balises SSML

Mise en œuvre de la logique conditionnelle et des réponses vocales pilotées par l'utilisateur

Les balises SSML permettent notamment de mettre en œuvre une logique conditionnelle et des réponses vocales pilotées par l'utilisateur :

Google Cloud Text-to-Speech: Ce service vous permet d'utiliser des balises SSML pour personnaliser la sortie vocale en fonction de diverses conditions et entrées utilisateur. Par exemple, vous pouvez utiliser la balise pour spécifier une sortie vocale différente en fonction de la valeur d'une variable ou d'une expression. Vous pouvez également utiliser la balise pour insérer un marqueur dans un flux de sortie qui peut déclencher des événements ou des actions dans votre application.

Kit de compétences Alexa: Ce cadre vous permet d'utiliser des balises SSML pour créer des expériences vocales dynamiques et attrayantes pour les utilisateurs d'Alexa. Par exemple, vous pouvez utiliser la balise pour envelopper votre sortie SSML et indiquer qu'elle utilise SSML plutôt que du texte brut. Vous pouvez également utiliser la balise Amazon:effect pour appliquer des effets spéciaux à votre sortie vocale, comme le chuchotement ou la modification de la hauteur.

Vous pouvez tirer parti des avantages des balises Amazon et Google Cloud TTS SSML en utilisant UberTTS ou VOICEAIR et cune interaction vocale spécifique plus dynamique et personnalisée.

Applications et avantages de la synthèse vocale SSML

L'utilisation de la synthèse vocale SSML présente plusieurs avantages par rapport à d'autres systèmes TTS. Tout d'abord, il permet de mieux contrôler la sortie du système TTS, ce qui se traduit par une parole plus naturelle.

Deuxièmement, elle peut être appliquée à la production de contenus plus intéressants, comme les systèmes de réponse vocale interactive (RVI) ou les livres audio. Enfin, elle peut être utilisée pour fournir du matériel plus accessible, permettant l'accès aux personnes souffrant de déficiences visuelles ou d'autres handicaps.

Accessibilité et inclusivité grâce à SSML

Pourquoi le SSML est-il important pour l'accessibilité et l'inclusion ? Imaginons que vous ayez un podcast ou une vidéo et que vous souhaitiez toucher un public plus large, y compris des personnes sourdes ou malentendantes, ou des personnes parlant une langue différente de la vôtre. 

Vous pouvez utiliser SSML Text To Speech pour créer des sous-titres ou des légendes pour votre contenu, ou même le traduire dans une autre langue. Vous pouvez ainsi vous assurer que tout le monde peut comprendre et apprécier votre contenu, quelle que soit sa capacité auditive ou sa préférence linguistique.

Mais SSML Text To Speech n'est pas seulement utile pour créer des légendes ou des sous-titres. Il peut également vous aider à rendre vos fichiers audio plus expressifs et plus attrayants pour vos auditeurs. 

Par exemple, vous pouvez utiliser SSML pour accentuer certains mots ou phrases, changer le ton ou le style de votre voix, ou ajouter de l'humour ou de l'émotion à votre discours. Vous pouvez également utiliser SSML pour créer différents personnages ou personas pour votre audio, comme un narrateur, un professeur, un ami ou un robot.

Comment utiliser la synthèse vocale SSML ? Il existe différentes façons de procéder, en fonction de la plateforme ou de l'outil que vous utilisez. Par exemple, si vous utilisez l'API Google Cloud Text-to-Speech, vous pouvez envoyer un document SSML dans votre requête et obtenir une réponse audio. 

Si vous utilisez Microsoft Azure Cognitive Services Speech Service, vous pouvez utiliser l'outil de création de contenu audio pour créer du texte brut et du SSML dans Speech Studio. Vous pouvez également utiliser l'API de synthèse par lots, le CLI Speech ou le SDK Speech pour fournir une entrée SSML.

L'exemple suivant est un document SSML que j'ai créé pour ce billet de blog, n'hésitez pas à l'utiliser avec UberTTS ou tout autre SSML. logiciel de synthèse vocale pour l'écouter :

				
					<speak>
  <voice name="en-US-JennyNeural">
    Hi everyone! Welcome to my blog where I share my thoughts and tips on how to create accessible and inclusive content using technology.
    <break time="500ms"/>
    Today, I want to talk about how you can use <say-as interpret-as="characters">SSML</say-as> Text To Speech to make your audio more engaging and natural for your listeners.
    <break time="500ms"/>
    <prosody rate="+10%">SSML</prosody> stands for Speech Synthesis Markup Language, and it is an XML-based language that allows you to customize various aspects of your text-to-speech output,
    such as pitch, rate, volume, pronunciation, and more.
    <break time="500ms"/>
    You can also use <prosody rate="+10%">SSML</prosody> to insert pauses,
    breaks,
    sound effects,
    <audio src="https://www.example.com/laugh.mp3">a laugh</audio>,
    and different voices in your audio.
  </voice>
  <voice name="en-US-GuyNeural">
    Why is this important for accessibility and inclusivity?
    <break time="500ms"/>
    Well,
    imagine you have a podcast or a video that you want to reach a wider audience,
    including people who are deaf or hard of hearing,
    or people who speak a different language than you.
    <break time="500ms"/>
    You can use <prosody rate="+10%">SSML</prosody> Text To Speech
    to create captions or subtitles for your content,
    or even translate it into another language.
    <break time="500ms"/>
    This way,
    you can make sure that everyone can understand and enjoy your content,
    regardless of their hearing ability or language preference.
  </voice>
  <voice name="en-US-JennyNeural">
    But <prosody rate="+10%">SSML</prosody> Text To Speech is not only useful for creating captions or subtitles.
    It can also help you make your audio more expressive and engaging for your listeners.
    <break time="500ms"/>
    For example,
    you can use <prosody rate="+10%">SSML</prosody> to emphasize certain words or phrases,
    change the tone or style of your voice,
    or add some humor or emotion to your speech.
    <break time="500ms"/>
    You can also use <prosody rate="+10%">SSML</prosody> to create different characters or personas for your audio,
    such as a narrator,
    a teacher,
    a friend,
    or a robot.
  </voice>
  <voice name="en-US-GuyNeural">
    How do you use <prosody rate="+10%">SSML</prosody> Text To Speech?
    <break time="500ms"/>
    Well,
    there are different ways to do it,
    depending on what platform or tool you are using.
    <break time="500ms"/>
    For example,
    if you are using Google Cloud Text-to-Speech API,
    you can send an SSML document in your request and get an audio response.
    <break time="500ms"/>
    If you are using Microsoft Azure Cognitive Services Speech Service,
    you can use the Audio Content Creation tool to author plain text and SSML in Speech Studio.
    <break time="500ms"/>
    You can also use the Batch synthesis API,
    the Speech CLI,
    or the Speech SDK
    to provide SSML input.
  </voice>
  <voice name="en-US-JennyNeural">
    Here is an example of an SSML document that I created for this blog post:
  </voice>
</speak>
				
			

Comme vous pouvez le voir, j'ai utilisé différents éléments SSML pour rendre mon audio plus intéressant et dynamique. J'ai utilisé l'élément pour basculer entre deux voix, la voix féminine Jenny et la voix masculine Guy, qui sont toutes deux des voix neurales provenant d'UberTTS et exploitant l'API Microsoft Azure Cognitive Services Speech Service. 

J'ai utilisé l'élément pour épeler l'acronyme SSML. J'ai utilisé l'élément pour augmenter le débit du SSML. J'ai utilisé l'élément pour insérer des pauses de différentes longueurs. Et j'ai utilisé l'élément

SSML Text To Speech pour l'apprentissage en ligne et les applications éducatives

Pourquoi la synthèse vocale SSML est-elle importante pour l'apprentissage en ligne et les applications éducatives ? Imaginons que vous créiez un cours en ligne ou un podcast qui utilise la synthèse vocale pour diffuser votre contenu. Vous voulez que vos apprenants aient une expérience d'écoute agréable et engageante, n'est-ce pas ? Vous ne voulez pas qu'ils s'ennuient ou soient déroutés par une voix robotique ou monotone qui prononce mal les mots ou ignore la ponctuation. Avec SSML, vous pouvez améliorer vos résultats TTS et les rendre plus humains et naturels.

Par exemple, vous pouvez utiliser les balises SSML pour :

  • - Préciser comment prononcer les acronymes, les abréviations, les nombres, les dates, etc.
  • - Mettre l'accent sur certains mots ou phrases
  • - Ajuster la hauteur, le débit ou le volume de la voix
  • - Insérer des pauses entre les phrases ou les paragraphes
  • - Modifier la voix ou la langue de l'orateur
  • - Ajouter des effets sonores ou de la musique de fond

Le langage SSML est pris en charge par la plupart des moteurs et plateformes de synthèse vocale, tels que Amazon Polly, Google Cloud Text-to-Speech, Microsoft Azure Speech Services, IBM Watson Text to Speech, etc. Vous pouvez également utiliser SSML avec certains outils de création d'apprentissage en ligne, comme Articulate Storyline ou Adobe Captivate.

Pour utiliser le SSML, vous devez écrire votre contenu textuel au format XML et l'entourer de balises . Vous pouvez ensuite ajouter d'autres balises SSML à l'intérieur des balises pour modifier la sortie vocale. Par exemple, voici comment vous pouvez écrire "Hello world" en SSML :

				
					<speak>Hello world</speak>
				
			

C'est ainsi que l'on écrirait "Hello world" avec une tonalité plus aiguë et une pause plus longue :

				
					<speak><prosody pitch="+10%">Hello world</prosody><break time="1000ms"/></speak>
				
			

Vous trouverez d'autres exemples et de la documentation sur l'utilisation de SSML sur les sites web des moteurs TTS ou des plates-formes que vous utilisez.

Assistants vocaux et systèmes de réponse vocale interactive (IVR)

L'utilisation de SSML avec les assistants vocaux et les systèmes IVR dépend de la plateforme et du service que vous utilisez, mais en général, vous devez faire deux choses :

  1. Rédigez votre document SSML avec les balises et les attributs qui correspondent à vos besoins. Vous trouverez ici des exemples et des tutoriels sur la manière d'écrire du SSML pour différentes plateformes :
    API de synthèse vocale dans le nuage de Google et Microsoft Azure Cognitive Services Speech Service
  2. Envoyez votre document SSML au service de synthèse vocale que vous utilisez, par le biais d'une API, d'une CLI, d'un SDK ou d'un outil. Le service synthétisera alors votre texte en parole et renverra un fichier ou un flux audio que vous pourrez lire à vos utilisateurs.

Voici quelques avantages de l'utilisation de SSML avec les assistants vocaux et les systèmes IVR :

  • - Vous pouvez créer des interactions vocales plus attrayantes et personnalisées pour vos utilisateurs, en ajoutant des pauses, de l'emphase, des effets sonores ou des voix différentes.
  • - Vous pouvez améliorer la clarté et la précision de votre message vocal en spécifiant la façon dont les mots ou les expressions doivent être prononcés ou épelés.
  • - Vous pouvez prendre en charge plusieurs langues et lieux dans vos applications vocales, en passant d'une voix à l'autre et d'une langue à l'autre au sein d'un même document SSML.

Orientations futures et innovations en matière de synthèse vocale SSML

L'une des orientations futures possibles du SSML TTS est de permettre une synthèse vocale plus expressive et naturelle en utilisant des **styles vocaux** et des **étiquettes d'émotion**. Les styles vocaux sont des variations prédéfinies d'une voix qui peuvent traduire différentes humeurs, personnalités ou scénarios d'expression.

Par exemple, vous pouvez utiliser un style de voix pour rendre une voix joyeuse, calme, empathique ou en colère. Les balises d'émotion sont des éléments SSML qui peuvent modifier la sortie vocale pour exprimer une émotion spécifique, telle que la joie, la tristesse, la peur ou la surprise.

Par exemple, vous pouvez utiliser une balise d'émotion pour qu'une voix soit joyeuse lorsqu'elle dit "félicitations" ou triste lorsqu'elle dit "je suis désolé". En utilisant des styles de voix et des balises d'émotion, vous pouvez créer des contenus vocaux plus réalistes et plus attrayants qui s'adaptent à différents contextes et publics.

Une autre orientation possible pour l'avenir est d'améliorer la prononciation et l'intelligibilité de la synthèse vocale en utilisant des **phonèmes**, des **lexiques personnalisés** et des balises **say-as**. Les phonèmes sont les plus petites unités sonores qui composent un mot. Vous pouvez utiliser les phonèmes pour spécifier la façon dont une partie d'un mot doit être prononcée. Les lexiques personnalisés sont des dictionnaires définis par l'utilisateur qui associent les mots à leur prononciation.

Vous pouvez utiliser des lexiques personnalisés pour remplacer la prononciation par défaut des mots qui ne figurent pas dans le dictionnaire standard ou qui ont plusieurs prononciations. Les balises Say-as sont des éléments SSML qui peuvent modifier la prononciation d'un mot ou d'une phrase en fonction de son type ou de son format.

Par exemple, vous pouvez utiliser une balise say-as pour épeler un acronyme, lire une date ou une heure, ou dire un nombre comme ordinal ou cardinal. En utilisant des phonèmes, des lexiques personnalisés et des balises "dire comme", vous pouvez améliorer la précision et la clarté de la synthèse vocale pour différentes langues et différents domaines.

Une troisième orientation possible est d'améliorer l'interactivité et la personnalisation de la synthèse vocale en utilisant les balises **audio** et **sub**. Les balises audio sont des éléments SSML qui permettent d'insérer des clips audio préenregistrés dans la synthèse vocale.

Par exemple, vous pouvez utiliser une balise audio pour ajouter un effet sonore, une note de musique ou un bruit de fond au contenu du discours. Les balises secondaires sont des éléments SSML qui peuvent remplacer un mot ou une phrase par un autre. Par exemple, vous pouvez utiliser une balise sub pour remplacer une abréviation par sa forme complète, un terme technique par sa définition ou un nom par son surnom. En utilisant des balises audio et des balises secondaires, vous pouvez créer un contenu vocal plus interactif et personnalisé qui peut capter l'attention et l'intérêt des auditeurs.

Il s'agit là de quelques-unes des orientations et innovations futures de la synthèse vocale SSML qui peuvent la rendre plus puissante et plus polyvalente. La synthèse vocale SSML est une technologie qui présente de nombreuses applications et de nombreux avantages pour divers secteurs et domaines. En utilisant les éléments et attributs SSML, vous pouvez créer un contenu dynamique et attrayant qui peut améliorer l'expérience et la satisfaction de l'utilisateur.

Considérations éthiques et défis liés au SSML TTS

L'une des considérations éthiques liées à l'utilisation de SSML dans le cadre de la conversion de textes en discours est la suivante authenticité et transparence de la sortie vocale. Comment s'assurer que les auditeurs savent qu'ils écoutent une voix synthétique et non une voix humaine ? 

Comment éviter de les induire en erreur ou de les tromper avec des voix manipulées ou fabriquées ? Comment respecter les droits et les préférences des acteurs ou des locuteurs originaux dont les voix sont utilisées pour créer les voix synthétiques ? 

Voici quelques-unes des questions que vous devez vous poser lorsque vous utilisez la synthèse vocale SSML pour la création de votre contenu.

Une autre considération d'ordre éthique est la l'accessibilité et l'inclusion de la synthèse vocale. Comment vous assurez-vous que le discours est clair, compréhensible et adapté à votre public cible ? 

Comment tenez-vous compte de la diversité et de la variabilité de la parole humaine, comme les accents, les dialectes, les langues, les sexes, les âges et les émotions ? Comment éviter les préjugés ou la discrimination dans le choix de la voix, de la langue, du style et du rôle ? Telles sont quelques-unes des questions que vous devez vous poser lorsque vous utilisez la synthèse vocale SSML pour la diffusion de votre contenu.

Certains des défis que vous pouvez rencontrer lors de l'utilisation de la synthèse vocale SSML sont liés à la qualité et à la performance de la technologie. Comment s'assurer que la sortie vocale est naturelle, fluide et expressive ? 

Comment gérer les limites et les erreurs du moteur de synthèse vocale, telles que les fautes de prononciation, les intonations incorrectes ou les pauses non naturelles ? Comment optimiser la synthèse vocale pour différents appareils, plates-formes et environnements ? 

Voici quelques-unes des questions que vous devez vous poser lorsque vous utilisez la synthèse vocale SSML pour l'optimisation de votre contenu.

La synthèse vocale SSML est une technologie puissante et polyvalente qui peut vous aider à créer un contenu dynamique et attrayant pour divers scénarios. Cependant, elle s'accompagne également de considérations et de défis éthiques dont vous devez être conscient et que vous devez relever. 

En utilisant la synthèse vocale SSML de manière responsable et créative, vous pouvez améliorer votre expérience de création et de diffusion de contenu.

Foire aux questions (FAQ)

Le rôle du SSML dans la synthèse vocale est de fournir des informations et des instructions supplémentaires à l'ordinateur pour qu'il génère une sortie vocale plus naturelle et plus expressive. Le SSML peut contrôler des éléments tels que la vitesse, la hauteur, le volume, la prononciation et l'accentuation de la parole. 

SSML peut également ajouter des pauses, des interruptions et d'autres effets pour rendre le discours plus naturel et plus expressif. Le SSML peut également aider à prononcer les mots correctement, en particulier lorsque leur signification ou leur orthographe diffère d'une langue à l'autre ou d'un contexte à l'autre. 

Le SSML peut également adapter le discours à différents contextes et publics en modifiant le ton, le style et l'humeur de la voix. Le SSML et les moteurs de synthèse vocale travaillent ensemble pour créer une sortie vocale de haute qualité et personnalisée à partir d'une entrée textuelle.

Vous pouvez utiliser SSML pour personnaliser la sortie vocale en utilisant différentes balises et différents attributs SSML. Les balises SSML sont une façon d'écrire du texte qui indique à l'ordinateur comment le dire à voix haute. Les balises SSML peuvent contrôler divers aspects de la sortie vocale, tels que la prononciation, la prosodie, la voix, la langue, etc. 

Par exemple, vous pouvez utiliser la balise pour contrôler la façon dont certains types de mots sont prononcés, tels que les nombres, les dates, les heures, les abréviations, les acronymes et d'autres termes spéciaux. Vous pouvez également utiliser la balise pour ajuster le volume, la vitesse d'élocution et la hauteur de la sortie vocale. Vous pouvez également utiliser la balise

Vous pouvez également utiliser la balise pour spécifier une sortie vocale différente en fonction de la valeur d'une variable ou d'une expression. Il existe de nombreuses autres balises et attributs SSML que vous pouvez utiliser pour personnaliser la sortie vocale. Pour en savoir plus, vous pouvez consulter les pages de référence SSML des différents services ou plates-formes de synthèse vocale.

Voici quelques langages de programmation qui prennent en charge la mise en œuvre du SSML :

  • Python: Vous pouvez utiliser le SDK ASK pour Python afin de construire des réponses pour les compétences Alexa à l'aide de Python. Vous pouvez utiliser l'objet response_builder pour construire des réponses à l'aide de fonctions d'aide pour les balises SSML. Vous pouvez également utiliser la fonction get_speechcon_text_content pour obtenir un objet de contenu textuel avec un speechcon (un mot qu'Alexa prononce de manière plus expressive) inséré.
  • C#: Vous pouvez utiliser le Speech SDK pour C# pour intégrer la synthèse vocale dans votre application à l'aide de C#. Vous pouvez utiliser la classe SpeechSynthesizer pour créer un objet de synthèse vocale qui peut synthétiser la parole à partir d'un texte ou d'une entrée SSML. Vous pouvez également utiliser la méthode SpeakSsmlAsync pour synthétiser de manière asynchrone la parole à partir d'une entrée SSML.
  • Java: Vous pouvez utiliser le SDK ASK pour Java afin de créer des réponses pour les compétences Alexa à l'aide de Java. Vous pouvez utiliser la classe ResponseBuilder pour construire des réponses à l'aide de méthodes d'aide pour les balises SSML. Vous pouvez également utiliser la classe SsmlOutputSpeech pour créer un objet vocal de sortie contenant du contenu SSML.

Voici quelques plates-formes gratuites ou libres compatibles avec SSML :

  • Google Cloud Text-to-Speech: Il s'agit d'un service basé sur l'informatique dématérialisée qui convertit le texte en paroles naturelles à l'aide d'une API alimentée par les technologies d'intelligence artificielle de Google. Il offre un large éventail de voix, de langues et de styles, ainsi que la possibilité de créer des voix personnalisées et d'affiner la sortie vocale à l'aide de SSML.
  • OpenTTS: Il s'agit d'un serveur de synthèse vocale open source qui unifie l'accès à plusieurs systèmes de synthèse vocale open source et à des voix pour de nombreuses langues. Il prend en charge un sous-ensemble de SSML qui peut utiliser plusieurs voix, systèmes de synthèse vocale et langues.
  • eSpeak: Il s'agit d'un logiciel open source compact de synthèse vocale pour l'anglais et d'autres langues. Il prend en charge les entrées SSML et peut être utilisé comme interface pour d'autres moteurs de synthèse vocale.

Oui, SSML peut être utilisé pour générer des discours dans plusieurs langues. Le SSML prend en charge la balise qui peut spécifier la langue des mots marqués. Elle peut être utilisée pour passer d'une langue à l'autre ou d'un dialecte à l'autre dans la sortie vocale. Par exemple, vous pouvez utiliser la balise pour dire bonjour dans différentes langues :

Hello Hola Bonjour 你好 .

Cependant, tous les services ou plates-formes de synthèse vocale ne prennent pas en charge le même ensemble de langues ou de balises SSML. Vous devez vérifier la documentation et la disponibilité du service ou de la plateforme que vous utilisez avant d'utiliser SSML pour générer de la parole en plusieurs langues. 

Oui, le SSML offre des options pour contrôler la vitesse et le volume de la parole. Le SSML prend en charge la balise qui permet d'ajuster le volume, la vitesse d'élocution et la hauteur de la sortie vocale. Elle peut être utilisée pour modifier le ton, le style et l'humeur de la voix. Par exemple, vous pouvez utiliser la balise pour prononcer une phrase plus vite et plus fort :

Il s'agit d'une phrase rapide et forte.

Cependant, tous les services ou plates-formes de synthèse vocale ne prennent pas en charge le même ensemble d'attributs ou de valeurs de prosodie. Vous devez vérifier la documentation et la compatibilité du service ou de la plateforme que vous utilisez avant d'utiliser SSML pour contrôler la vitesse et le volume de la parole.

Les avantages de l'intégration de SSML dans les applications d'apprentissage en ligne sont les suivants :

  • Renforcer l'engagement et la motivation de l'apprenant : SSML peut être utilisé pour créer des interactions vocales dynamiques et personnalisées qui peuvent capter l'attention et l'intérêt des apprenants. Le SSML peut également ajouter de l'émotion et de l'expression à la sortie vocale, la rendant plus naturelle et plus humaine.
  • Améliorer la compréhension et la rétention : SSML peut être utilisé pour contrôler le rythme, le ton et l'accentuation de la sortie vocale, ce qui permet aux apprenants de suivre et de comprendre plus facilement le contenu. Le langage SSML peut également ajouter des pauses, des interruptions et des effets sonores à la sortie du discours, ce qui le rend plus clair et plus mémorable.
  • Favoriser l'accessibilité et l'inclusion : Le langage SSML peut être utilisé pour fournir des modes d'apprentissage alternatifs aux apprenants souffrant de déficiences visuelles, auditives ou cognitives. Le langage SSML peut également aider les apprenants qui parlent des langues ou des dialectes différents en utilisant la balise pour passer d'une langue à l'autre ou en utilisant la balise pour contrôler la façon dont les mots sont prononcés.

Les SSML peuvent contribuer à l'accessibilité des utilisateurs malvoyants en fournissant des modes alternatifs d'apprentissage et de communication qui peuvent surmonter les barrières du contenu visuel. Le langage SSML peut :

  • Activer la conversion texte-parole: SSML peut être utilisé pour convertir un texte écrit en mots parlés qui peuvent être entendus par les utilisateurs malvoyants. SSML peut également contrôler les attributs de la sortie vocale tels que la hauteur, la prononciation, le débit, le volume, etc. afin de rendre la parole plus naturelle et plus expressive.
  • Soutenir l'interaction multimodale: SSML peut être utilisé pour soutenir l'interaction multimodale qui combine la parole, le toucher, le geste et d'autres modalités afin d'offrir une expérience utilisateur plus riche et plus intuitive. SSML peut également ajouter des effets sonores, des notes de musique et d'autres éléments audio à la sortie vocale pour améliorer le retour d'information et l'engagement.
  • Adapter le contenu: SSML peut être utilisé pour fournir une adaptation de contenu qui personnalise la sortie vocale en fonction des préférences, des besoins et du contexte de l'utilisateur. Le langage SSML peut également passer d'une langue ou d'un dialecte à l'autre à l'aide de la balise ou contrôler la prononciation des mots à l'aide de la balise afin d'aider les utilisateurs qui parlent des langues différentes ou qui ont des niveaux d'alphabétisation différents.

SSML peut être utilisé pour créer des applications vocales interactives en offrant plus de contrôle et de flexibilité sur la sortie vocale. Le SSML peut :

  • Personnalisez la voix, la langue, le style et le rôle de la sortie vocale à l'aide de la balise . Vous pouvez utiliser plusieurs voix dans un seul document SSML pour créer différents personnages ou scénarios.
  • Ajustez la prosodie de la sortie vocale à l'aide de la balise . Vous pouvez modifier le volume, le débit, la hauteur et l'accentuation de la sortie vocale pour l'adapter à différents contextes et publics.
  • Insérez des fichiers audio préenregistrés ou des effets sonores dans la sortie vocale à l'aide de la balise
  • Contrôlez la prononciation de la sortie vocale à l'aide des balises ou . Vous pouvez utiliser ces balises pour gérer des types de mots particuliers tels que des nombres, des dates, des heures, des abréviations, des acronymes et d'autres termes. Vous pouvez également l'utiliser pour définir la façon dont les mots sont prononcés dans différentes langues ou dialectes.
  • Insérez des marqueurs ou des événements dans la sortie vocale à l'aide des balises ou . Vous pouvez ainsi déclencher des actions ou des réponses dans votre application en fonction de la sortie vocale.

Les perspectives d'avenir et les progrès de la technologie SSML sont les suivants :

  • Améliorer la qualité et le naturel de la parole : La technologie SSML peut bénéficier des progrès des techniques de synthèse vocale, telles que les modèles basés sur les réseaux neuronaux, qui peuvent générer des résultats vocaux plus réalistes et plus expressifs. La technologie SSML peut également tirer parti des nouvelles fonctions et capacités des services ou plateformes de synthèse vocale, telles que les voix personnalisées, les styles d'élocution et les rôles.
  • Prise en charge de l'interaction multimodale et intermodale : La technologie SSML peut permettre des modes d'interaction plus riches et plus intuitifs qui combinent la parole avec d'autres modalités, telles que le toucher, le geste, la vision et le son. La technologie SSML peut également prendre en charge l'interaction multimodale qui permet de traduire entre différentes modalités, comme la parole en texte, le texte en parole, la parole en image et l'image en parole.
  • Améliorer l'accessibilité et l'intégration : La technologie SSML peut fournir des solutions plus accessibles et inclusives pour divers groupes d'utilisateurs, tels que les personnes souffrant de déficiences visuelles, auditives, cognitives ou linguistiques. Le langage SSML peut également aider les utilisateurs qui parlent des langues ou des dialectes différents en utilisant la balise pour passer d'une langue à l'autre ou en utilisant la balise pour contrôler la façon dont les mots sont prononcés.

Réflexions finales

Dans cet article de blog, nous avons exploré l'importance et les avantages de la synthèse vocale SSML. Nous avons vu comment SSML peut nous aider à créer une sortie vocale plus naturelle et plus expressive, à personnaliser la voix et la prononciation, et à ajouter des effets spéciaux et des émotions. La synthèse vocale SSML est un outil puissant qui permet d'améliorer la communication et de capter l'attention du public dans divers domaines, tels que l'éducation, le divertissement, les affaires et la santé.

Nous vous encourageons à profiter de la puissance du SSML et à expérimenter différentes balises et différents attributs pour créer un contenu vocal unique. Vous serez étonné de tout ce que vous pouvez faire avec la synthèse vocale SSML et de la façon dont elle peut transformer votre expérience de la communication.

La synthèse vocale SSML n'est pas seulement une technologie, mais une forme d'art. Elle nous permet de nous exprimer de manière nouvelle et créative, et de nous connecter avec nos auditeurs à un niveau plus profond. Les outils de synthèse vocale comme UberTTS utilisant la technologie SSML sont l'avenir de la synthèse vocale, et nous espérons que vous nous rejoindrez dans cette aventure passionnante.

Partagez-le avec vos amis et collègues !
Picture of Anson Antony
Anson Antoine
Anson est auteur collaborateur et fondateur de www.askeygeek.com. Apprendre quelque chose de nouveau a toujours été sa passion, ASKEYGEEK.com est le résultat de sa passion pour la technologie et les affaires. Il possède une décennie d'expérience polyvalente dans l'externalisation des processus métiers, la finance et la comptabilité, les technologies de l'information, l'excellence opérationnelle et la business intelligence. Au cours de son mandat, il a travaillé pour des organisations telles que Genpact, Hewlett Packard, M*Modal et Capgemini dans divers rôles et responsabilités. En dehors des affaires et de la technologie, c'est un cinéphile qui passe des heures ensemble à regarder et à apprendre le cinéma et un cinéaste aussi !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Toutes nos félicitations!
Tu l'as fait,
Ne fermez pas !

Se lever pour 60 000 Crédits de personnage UberTTS gratuits !!!

Cette fenêtre contextuelle ne montrera pas à toi de voir encore!!!

UberTTS
Share to...