Texto a voz SSML: utilice etiquetas SSML para crear contenidos atractivos

texto a voz ssml
¿Alguna vez se ha preguntado cómo producir texto a voz emocionante y que llame la atención utilizando etiquetas SSML? En este artículo, veremos el texto a voz SSML, sus funciones y por qué puede ayudarle a producir contenidos atractivos.
Tabla de contenido

Imagínese poder transformar un texto en un discurso rico y expresivo que suene como una voz humana. Aquí es donde entra en juego SSML Text-to-Speech, que abre un mundo de posibilidades para crear contenidos dinámicos y atractivos.

Conceptos básicos de SSML

¿Qué es SSML?

  • Definición de SSML y su finalidad en el control de la síntesis de voz

SSML son las siglas de Speech Synthesis Markup Language, un lenguaje de marcado basado en xml. Es una forma de escribir texto que indica a un ordenador cómo decirlo en voz alta, lo que está contenido dentro del elemento.

SSML puede controlar aspectos como la velocidad, el tono, el volumen, la pronunciación y el énfasis del discurso. También puede añadir pausas y otros efectos para que el discurso suene más natural y expresivo.

  • Cómo SSML mejora la expresividad y naturalidad del habla sintetizada

Text-to-Speech (TTS) es una tecnología que convierte texto escrito en palabras habladas. Los motores TTS son programas que realizan esta conversión. Sin embargo, no todos los textos son fáciles de leer o pronunciar para un ordenador.

A veces, el texto puede contener abreviaturas, siglas, números, símbolos o palabras extranjeras que requieren un tratamiento especial. SSML puede ayudar en estos casos proporcionando información extra e instrucciones para los motores TTS.

El SSML también puede adaptar el discurso a distintos contextos y públicos cambiando el tono, el estilo y el humor de la voz. SSML y TTS trabajan juntos para crear una salida de voz personalizada y de alta calidad a partir de la entrada de texto. 

¿Cómo funciona la conversión de texto a voz SSML?

El texto se transforma en un archivo de audio que los usuarios pueden reproducir mediante SSML Text-to-Speech. El primer paso del procedimiento es enviar el texto a un sistema TTS, que lo analiza y lo convierte en voz.

Para proporcionar más información al sistema TTS y permitirle producir un habla que suene más natural, se utilizan etiquetas SSML. El archivo de audio puede reproducirse a los usuarios a través de diversas herramientas, como una página web o una aplicación móvil, después de que el sistema TTS lo haya preparado.

Mecanismo de funcionamiento de las etiquetas SSML en la conversión de texto en voz

  • El proceso técnico de conversión de texto a voz mediante SSML

La entrada de texto se envuelve con etiquetas SSML que proporcionan información adicional e instrucciones para el proceso de síntesis de voz. Por ejemplo, SSML puede definir la voz, el idioma, la pronunciación, el tono, el volumen, el énfasis y otros atributos de la salida de voz.

La entrada SSML se envía a un motor de conversión de texto a voz (TTS) que la convierte en salida de voz. El motor TTS analiza la entrada SSML y aplica las reglas y parámetros especificados por las etiquetas. El motor TTS también utiliza técnicas de procesamiento del lenguaje natural y síntesis del habla para generar salidas de voz sintética.

La salida de voz se devuelve como un archivo o flujo de audio que puede ser reproducido por una aplicación o dispositivo. La salida de voz debe coincidir con la entrada SSML en términos de contenido, estructura y estilo.

  • Papel de las etiquetas SSML en el control de la pronunciación, la prosodia y otras características del habla

Las etiquetas SSML son una forma de escribir texto que indica al ordenador cómo decirlo en voz alta. Las etiquetas SSML pueden controlar la pronunciación, la prosodia y otras características del habla sintetizada. Por ejemplo:

  1. Pronunciación: Las etiquetas SSML pueden ayudar al ordenador a pronunciar correctamente las palabras, sobre todo cuando tienen significados o grafías diferentes en distintos idiomas o contextos. Las etiquetas SSML también pueden definir cómo decir números, fechas, horas, abreviaturas, siglas y otros términos especiales. Las etiquetas SSML pueden utilizar alfabetos fonéticos o léxicos personalizados para especificar los sonidos exactos del habla.
  2. Prosodia: Las etiquetas SSML permiten ajustar el tono, la velocidad, el volumen y el énfasis de la voz. Las etiquetas SSML pueden cambiar el tono, el estilo y el estado de ánimo de la voz para adaptarse a diferentes escenarios y audiencias, y la ruptura prosódica mediante términos relativos puede ayudar a crear patrones de tensión dentro de las palabras y frases.
  3. Otras características del habla: Utilice una etiqueta SSML para insertar archivos de audio pregrabados, como efectos de sonido o notas musicales, en la salida de voz. Las etiquetas SSML también pueden envolver texto con etiquetas de eventos, como marcadores o visemas, que pueden ser procesados posteriormente por la aplicación.

Las etiquetas SSML y los motores TTS trabajan juntos para crear una salida de voz personalizada y de alta calidad a partir de la entrada de texto.

  • Etiquetas SSML de uso común y su funcionalidad

Algunos ejemplos de etiquetas SSML son:

  1. : Esta etiqueta inserta un archivo de audio en la salida de voz. Puede utilizarse para añadir efectos de sonido o notas musicales al discurso.
  2. <break>: Esta etiqueta inserta una pausa en la salida de voz. Puede ajustarse a una duración específica en segundos o milisegundos, o en función de la intensidad de la pausa (por ejemplo, después de una coma, una frase o un párrafo).
  3. <emphasis>: Esta etiqueta pronuncia las palabras etiquetadas más alto y más despacio para darles más énfasis.
  4. <lang>: Esta etiqueta especifica el idioma de las palabras etiquetadas. Puede utilizarse para alternar entre distintos idiomas o dialectos en la salida de voz.
  5. <p>: Esta etiqueta define un párrafo en la salida de voz. Añade una pausa después del texto etiquetado para indicar el final de un párrafo.
  6. <phoneme>: Esta etiqueta especifica la pronunciación fonética de las palabras etiquetadas. Puede utilizar alfabetos fonéticos o léxicos personalizados para mejorar la pronunciación de las palabras difíciles o ambiguas de leer para el ordenador.
  7. <prosody>: Esta etiqueta ajusta el volumen, la velocidad y el tono de la voz. Puede utilizarse para cambiar el tono, el estilo y el estado de ánimo de la voz.
  8. <say-as>: Esta etiqueta controla cómo se pronuncian tipos especiales de palabras, como números, fechas, horas, abreviaturas, siglas y otros términos especiales.
  9. : Esta etiqueta sustituye el texto etiquetado por una frase. Puede utilizarse para pronunciar siglas y abreviaturas como palabras completas.
  10. <w>: Esta etiqueta mejora la pronunciación especificando la parte de la oración de la palabra etiquetada. Puede utilizarse para desambiguar palabras que tienen pronunciaciones diferentes en función de su función gramatical.

Cómo implementar SSML en la conversión de texto a voz

Manual SSML

La implementación de SSML Text-to-Speech es relativamente sencilla. En primer lugar, tendrá que elegir un sistema TTS compatible con SSML, como Google Cloud Text-to-Speech o Amazon Polly. Una vez elegido el sistema TTS, puedes empezar a añadir etiquetas SSML a tu texto para crear un habla más natural. Para empezar a utilizar SSML, puede consultar la documentación del sistema TTS o encontrar tutoriales en línea.


SSML automático

Si no está familiarizado con las etiquetas SSML y los formatos XML y no desea pasar por la curva de aprendizaje, le sugerimos que utilice soluciones AI Text To Speech avanzadas como UberTTS o VOZ AIRE que integran automáticamente las etiquetas SSML.

¿Por qué utilizar UberTTS?

SSML es compatible con la mayoría de las plataformas y aplicaciones TTS, como Google Cloud Text-to-Speech, Amazon Polly, Microsoft Azure Speech Services, etc. Para utilizar SSML, es necesario escribir el texto en formato XML e incluir la extensión Etiquetas SSML dentro del elemento .

Si usted no está familiarizado con el código SSML entonces se convierte en un poco difícil de lograr los resultados deseados, aquí es donde UberTTS SSML Text To Speech resulta muy útil. Usando UberTTS es sólo cuestión de seleccionar un desplegable para conseguir el resultado deseado. No hay necesidad de escribir manualmente o conocer cualquiera de las etiquetas SSML o formatos XML, sólo tiene que seleccionar la opción del desplegable y luego colocar su texto entre el código XML que se creó automáticamente basado en la selección.

Por ejemplo:

				
					Hola,  ¡mundo!
				
			

Este código SSML hará que el motor TTS diga "Hola" y luego haga una pausa de medio segundo antes de decir "mundo". Puede utilizar diferentes atributos y valores para personalizar las etiquetas SSML según sus necesidades.

Por ejemplo:

				
					¡Wow, esto es maravilloso!
				
			

Este código SSML hará que el motor TTS diga "Guau" lentamente y con un tono más alto, y luego diga "increíble" con un fuerte énfasis.

Puedes crear una cuenta gratuita con UberTTS y probar a utilizar las opciones de texto a voz SSML.

SSML puede ayudarle a crear una salida de voz más natural y expresiva a partir de su texto. También puede ayudarle a superar algunas de las limitaciones o dificultades del TTS, como el tratamiento de abreviaturas, acrónimos, números, fechas o palabras extranjeras. Utilizando SSML, puede mejorar su experiencia TTS y hacerla más atractiva y eficaz para su audiencia.

Pruebe UberTTS hoy mismo para ver lo que SSML puede conseguir con la conversión de texto a voz.

Buenas prácticas para la conversión de texto a voz SSML

Prácticas recomendadas para probar y ajustar la salida de voz basada en SSML

Es fundamental seguir las prácticas recomendadas al utilizar SSML Text-to-Speech para producir un discurso lo más realista posible. Algunas sugerencias son utilizar el énfasis y la pausa adecuados, abstenerse de utilizar etiquetas SSML en exceso y utilizar los ajustes de idioma y voz apropiados para su audiencia.

Para asegurarse de que su salida de texto a voz SSML es comprensible y clara, también es crucial probarla con usuarios reales.

Algunas de las mejores prácticas para probar y ajustar la salida de voz basada en SSML son:

  1. Utilice la herramienta de creación de contenidos de audio: Se trata de una herramienta sin código que permite crear texto sin formato y SSML en Speech Studio. Puede escuchar el audio de salida y ajustar el SSML para mejorar la síntesis de voz. También puede exportar el código SSML para su aplicación.
  2. Utilizar la Galería de voces: Se trata de una página web que te permite escuchar voces de diferentes estilos y tonos leyendo un texto de ejemplo. Puedes utilizarla para comparar y seleccionar la mejor voz para tu escenario.
  3. Utilizar la CLI de voz: Se trata de una herramienta de línea de comandos que le permite sintetizar voz a partir de texto o entrada SSML. Puede utilizarla para probar y depurar rápidamente su código SSML.
  4. Utilice el SDK de voz: Se trata de un kit de desarrollo de software que le permite integrar la síntesis de voz en su aplicación. Puede utilizarlo para proporcionar entrada SSML mediante el método SSML "speak".
  5. Utilizar la API de síntesis por lotes: Se trata de una API REST que le permite sintetizar de forma asíncrona archivos de texto a voz de más de 10 minutos (como audiolibros o conferencias). Puede utilizarla para proporcionar entradas SSML a través de la propiedad inputs.
  6. Utilizar la referencia SSML: Se trata de una página web que ofrece información detallada y ejemplos de las etiquetas y atributos SSML compatibles. Puede utilizarla para aprender a utilizar SSML para controlar diversos aspectos de la salida de voz, como la pronunciación, la prosodia, la voz, el lenguaje, etc.

Herramientas y técnicas para garantizar un discurso natural y de alta calidad

Algunas herramientas y técnicas para garantizar un habla de alta calidad y sonido natural son:

  1. Google Cloud Text-to-Speech: Se trata de un servicio basado en la nube que convierte texto en voz natural mediante una API basada en las tecnologías de IA de Google. Ofrece una amplia gama de voces, idiomas y estilos, así como la posibilidad de crear voces personalizadas y ajustar la salida de voz mediante SSML.
  2. UberTTS y VOICEAIR Text To Speech integra la tecnología de IA de texto a voz de Google Cloud en la herramienta, junto con otras soluciones de IA de AWS, Azure e IBM. 
  3. Translatotrón 2: Se trata de un proyecto de investigación que desarrolla un sistema de traducción directa de voz a voz capaz de conservar la voz del hablante original en el discurso traducido. Utiliza una arquitectura de modelo novedosa y un nuevo método de transferencia de voz que mejora la calidad de la traducción, la naturalidad del habla y la solidez del habla.
  4. WaveGlow: Se trata de un proyecto de investigación que desarrolla una red basada en flujos capaz de generar habla de alta calidad a partir de espectrogramas de mel. Combina conocimientos de Glow y WaveNet para proporcionar una síntesis de audio rápida, eficiente y de alta calidad, sin necesidad de autorregresión.

Aprovechar la potencia de SSML Text to Speech

Personalización de la salida de voz con SSML

Permítame darle algunos ejemplos de cómo SSML puede mejorar su contenido de texto a voz. Supongamos que quiere presentarse con un tono amistoso y desenfadado. Puede utilizar la etiqueta para especificar el nombre y el estilo de la voz que desea utilizar.

Por ejemplo, estoy usando la voz UberTTS llamada \"Aria\" con el estilo \"cheerful\". Así es como suena:

				
					Hola, soy Aria, y estoy feliz de ser tu narradora de texto a voz hoy.
				
			

Supongamos que quieres enfatizar una palabra o frase en tu discurso. Puedes utilizar la etiqueta para ajustar el nivel de énfasis de la palabra o frase.

Por ejemplo, si quiero enfatizar lo mucho que me gusta el SSML, puedo usar el nivel \"fuerte\". Así es como suena:

				
					¡Yo amo SSML!
				
			

Otra forma de utilizar SSML es controlar la pronunciación de palabras o expresiones que pueden resultar difíciles o ambiguas para el motor de conversión de texto en voz. Puede utilizar la etiqueta para especificar cómo debe interpretar una palabra o expresión el motor de conversión de texto a voz.

Por ejemplo, si quiero decir el acrónimo \"SSML\", puedo utilizar el atributo interpret-as \"caracteres\" para asegurarme de que cada letra se pronuncia por separado. Así es como suena:

				
					Las siglas SSML significan Speech Synthesis Markup Language..
				
			

También puede utilizar SSML para insertar elementos de audio en su salida de voz. Puede utilizar la etiqueta

				
					¡SSML es increíble! 
				
			

Éstas son sólo algunas de las formas en que puede utilizar SSML para crear contenidos dinámicos y atractivos con texto a voz. Hay muchas más etiquetas y atributos SSML que puede explorar y con los que puede experimentar.

Síntesis de voz multilingüe y acentuada

Síntesis de voz multilingüe y acentuada. ¿Qué es eso? Pues es una tecnología que puede hacer que un ordenador hable en distintos idiomas y con distintos acentos, igual que los humanos. Imagina poder escuchar tu podcast favorito en español con acento británico, o tu audiolibro favorito en francés con acento indio. Suena genial, ¿verdad?

Pero, ¿cómo funciona? ¿Cómo puede un ordenador aprender a hablar con fluidez un idioma extranjero o a imitar diferentes acentos? Hay distintos enfoques para este problema, pero uno de los más populares se basa en modelos de conversión de texto en habla (TTS) de extremo a extremo. Se trata de redes neuronales capaces de convertir directamente el texto en voz, sin recurrir a pasos intermedios como la transcripción fonética o la predicción de la prosodia. Pueden producir un habla de alta calidad y sonido natural difícil de distinguir del habla humana.

Sin embargo, la mayoría de estos modelos se entrenan con datos de una sola lengua y un solo hablante, lo que limita su capacidad de generalización a otras lenguas y hablantes. Para superar esta limitación, algunos investigadores han propuesto modelos TTS multilingües y multihablantes que pueden aprender representaciones compartidas entre lenguas y hablantes, y utilizarlas para sintetizar habla con características diferentes.

Por ejemplo, RADTTS es un modelo que puede controlar el acento, el idioma, el hablante y las características más precisas del habla sintetizada, sin depender de datos de entrenamiento bilingües. Puede generar habla con cualquier acento para cualquier hablante de su conjunto de datos, que consta de siete acentos.

Otro ejemplo es un modelo que puede conseguir TTS multilingüe para varios hablantes con datos de entrenamiento bilingües limitados. Las salidas sintetizan el habla de hablantes que sólo han grabado datos en un idioma, transfiriendo sus características vocales a otro idioma. Utiliza una arquitectura novedosa que combina un descodificador autorregresivo con un descodificador no autorregresivo, y aprovecha un posteriorgrama fonético multilingüe como representación intermedia.

Estos son sólo algunos ejemplos de cómo las redes neuronales pueden sintetizar el habla multilingüe y acentuada. Hay muchos más retos y oportunidades en este campo, como mejorar la naturalidad y diversidad del habla, gestionar el cambio de código y los escenarios multilingües, y adaptarse a nuevos idiomas y hablantes con un aprendizaje de pocos pasos.

Creación de experiencias personalizadas e interactivas con etiquetas SSML

Implementación de la lógica condicional y de las respuestas de voz dirigidas por el usuario

Algunas formas de implementar la lógica condicional y las respuestas de voz dirigidas por el usuario utilizando etiquetas SSML son:

Google Cloud Text-to-Speech: Este servicio permite utilizar etiquetas SSML para personalizar la salida de voz en función de diversas condiciones y entradas del usuario. Por ejemplo, puede utilizar la etiqueta para especificar una salida de voz diferente en función del valor de una variable o una expresión. También puede utilizar la etiqueta para insertar un marcador en un flujo de salida que pueda desencadenar eventos o acciones en su aplicación.

Kit de habilidades Alexa: Este marco le permite utilizar etiquetas SSML para crear experiencias de voz dinámicas y atractivas para los usuarios de Alexa. Por ejemplo, puedes usar la etiqueta para envolver tu salida SSML e indicar que está usando SSML en lugar de texto plano. También puedes utilizar la etiqueta Amazon:effect para aplicar efectos especiales a tu salida de voz, como susurrar o cambiar el tono.

Puede aprovechar las ventajas de las etiquetas SSML de Amazon y Google Cloud TTS utilizando UberTTS o VOICEAIR y cy lograr una interacción vocal específica más dinámica y personalizada.

Aplicaciones y ventajas de SSML Text-to-Speech

El uso de SSML Text-to-Speech tiene varias ventajas sobre otros sistemas TTS. En primer lugar, permite un mayor control sobre la salida del sistema TTS, lo que se traduce en un habla que suena más natural.

En segundo lugar, puede aplicarse a la producción de contenidos más interesantes, como sistemas de respuesta vocal interactiva (IVR) o audiolibros. Por último, pero no por ello menos importante, puede utilizarse para ofrecer material más accesible, que permita el acceso a las personas con deficiencias visuales u otras discapacidades.

Accesibilidad e inclusión mediante SSML

¿Por qué el SSML es importante para la accesibilidad y la inclusión? Imagina que tienes un podcast o un vídeo que quieres que llegue a un público más amplio, incluidas personas sordas o con problemas de audición, o personas que hablan un idioma diferente al tuyo. 

Puede utilizar SSML Text To Speech para crear subtítulos para su contenido, o incluso traducirlo a otro idioma. De este modo, se asegurará de que todo el mundo pueda entender y disfrutar de sus contenidos, independientemente de su capacidad auditiva o preferencia lingüística.

Pero SSML Text To Speech no sólo es útil para crear subtítulos. También puede ayudarle a hacer su audio más expresivo y atractivo para sus oyentes. 

Por ejemplo, puede utilizar SSML para enfatizar ciertas palabras o frases, cambiar el tono o el estilo de su voz, o añadir algo de humor o emoción a su discurso. También puede utilizar SSML para crear diferentes personajes para su audio, como un narrador, un profesor, un amigo o un robot.

¿Cómo se utiliza SSML Text To Speech? Bueno, hay diferentes maneras de hacerlo, dependiendo de la plataforma o herramienta que esté utilizando. Por ejemplo, si utiliza la API de texto a voz de Google Cloud, puede enviar un documento SSML en su solicitud y obtener una respuesta de audio. 

Si utiliza Microsoft Azure Cognitive Services Speech Service, puede utilizar la herramienta de creación de contenido de audio para crear texto sin formato y SSML en Speech Studio. También puede utilizar la API de síntesis por lotes, la CLI de voz o el SDK de voz para proporcionar la entrada SSML.

El siguiente ejemplo es de un documento SSML que he creado para esta entrada del blog, siéntase libre de utilizar esto con UberTTS o cualquier SSML software de texto a voz para escucharlo:

				
					¡¡¡Hola a todos!!! Bienvenidos a mi blog donde comparto mis ideas y consejos sobre cómo crear contenidos accesibles e inclusivos utilizando la tecnología.
    
    Hoy quiero hablar de cómo puedes usar SSML Text To Speech para hacer tu audio más atractivo y natural para tus oyentes.
    
    SSML significa Speech Synthesis Markup Language, y es un lenguaje basado en XML que le permite personalizar varios aspectos de su salida de texto a voz,
    como el tono, la velocidad, el volumen, la pronunciación, etc.
    
    También puede utilizar SSML para insertar pausas,
    pausas,
    efectos de sonido,
    ,
    y diferentes voces en tu audio.
  
  
    Por qué es importante para la accesibilidad y la inclusividad?
    
    Bien,
    imagina que tienes un podcast o un vídeo que quieres que llegue a un público más amplio,
    incluyendo personas sordas o con problemas de audición,
    o personas que hablan un idioma diferente al tuyo.
    
    Puede utilizar SSML Text To Speech
    para crear subtítulos para su contenido,
    o incluso traducirlo a otro idioma.
    
    De esta forma
    puede asegurarse de que todo el mundo pueda entender y disfrutar de su contenido,
    independientemente de su capacidad auditiva o preferencia de idioma.
  
  
    Pero SSML Text To Speech no sólo es útil para crear subtítulos.
    También puede ayudarte a que tu audio sea más expresivo y atractivo para tus oyentes.
    
    Por ejemplo,
    puede utilizar SSML para enfatizar ciertas palabras o frases,
    cambiar el tono o el estilo de tu voz,
    o añadir algo de humor o emoción a tu discurso.
    
    También puedes utilizar SSML para crear diferentes personajes para tu audio,
    como un narrador,
    un profesor,
    un amigo,
    o un robot.
  
  
    Cómo se utiliza SSML Text To Speech?
    
    Pues bien
    hay diferentes maneras de hacerlo,
    dependiendo de la plataforma o herramienta que estés utilizando.
    
    Por ejemplo,
    si estás usando Google Cloud Text-to-Speech API,
    puede enviar un documento SSML en su solicitud y obtener una respuesta de audio.
    
    Si está utilizando Microsoft Azure Cognitive Services Speech Service,
    puede utilizar la herramienta de creación de contenido de audio para crear texto sin formato y SSML en Speech Studio.
    
    También puede utilizar la API de síntesis por lotes,
    la CLI de Speech,
    o el SDK de voz
    para proporcionar la entrada SSML.
  
  
    He aquí un ejemplo de documento SSML que he creado para esta entrada del blog:
				
			

Como puedes ver, he utilizado diferentes elementos SSML para hacer mi audio más interesante y dinámico. Utilicé el elemento para cambiar entre dos voces, la voz femenina Jenny y la voz masculina Guy, ambas voces neuronales de UberTTS aprovechando la API Microsoft Azure Cognitive Services Speech Service. 

Utilicé el elemento para deletrear el acrónimo SSML. He utilizado el elemento para aumentar la velocidad de SSML. He utilizado el elemento para insertar pausas de distinta duración. Y utilicé el elemento

SSML Text To Speech para aprendizaje electrónico y aplicaciones educativas

¿Por qué la conversión de texto a voz SSML es importante para el aprendizaje electrónico y las aplicaciones educativas? Bien, imagine que está creando un curso en línea o un podcast que utiliza TTS para transmitir su contenido. Quiere que sus alumnos tengan una experiencia auditiva agradable y atractiva, ¿verdad? No quiere que se aburran o se confundan con una voz robótica o monótona que pronuncia mal las palabras o ignora los signos de puntuación. Con SSML, puede mejorar su salida TTS y hacer que suene más humana y natural.

Por ejemplo, puede utilizar etiquetas SSML para:

  • - Especifique cómo pronunciar siglas, abreviaturas, números, fechas, etc.
  • - Añadir énfasis o acento a determinadas palabras o frases
  • - Ajustar el tono, el ritmo o el volumen de la voz
  • - Insertar pausas o descansos entre frases o párrafos
  • - Cambiar la voz o el idioma del orador
  • - Añade efectos de sonido o música de fondo

SSML es compatible con la mayoría de motores y plataformas TTS, como Amazon Polly, Google Cloud Text-to-Speech, Microsoft Azure Speech Services, IBM Watson Text to Speech, etc. También puede utilizar SSML con algunas herramientas de creación de e-learning, como Articulate Storyline o Adobe Captivate.

Para utilizar SSML, tienes que escribir el contenido del texto en formato XML y encerrarlo en etiquetas . A continuación, puede añadir otras etiquetas SSML dentro de las etiquetas para modificar la salida de voz. Por ejemplo, así es como se escribiría "Hola mundo" en SSML:

				
					Hola mundo
				
			

Y así es como se escribiría "Hola mundo", con un tono más alto y una pausa más larga después:

				
					Hola mundo
				
			

Encontrará más ejemplos y documentación sobre cómo utilizar SSML en los sitios web de los motores o plataformas TTS que utilice.

Asistentes de voz y sistemas interactivos de respuesta vocal (IVR)

El uso de SSML con asistentes de voz y sistemas IVR depende de la plataforma y el servicio que estés utilizando, pero en general, tienes que hacer dos cosas:

  1. Escriba su documento SSML con las etiquetas y atributos que se adapten a sus necesidades. Puede encontrar algunos ejemplos y tutoriales sobre cómo escribir SSML para diferentes plataformas aquí:
    API de conversión de texto a voz de Google Cloud y Servicio de voz de Microsoft Azure Cognitive Services
  2. Envíe su documento SSML al servicio de conversión de texto en voz que esté utilizando, ya sea a través de una API, una CLI, un SDK o una herramienta. El servicio sintetizará el texto en voz y devolverá un archivo o flujo de audio que podrá reproducir para sus usuarios.

Algunas de las ventajas de utilizar SSML con asistentes de voz y sistemas IVR son:

  • - Puede crear interacciones de voz más atractivas y personalizadas para sus usuarios, añadiendo pausas, énfasis, efectos de sonido o voces diferentes.
  • - Puedes mejorar la claridad y precisión de la voz, especificando cómo se pronuncian o deletrean las palabras o expresiones.
  • - Las aplicaciones de voz admiten varios idiomas y configuraciones regionales, ya que pueden alternar entre voces e idiomas dentro de un mismo documento SSML.

Futuras direcciones e innovaciones en SSML Text-to-Speech

Una de las posibles direcciones futuras de SSML TTS es permitir una síntesis de voz más expresiva y natural mediante el uso de **estilos de voz** y **etiquetas de emoción**. Los estilos de voz son variaciones predefinidas de una voz que pueden transmitir diferentes estados de ánimo, personalidades o situaciones de habla.

Por ejemplo, puede utilizar un estilo de voz para que una voz suene alegre, tranquila, empática o enfadada. Las etiquetas de emoción son elementos SSML que pueden modificar la salida de voz para expresar una emoción específica, como felicidad, tristeza, miedo o sorpresa.

Por ejemplo, puedes utilizar una etiqueta de emoción para que una voz suene alegre al decir "felicidades" o triste al decir "lo siento". Mediante el uso de estilos de voz y etiquetas de emoción, puedes crear contenidos orales más realistas y atractivos que se adapten a diferentes contextos y audiencias.

Otra posible dirección futura es mejorar la pronunciación y la inteligibilidad de la síntesis de voz mediante el uso de **fonemas**, **léxicos personalizados** y etiquetas **say-as**. Los fonemas son las unidades de sonido más pequeñas que componen una palabra. Puedes utilizar fonemas para especificar cómo debe pronunciarse una parte wsub-taga de una palabra. Los léxicos personalizados son diccionarios definidos por el usuario que asignan palabras a sus pronunciaciones.

Puede utilizar léxicos personalizados para anular la pronunciación por defecto de palabras que no estén en el diccionario estándar o que tengan varias pronunciaciones. Las etiquetas Say-as son elementos SSML que pueden cambiar la forma de pronunciar una palabra o una frase en función de su tipo o formato.

Por ejemplo, puede utilizar una etiqueta say-as para que una voz deletree un acrónimo, lea una fecha o una hora, o diga un número como ordinal o cardinal. El uso de fonemas, léxicos personalizados y etiquetas say-as permite mejorar la precisión y la claridad de la síntesis de voz en distintos idiomas y ámbitos.

Una tercera posible dirección futura es mejorar la interactividad y la personalización de la síntesis de voz mediante el uso de etiquetas **audio** y **sub**. Las etiquetas de audio son elementos SSML que pueden insertar clips de audio pregrabados en la salida de voz.

Por ejemplo, puede utilizar una etiqueta de audio para añadir un efecto de sonido, una nota musical o un ruido de fondo al contenido del discurso. Las subetiquetas son elementos SSML que pueden sustituir una palabra o frase por otra. Por ejemplo, puede utilizar una subetiqueta para sustituir una abreviatura por su forma completa, un término técnico por su definición o un nombre por su apodo. Mediante el uso de audio y subetiquetas, puede crear contenidos discursivos más interactivos y personalizados, capaces de captar la atención y el interés de los oyentes.

Estas son algunas de las futuras direcciones e innovaciones en SSML Text-to-Speech que pueden hacerlo más potente y versátil. SSML Text-to-Speech es una tecnología que tiene muchas aplicaciones y beneficios para varias industrias y dominios. Mediante el uso de elementos y atributos SSML, puede crear contenidos dinámicos y atractivos que pueden mejorar la experiencia y la satisfacción del usuario.

Consideraciones éticas y retos del SSML TTS

Una de las consideraciones éticas con Text To Speeches utilizando SSML es la autenticidad y transparencia de la salida de voz. ¿Cómo se garantiza que los oyentes sepan que están escuchando una voz sintética y no una voz humana? 

¿Cómo se evita inducirles a error o engaño con voces manipuladas o fabricadas? ¿Cómo se respetan los derechos y preferencias de los actores de doblaje o locutores originales cuyas voces se utilizan para crear las voces sintéticas? 

Estas son algunas de las cuestiones que debe tener en cuenta a la hora de utilizar SSML Text-to-Speech para la creación de contenidos.

Otra consideración ética es la accesibilidad e inclusión del discurso. ¿Cómo puede asegurarse de que la salida de voz sea clara, comprensible y adecuada para el público destinatario? 

¿Cómo se tiene en cuenta la diversidad y variabilidad del habla humana, como acentos, dialectos, idiomas, géneros, edades y emociones? ¿Cómo evitar los prejuicios o la discriminación en la elección de la voz, el lenguaje, el estilo y el papel? Éstas son algunas de las preguntas que debe plantearse cuando utilice SSML Text-to-Speech para transmitir contenidos.

Algunos de los retos a los que puede enfrentarse al utilizar SSML Text-to-Speech están relacionados con la calidad y el rendimiento de la tecnología. ¿Cómo asegurarse de que la salida de voz sea natural, fluida y expresiva? 

¿Cómo hacer frente a las limitaciones y los errores del motor de conversión de texto en voz, como los errores de pronunciación, las entonaciones incorrectas o las pausas poco naturales? ¿Cómo optimizar la salida de voz para distintos dispositivos, plataformas y entornos? 

Estas son algunas de las cuestiones que debe tener en cuenta al utilizar SSML Text-to-Speech para la optimización de sus contenidos.

SSML Text-to-Speech es una tecnología potente y versátil que puede ayudarle a crear contenidos dinámicos y atractivos para diversos escenarios. Sin embargo, también conlleva algunas consideraciones éticas y retos que debe conocer y abordar. 

Si utiliza la conversión de texto a voz SSML de forma responsable y creativa, podrá mejorar su experiencia de creación y entrega de contenidos.

Preguntas frecuentes (FAQ)

El papel del SSML en la síntesis de voz es proporcionar información e instrucciones adicionales para que el ordenador genere una salida de voz que suene más natural y expresiva. El SSML puede controlar aspectos como la velocidad, el tono, el volumen, la pronunciación y el énfasis del habla. 

SSML también puede añadir pausas, descansos y otros efectos para que el discurso suene más natural y expresivo. El SSML también puede ayudar a pronunciar correctamente las palabras, sobre todo cuando tienen significados o grafías diferentes en distintos idiomas o contextos. 

El SSML también puede adaptar el habla a distintos contextos y públicos cambiando el tono, el estilo y el humor de la voz. SSML y los motores de síntesis de voz trabajan juntos para crear una salida de voz personalizada y de alta calidad a partir de la entrada de texto.

Puede utilizar SSML para personalizar la salida de voz utilizando diferentes etiquetas y atributos SSML. Las etiquetas SSML son una forma de escribir texto que indica al ordenador cómo decirlo en voz alta. Las etiquetas SSML pueden controlar varios aspectos de la salida de voz, como la pronunciación, la prosodia, la voz, el idioma, etc. 

Por ejemplo, puedes utilizar la etiqueta para controlar cómo se pronuncian tipos especiales de palabras, como números, fechas, horas, abreviaturas, siglas y otros términos especiales. También puedes utilizar la etiqueta para ajustar el volumen, la velocidad y el tono de la voz. También puede utilizar la etiqueta

También puede utilizar la etiqueta para especificar una salida de voz diferente en función del valor de una variable o una expresión. Hay muchas más etiquetas y atributos SSML que puedes utilizar para personalizar la salida de voz. Puedes consultar las páginas de referencia SSML de los distintos servicios o plataformas de síntesis de voz para obtener más información.

Algunos lenguajes de programación que admiten la implementación de SSML son:

  • Pitón: Puede utilizar el ASK SDK para Python para construir respuestas para las habilidades de Alexa utilizando Python. Puede utilizar el objeto response_builder para construir respuestas utilizando funciones de ayuda para etiquetas SSML. También puede utilizar la función get_speechcon_text_content para obtener un objeto de contenido de texto con un speechcon (una palabra que Alexa pronuncia de forma más expresiva) insertado.
  • C#: Puede utilizar Speech SDK para C# para integrar la síntesis de voz en su aplicación utilizando C#. Puede utilizar la clase SpeechSynthesizer para crear un objeto sintetizador de voz que pueda sintetizar voz a partir de texto o entrada SSML. También puede utilizar el método SpeakSsmlAsync para sintetizar de forma asíncrona el habla a partir de la entrada SSML.
  • Java: Puede utilizar el ASK SDK para Java para construir respuestas para las habilidades de Alexa utilizando Java. Puede utilizar la clase ResponseBuilder para construir respuestas utilizando métodos de ayuda para las etiquetas SSML. También puede utilizar la clase SsmlOutputSpeech para crear un objeto de discurso de salida que contenga contenido SSML.

Algunas plataformas gratuitas o de código abierto compatibles con SSML son:

  • Google Cloud Text-to-Speech: Se trata de un servicio basado en la nube que convierte texto en voz natural mediante una API basada en las tecnologías de IA de Google. Ofrece una amplia gama de voces, idiomas y estilos, así como la posibilidad de crear voces personalizadas y ajustar la salida de voz mediante SSML.
  • OpenTTS: Se trata de un servidor de conversión de texto a voz de código abierto que unifica el acceso a múltiples sistemas de conversión de texto a voz de código abierto y voces para muchos idiomas. Soporta un subconjunto de SSML que puede utilizar múltiples voces, sistemas de texto a voz e idiomas.
  • eSpeak: Se trata de un sintetizador de voz compacto y de código abierto para inglés y otros idiomas. Admite la entrada SSML y puede utilizarse como interfaz para otros motores de síntesis de voz.

Sí, SSML puede utilizarse para generar voz en varios idiomas. SSML admite la etiqueta que puede especificar el idioma de las palabras etiquetadas. Puede utilizarse para alternar entre diferentes idiomas o dialectos en la salida de voz. Por ejemplo, puede utilizar la etiqueta para saludar en diferentes idiomas:

Hola Hola Bonjour 你好

Sin embargo, no todos los servicios o plataformas de síntesis de voz admiten el mismo conjunto de idiomas o etiquetas SSML. Debe comprobar la documentación y disponibilidad del servicio o plataforma que utilice antes de utilizar SSML para generar voz en varios idiomas. 

Sí, SSML ofrece opciones para controlar la velocidad y el volumen del habla. SSML admite la etiqueta que puede ajustar el volumen, la velocidad de la voz y el tono de la salida de voz. Puede utilizarse para cambiar el tono, el estilo y el estado de ánimo de la voz. Por ejemplo, puede utilizar la etiqueta para decir una frase más rápido y más alto:

Esta es una frase rápida y ruidosa.

Sin embargo, no todos los servicios o plataformas de síntesis de voz admiten el mismo conjunto de atributos o valores de prosodia. Debe consultar la documentación y la compatibilidad del servicio o la plataforma que utilice antes de utilizar SSML para controlar la velocidad y el volumen del habla.

Algunas de las ventajas de incorporar SSML en las aplicaciones de e-learning son:

  • Mejorar la participación y la motivación de los alumnos: SSML puede utilizarse para crear interacciones de voz dinámicas y personalizadas que capten la atención y el interés de los alumnos. El SSML también puede añadir emoción y expresión a la salida de voz, haciéndola más natural y humana.
  • Mejora de la comprensión y la retención: El SSML puede utilizarse para controlar el ritmo, el tono y el énfasis del discurso, lo que facilita a los alumnos el seguimiento y la comprensión del contenido. El SSML también puede añadir pausas y efectos sonoros al discurso, haciéndolo más claro y fácil de recordar.
  • Apoyo a la accesibilidad y la inclusión: SSML puede utilizarse para ofrecer modos alternativos de aprendizaje a alumnos con discapacidades visuales, auditivas o cognitivas. SSML también puede ayudar a los alumnos que hablan diferentes idiomas o dialectos utilizando la etiqueta para cambiar de idioma o la etiqueta para controlar la pronunciación de las palabras.

El SSML puede contribuir a la accesibilidad de los usuarios con deficiencias visuales proporcionando modos alternativos de aprendizaje y comunicación que pueden superar las barreras del contenido visual. SSML puede:

  • Activar la conversión de texto a voz: SSML puede utilizarse para convertir texto escrito en palabras habladas que puedan ser oídas por usuarios con discapacidad visual. SSML también puede controlar los atributos de salida del habla, como el tono, la pronunciación, la velocidad de habla, el volumen, etc., para que el habla resulte más natural y expresiva.
  • Apoyo a la interacción multimodal: SSML puede utilizarse para la interacción multimodal, que combina el habla, el tacto, los gestos y otras modalidades para ofrecer al usuario una experiencia más rica e intuitiva. SSML también puede añadir efectos sonoros, notas musicales y otros elementos de audio a la salida de voz para mejorar la respuesta y el compromiso.
  • Adaptar los contenidos: SSML puede utilizarse para adaptar el contenido a las preferencias, necesidades y contexto del usuario. SSML también puede alternar entre distintos idiomas o dialectos mediante la etiqueta o controlar la pronunciación de las palabras con la etiqueta para ayudar a los usuarios que hablan distintos idiomas o tienen distintos niveles de alfabetización.

SSML puede utilizarse para crear aplicaciones de voz interactivas proporcionando más control y flexibilidad sobre la salida de voz. SSML puede:

  • Personalice la voz, el idioma, el estilo y la función de la salida de voz mediante la etiqueta . Puede utilizar varias voces en un mismo documento SSML para crear distintos personajes o escenarios.
  • Ajuste la prosodia de la salida de voz mediante la etiqueta . Puede cambiar el volumen, la velocidad de habla, el tono y el énfasis de la salida de voz para adaptarla a diferentes contextos y audiencias.
  • Inserte archivos de audio pregrabados o efectos de sonido en la salida de voz mediante la etiqueta
  • Controle la pronunciación de la salida de voz mediante las etiquetas o . Puede utilizarlas para manejar tipos especiales de palabras como números, fechas, horas, abreviaturas, acrónimos y otros términos. También se puede utilizar para definir cómo se pronuncian las palabras en distintos idiomas o dialectos.
  • Inserte marcadores o eventos en la salida de voz mediante las etiquetas o . Puedes utilizarlas para activar acciones o respuestas en tu aplicación en función de la salida de voz.

Algunas perspectivas de futuro y avances en la tecnología SSML son:

  • Mejorar la calidad y naturalidad del habla: La tecnología SSML puede beneficiarse de los avances en las técnicas de síntesis de voz, como los modelos basados en redes neuronales, que pueden generar una salida de voz más realista y expresiva. El SSML también puede aprovechar las nuevas funciones y capacidades de los servicios o plataformas de síntesis de voz, como las voces personalizadas, los estilos de habla y los roles.
  • Apoyo a la interacción multimodal e intermodal: La tecnología SSML puede permitir modos de interacción más ricos e intuitivos que combinen el habla con otras modalidades, como el tacto, los gestos, la visión y el sonido. El SSML también permite una interacción intermodal capaz de traducir entre distintas modalidades, como habla a texto, texto a habla, habla a imagen e imagen a habla.
  • Mejora de la accesibilidad y la inclusión: La tecnología SSML puede ofrecer soluciones más accesibles e inclusivas para diversos grupos de usuarios, como personas con deficiencias visuales, auditivas, cognitivas o lingüísticas. SSML también puede ayudar a los usuarios que hablan distintos idiomas o dialectos utilizando la etiqueta para cambiar de idioma o la etiqueta para controlar la pronunciación de las palabras.

Reflexiones finales

En esta entrada del blog, hemos explorado la importancia y los beneficios de SSML Text-to-Speech. Hemos visto cómo SSML puede ayudarnos a crear una salida de voz más natural y expresiva, personalizar la voz y la pronunciación, y añadir efectos especiales y emociones. SSML Text-to-Speech es una potente herramienta para mejorar la comunicación y atraer al público en diversos ámbitos, como la educación, el entretenimiento, los negocios y la salud.

Le animamos a que aproveche la potencia de SSML y experimente con diferentes etiquetas y atributos para crear su propio contenido de voz. Le sorprenderá todo lo que puede hacer con SSML Text-to-Speech y cómo puede transformar su experiencia de comunicación.

SSML Text-to-Speech no es sólo una tecnología, sino una forma de arte. Nos permite expresarnos de formas nuevas y creativas, y conectar con nuestros oyentes a un nivel más profundo. Las herramientas de texto a voz como UberTTS, que utilizan la tecnología SSML, son el futuro de la síntesis de voz, y esperamos que se una a nosotros en este apasionante viaje.

Foto de Anson Antony
anson antonio
Anson es autor colaborador y fundador de www.askeygeek.com. Su pasión por aprender cosas nuevas le llevó a crear askeygeek.com, que se centra en la tecnología y los negocios. Con más de una década de experiencia en externalización de procesos empresariales, finanzas y contabilidad, tecnologías de la información, excelencia operativa e inteligencia empresarial, Anson ha trabajado para empresas como Genpact, Hewlett Packard, M*Modal y Capgemini en diversos puestos. Aparte de sus actividades profesionales, es un entusiasta del cine que disfruta pasando horas viendo y estudiando cine, y también es cineasta.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¡Felicidades!
Lo hiciste,
¡No cierres!

Acceso UberCreate Creator Pro
¡¡¡gratis!!!

Esta ventana emergente no se mostrará tú decides de nuevo!!!

1
Compartir a...