SSML Text To Speech – Use tags SSML para criar conteúdos envolventes

texto em fala ssml
Você já se perguntou como produzir texto para fala interessante e que chame a atenção usando tags SSML? Neste artigo, veremos o SSML Text To Speech, suas funções e por que ele pode ajudá-lo a produzir conteúdo envolvente.
Índice

Imagine ser capaz de transformar perfeitamente o texto em uma fala rica e expressiva que soa como uma voz humana. É nesse ponto que o SSML Text-to-Speech entra em ação, abrindo um mundo de possibilidades para a criação de conteúdo dinâmico e envolvente.

Entendendo os conceitos básicos de SSML

O que é SSML?

  • Definição de SSML e sua finalidade no controle da síntese de fala

SSML é a sigla de Speech Synthesis Markup Language, uma linguagem de marcação baseada em XML. É uma forma de escrever um texto que informa ao computador como dizê-lo em voz alta, o que está contido no elemento.

O SSML pode controlar aspectos como velocidade, tom, volume, pronúncia e ênfase da fala. O SSML também pode adicionar pausas, intervalos e outros efeitos para fazer com que a fala soe mais natural e expressiva.

  • Como a SSML aprimora a expressividade e a naturalidade da fala sintetizada

Text-to-Speech (TTS) é uma tecnologia que converte texto escrito em palavras faladas. Os mecanismos de TTS são programas que fazem essa conversão. Entretanto, nem todo texto é fácil de ler ou pronunciar para um computador.

Às vezes, o texto pode conter abreviações, acrônimos, números, símbolos ou palavras estrangeiras que precisam de tratamento especial. O SSML pode ajudar nesses casos, fornecendo informações e instruções adicionais para os mecanismos de TTS.

A SSML também pode tornar a fala mais adequada para diferentes contextos e públicos, alterando o tom, o estilo e a disposição da voz. O SSML e o TTS trabalham juntos para criar uma saída de fala personalizada e de alta qualidade a partir da entrada de texto. 

Como funciona o SSML Text-to-Speech?

O texto é transformado em um arquivo de áudio que pode ser reproduzido para os usuários por meio do SSML Text-to-Speech. A primeira etapa do procedimento é enviar o texto para um sistema TTS, que o analisa e o transforma em fala.

Para fornecer mais informações ao sistema TTS e permitir que ele produza uma fala que soe mais natural, são usadas tags SSML. O arquivo de áudio pode então ser reproduzido para os usuários por meio de várias ferramentas, inclusive uma página da Web ou um aplicativo móvel, depois que o sistema TTS o tiver preparado.

O mecanismo de funcionamento das tags SSML no Text-to-Speech

  • O processo técnico de conversão de texto em fala usando SSML

A entrada de texto é agrupada com tags SSML que fornecem informações e instruções adicionais para o processo de síntese de fala. Por exemplo, a SSML pode definir a voz, o idioma, a pronúncia, o tom, o volume, a ênfase e outros atributos da saída de fala.

A entrada SSML é enviada a um mecanismo TTS (text-to-speech) que a converte em saída de fala. O mecanismo TTS analisa a entrada SSML e aplica as regras e os parâmetros especificados pelas tags. O mecanismo TTS também usa técnicas de processamento de linguagem natural e síntese de fala para gerar saídas de fala sintética.

A saída de fala é retornada como um arquivo ou fluxo de áudio que pode ser reproduzido por um aplicativo ou dispositivo. A saída de fala deve corresponder à entrada SSML em termos de conteúdo, estrutura e estilo

  • Função das tags SSML no controle da pronúncia, da prosódia e de outras características da fala

As tags SSML são uma forma de escrever texto que informa ao computador como dizê-lo em voz alta. As tags SSML podem controlar a pronúncia, a prosódia e outras características da fala sintetizada. Por exemplo:

  1. Pronúncia: As tags SSML podem ajudar o computador a pronunciar as palavras corretamente, especialmente quando elas têm significados ou grafias diferentes em diferentes idiomas ou contextos. As tags SSML também podem definir como dizer números, datas, horas, abreviações, acrônimos e outros termos especiais. As tags SSML podem usar alfabetos fonéticos ou léxicos personalizados para especificar os sons exatos da fala.
  2. Prosódia: As tags SSML podem ajustar o tom, a taxa, o volume e a ênfase da saída da fala. As tags SSML podem alterar o tom, o estilo e o humor da voz para se adequar a diferentes cenários e públicos. A quebra prosódica por termos relativos pode ajudar a criar padrões de estresse em palavras e frases.
  3. Outras características da fala: Use uma tag SSML para inserir arquivos de áudio pré-gravados, como efeitos sonoros ou notas musicais, na saída da fala. As tags SSML também podem envolver o texto com tags de eventos, como marcadores ou visemas, que podem ser processados posteriormente pelo aplicativo.

As tags SSML e os mecanismos TTS trabalham juntos para criar uma saída de fala personalizada e de alta qualidade a partir da entrada de texto.

  • Tags SSML comumente usadas e sua funcionalidade

Alguns exemplos de tags SSML são:

  1. : Essa tag incorpora um arquivo de áudio na saída da fala. Ela pode ser usada para adicionar efeitos sonoros ou notas musicais à fala.
  2. <break>: Essa tag insere uma pausa na saída da fala. Pode ser definida para um período de tempo específico em segundos ou milissegundos, ou com base na intensidade da pausa (como após uma vírgula, uma frase ou um parágrafo).
  3. <emphasis>: Essa tag fala as palavras marcadas mais alto e mais devagar para dar ênfase a elas.
  4. <lang>: Essa tag especifica o idioma das palavras marcadas. Ela pode ser usada para alternar entre diferentes idiomas ou dialetos na saída da fala.
  5. <p>: Essa tag define um parágrafo na saída da fala. Ela adiciona uma pausa após o texto marcado para indicar o fim de um parágrafo.
  6. <phoneme>: Essa tag especifica a pronúncia fonética das palavras marcadas. Ela pode usar alfabetos fonéticos ou léxicos personalizados para melhorar a pronúncia de palavras que são difíceis ou ambíguas para o computador ler.
  7. <prosody>: Essa tag ajusta o volume, a velocidade de fala e o tom da saída de voz. Ela pode ser usada para alterar o tom, o estilo e o humor da voz.
  8. <say-as>: Essa tag controla como tipos especiais de palavras são falados, como números, datas, horas, abreviações, acrônimos e outros termos especiais.
  9. : Essa tag substitui o texto marcado por uma frase. Ela pode ser usada para pronunciar acrônimos e abreviações como palavras completas.
  10. <w>: Essa tag melhora a pronúncia especificando a parte do discurso da palavra marcada. Ela pode ser usada para desambiguar palavras que têm pronúncias diferentes, dependendo de sua função gramatical.

Como implementar SSML em conversão de texto em fala

Manual SSML

A implementação do SSML Text-to-Speech é relativamente simples. Primeiro, você precisará escolher um sistema TTS que suporte SSML, como o Google Cloud Text-to-Speech ou o Amazon Polly. Depois de escolher um sistema TTS, você pode começar a adicionar tags SSML ao seu texto para criar um discurso com som mais natural. Para começar a usar SSML, você pode consultar a documentação do sistema TTS ou encontrar tutoriais on-line.

SSML automático

Se você não estiver familiarizado com as tags SSML e os formatos XML e não quiser passar pela curva de aprendizado, sugerimos que use soluções avançadas de conversão de texto em fala com IA, como UberTTS ou VOICEAIR que integram as tags SSML automaticamente.

Por que usar o UberTTS?

O SSML é compatível com a maioria das plataformas e aplicativos TTS, como o Google Cloud Text-to-Speech, o Amazon Polly, o Microsoft Azure Speech Services e outros. Para usar o SSML, você precisa escrever seu texto no formato XML e incluir a tag Tags SSML dentro do elemento .

Se você não estiver familiarizado com o código SSML, será um pouco difícil obter os resultados desejados. É aqui que o UberTTS SSML Text To Speech é muito útil. Com o UberTTS, basta selecionar um menu suspenso para obter o resultado desejado. Não é necessário escrever manualmente ou conhecer nenhuma das tags SSML ou formatos XML, basta selecionar a opção no menu suspenso e, em seguida, colocar seu texto entre o código XML que foi criado automaticamente com base na seleção.

Por exemplo:

				
					<speak>
  Hello, <break time="500ms"/> world!
</speak>

				
			

Esse código SSML fará com que o mecanismo TTS diga "Hello" e, em seguida, faça uma pausa de meio segundo antes de dizer "world". Você pode usar atributos e valores diferentes para personalizar as tags SSML de acordo com suas necessidades.

Por exemplo:

				
					<speak>
  <prosody rate="slow" pitch="+10st">Wow</prosody>, this is <emphasis level="strong">amazing</emphasis>!
</speak>

				
			

Esse código SSML fará com que o mecanismo TTS diga "Wow" lentamente e com um tom mais agudo e, em seguida, diga "amazing" (incrível) com uma forte ênfase.

Você pode criar uma conta gratuita no UberTTS e tentar usar as opções do SSML Text To Speech.

O SSML pode ajudá-lo a criar uma saída de fala mais natural e expressiva a partir do seu texto. Ela também pode ajudá-lo a superar algumas das limitações ou desafios do TTS, como lidar com abreviações, acrônimos, números, datas ou palavras estrangeiras. Ao usar o SSML, você pode aprimorar sua experiência de TTS e torná-la mais envolvente e eficaz para o seu público.

Experimente o UberTTS hoje mesmo para ver o que o SSML pode alcançar com o Text to Speech

Práticas recomendadas para conversão de texto em fala SSML

Práticas recomendadas para testar e ajustar a saída de fala baseada em SSML

É fundamental aderir às práticas recomendadas ao usar o SSML Text-to-Speech para produzir a fala mais realista possível. Algumas sugestões são utilizar a ênfase e a pausa adequadas, evitar o uso excessivo de tags SSML e usar as configurações de idioma e voz apropriadas para o seu público.

Para garantir que a saída do SSML Text-to-Speech seja compreensível e clara, também é fundamental testá-la com usuários reais.

Algumas práticas recomendadas para testar e ajustar a saída de fala baseada em SSML são:

  1. Use a ferramenta de criação de conteúdo de áudio: Essa é uma ferramenta sem código que permite a você criar texto simples e SSML no Speech Studio. Você pode ouvir o áudio de saída e ajustar o SSML para melhorar a síntese de fala. Também é possível exportar o código SSML para seu aplicativo.
  2. Use a Galeria de Voz: Esta é uma página da Web que permite que você ouça vozes em diferentes estilos e alturas lendo um texto de exemplo. Você pode usá-la para comparar e selecionar a melhor voz para o seu cenário.
  3. Usar a CLI do Speech: Esta é uma ferramenta de linha de comando que permite sintetizar a fala a partir de texto ou entrada SSML. Você pode usá-la para testar e depurar rapidamente seu código SSML.
  4. Use o Speech SDK: Este é um kit de desenvolvimento de software que permite integrar a síntese de fala em seu aplicativo. Você pode usá-lo para fornecer entrada SSML por meio do método SSML "speak".
  5. Usar a API de síntese de lote: Esta é uma API REST que permite sintetizar de forma assíncrona arquivos de texto para fala com mais de 10 minutos (como livros de áudio ou palestras). Você pode usá-la para fornecer entrada SSML por meio da propriedade inputs.
  6. Use a referência SSML: Esta é uma página da Web que fornece informações detalhadas e exemplos das tags e atributos SSML compatíveis. Você pode usá-la para aprender a usar SSML para controlar vários aspectos da saída de fala, como pronúncia, prosódia, voz, idioma e muito mais

Ferramentas e técnicas para garantir uma fala de alta qualidade e com som natural

Algumas ferramentas e técnicas para garantir uma fala de alta qualidade e com som natural são:

  1. Conversão de texto em fala no Google Cloud: Este é um serviço baseado em nuvem que converte texto em fala com som natural usando uma API alimentada pelas tecnologias de IA do Google. Ele oferece uma ampla variedade de vozes, idiomas e estilos, bem como a capacidade de criar vozes personalizadas e ajustar a saída de fala usando SSML.
  2. UberTTS e VOICEAIR O Text To Speech integra a tecnologia de IA Text-to-Speech do Google Cloud à ferramenta, juntamente com outras soluções de IA da AWS, Azure e IBM. 
  3. Translatotron 2: Este é um projeto de pesquisa que desenvolve um sistema de tradução direta de fala para fala que pode preservar a voz do locutor original na fala traduzida. Ele usa uma nova arquitetura de modelo e um novo método de transferência de voz que melhora a qualidade da tradução, a naturalidade e a robustez da fala.
  4. WaveGlow: Este é um projeto de pesquisa que desenvolve uma rede baseada em fluxo capaz de gerar fala de alta qualidade a partir de espectrogramas de mel. Ele combina insights do Glow e do WaveNet para fornecer síntese de áudio rápida, eficiente e de alta qualidade, sem a necessidade de regressão automática

Aproveitamento do poder do SSML Text to Speech

Personalização da saída de fala com SSML

Vou lhe dar alguns exemplos de como o SSML pode aprimorar seu conteúdo de texto para fala. Suponha que você queira se apresentar com um tom amigável e casual. Você pode usar a tag para especificar o nome e o estilo da voz que deseja usar.

Por exemplo, estou usando a voz do UberTTS chamada \"Aria\" com o estilo \"cheerful\". Veja como ela soa:

				
					<voice name=\"Aria\" style=\"cheerful\">Hi, I'm Aria, and I'm happy to be your text-to-speech narrator today.</voice>
				
			

Agora, suponha que você queira enfatizar uma determinada palavra ou frase em seu discurso. Você pode usar a tag para ajustar o nível de ênfase na palavra ou frase.

Por exemplo, se eu quiser enfatizar o quanto gosto de SSML, posso usar o nível \"strong\". É assim que soa:

				
					<voice name=\"Aria\" style=\"cheerful\">I <emphasis level=\"strong\">love</emphasis> SSML!</voice>
				
			

Outra maneira de usar SSML é controlar a pronúncia de palavras ou expressões que podem ser difíceis ou ambíguas para o mecanismo de conversão de texto em fala. Você pode usar a tag para especificar como uma palavra ou expressão deve ser interpretada pelo mecanismo de conversão de texto em fala.

Por exemplo, se eu quiser dizer o acrônimo \"SSML\", posso usar o atributo interpret-as \"characters\" para garantir que cada letra seja pronunciada separadamente. Veja como isso soa:

				
					<voice name=\"Aria\" style=\"cheerful\">The acronym <say-as interpret-as=\"characters\">SSML</say-as> stands for Speech Synthesis Markup Language.</voice>
				
			

Você também pode usar SSML para inserir elementos de áudio em sua saída de fala. Você pode usar a tag

				
					<voice name=\"Aria\" style=\"cheerful\">SSML is amazing! <audio src=\"https://www.example.com/applause.mp3\">Sorry, I couldn't play the applause sound.</audio></voice>
				
			

Essas são apenas algumas das maneiras pelas quais você pode usar o SSML para criar conteúdo dinâmico e envolvente com conversão de texto em fala. Há muito mais tags e atributos SSML que você pode explorar e experimentar.

Síntese de fala multilíngue e com sotaque

Síntese de fala multilíngue e com sotaque. O que é isso, você pergunta? Bem, é uma tecnologia que pode fazer com que um computador fale em diferentes idiomas e sotaques, assim como os humanos fazem. Imagine poder ouvir seu podcast favorito em espanhol com sotaque britânico, ou seu audiolivro favorito em francês com sotaque indiano. Parece incrível, não é?

Mas como isso funciona? Como um computador pode aprender a falar fluentemente em um idioma estrangeiro ou a imitar diferentes sotaques? Há diferentes abordagens para esse problema, mas uma das mais populares baseia-se em modelos de conversão de texto em fala (TTS) de ponta a ponta. São redes neurais que podem converter diretamente texto em fala, sem depender de etapas intermediárias como transcrição fonética ou previsão de prosódia. Eles podem produzir uma fala de alta qualidade e com som natural que é difícil de distinguir da fala humana.

No entanto, a maioria desses modelos é treinada com dados de um idioma e de um locutor, o que limita sua capacidade de generalização para outros idiomas e locutores. Para superar essa limitação, alguns pesquisadores propuseram modelos TTS multilíngues e com vários falantes que podem aprender representações compartilhadas entre idiomas e falantes e usá-las para sintetizar a fala com características diferentes.

Por exemplo, o RADTTS é um modelo que pode controlar o sotaque, o idioma, o locutor e os recursos de granulação fina da fala sintetizada, sem depender de dados de treinamento bilíngues. Ele pode gerar fala com qualquer sotaque para qualquer locutor em seu conjunto de dados, que consiste em sete sotaques.

Outro exemplo é um modelo que pode obter TTS multilíngue para vários falantes com dados de treinamento bilíngue limitados. outputs sintetizam a fala de falantes que só gravaram dados em um idioma, transferindo suas características de voz para outro idioma. Ele usa uma nova arquitetura que combina um decodificador autorregressivo com um decodificador não autorregressivo e aproveita um diagrama fonético posterior multilíngue como uma representação intermediária.

Esses são apenas alguns exemplos de como a síntese de fala multilíngue e com sotaque pode ser obtida com redes neurais. Há muitos outros desafios e oportunidades nesse campo, como melhorar a naturalidade e a diversidade da fala, lidar com cenários de troca de código e de idiomas mistos e adaptar-se a novos idiomas e falantes com aprendizado de poucas tentativas.

Criação de experiências personalizadas e interativas com tags SSML

Implementação de lógica condicional e respostas de fala orientadas pelo usuário

Algumas maneiras de implementar a lógica condicional e as respostas de fala orientadas pelo usuário usando tags SSML são:

Conversão de texto em fala no Google Cloud: Esse serviço permite que você use tags SSML para personalizar a saída de fala com base em várias condições e entradas do usuário. Por exemplo, você pode usar a tag para especificar uma saída de fala diferente, dependendo do valor de uma variável ou de uma expressão. Também é possível usar a tag para inserir um marcador em um fluxo de saída que pode acionar eventos ou ações em seu aplicativo.

Kit de habilidades da Alexa: Essa estrutura permite que você use tags SSML para criar experiências de voz dinâmicas e envolventes para os usuários da Alexa. Por exemplo, você pode usar a tag para envolver sua saída SSML e indicar que ela está usando SSML em vez de texto simples. Você também pode usar a tag Amazon:effect para aplicar efeitos especiais à sua saída de voz, como sussurrar ou alterar o tom.

Você pode aproveitar os benefícios das tags SSML do Amazon e do Google Cloud TTS usando o UberTTS ou o VOICEAIR e ce obter uma interação de voz específica mais dinâmica e personalizada.

Aplicativos e benefícios do SSML Text-to-Speech

Há várias vantagens em usar o SSML Text-to-Speech em relação a outros sistemas TTS. Primeiro, ele permite mais controle sobre a saída do sistema TTS, resultando em uma fala que soa mais natural.

Em segundo lugar, ele pode ser aplicado à produção de conteúdo mais interessante, como sistemas de resposta interativa por voz (IVR) ou audiolivros. Por último, mas não menos importante, ele pode ser usado para fornecer material mais acessível, permitindo o acesso de pessoas com deficiências visuais ou outras deficiências.

Acessibilidade e inclusão usando SSML

Por que o SSML é importante para a acessibilidade e a inclusão? Bem, imagine que você tem um podcast ou um vídeo que deseja alcançar um público mais amplo, incluindo pessoas surdas ou com deficiência auditiva, ou pessoas que falam um idioma diferente do seu. 

Você pode usar o SSML Text To Speech para criar legendas para o seu conteúdo, ou até mesmo traduzi-lo para outro idioma. Dessa forma, você pode garantir que todos possam entender e aproveitar seu conteúdo, independentemente de sua capacidade auditiva ou preferência de idioma.

Mas o SSML Text To Speech não é útil apenas para criar legendas. Ele também pode ajudá-lo a tornar seu áudio mais expressivo e envolvente para os ouvintes. 

Por exemplo, você pode usar o SSML para enfatizar determinadas palavras ou frases, alterar o tom ou o estilo da sua voz ou adicionar humor ou emoção ao seu discurso. Você também pode usar o SSML para criar diferentes personagens ou personas para seu áudio, como um narrador, um professor, um amigo ou um robô.

Como você usa o SSML Text To Speech? Bem, há diferentes maneiras de fazer isso, dependendo da plataforma ou ferramenta que você estiver usando. Por exemplo, se você estiver usando a API Text-to-Speech do Google Cloud, poderá enviar um documento SSML em sua solicitação e obter uma resposta de áudio. 

Se você estiver usando o Serviço de Fala dos Serviços Cognitivos do Microsoft Azure, poderá usar a ferramenta de Criação de Conteúdo de Áudio para criar texto simples e SSML no Speech Studio. Você também pode usar a API de síntese em lote, a CLI do Speech ou o SDK do Speech para fornecer entrada SSML.

O exemplo a seguir é de um documento SSML que criei para esta postagem do blog; sinta-se à vontade para usá-lo com o UberTTS ou qualquer outro SSML software de texto para fala para ouvi-lo:

				
					<speak>
  <voice name="en-US-JennyNeural">
    Hi everyone! Welcome to my blog where I share my thoughts and tips on how to create accessible and inclusive content using technology.
    <break time="500ms"/>
    Today, I want to talk about how you can use <say-as interpret-as="characters">SSML</say-as> Text To Speech to make your audio more engaging and natural for your listeners.
    <break time="500ms"/>
    <prosody rate="+10%">SSML</prosody> stands for Speech Synthesis Markup Language, and it is an XML-based language that allows you to customize various aspects of your text-to-speech output,
    such as pitch, rate, volume, pronunciation, and more.
    <break time="500ms"/>
    You can also use <prosody rate="+10%">SSML</prosody> to insert pauses,
    breaks,
    sound effects,
    <audio src="https://www.example.com/laugh.mp3">a laugh</audio>,
    and different voices in your audio.
  </voice>
  <voice name="en-US-GuyNeural">
    Why is this important for accessibility and inclusivity?
    <break time="500ms"/>
    Well,
    imagine you have a podcast or a video that you want to reach a wider audience,
    including people who are deaf or hard of hearing,
    or people who speak a different language than you.
    <break time="500ms"/>
    You can use <prosody rate="+10%">SSML</prosody> Text To Speech
    to create captions or subtitles for your content,
    or even translate it into another language.
    <break time="500ms"/>
    This way,
    you can make sure that everyone can understand and enjoy your content,
    regardless of their hearing ability or language preference.
  </voice>
  <voice name="en-US-JennyNeural">
    But <prosody rate="+10%">SSML</prosody> Text To Speech is not only useful for creating captions or subtitles.
    It can also help you make your audio more expressive and engaging for your listeners.
    <break time="500ms"/>
    For example,
    you can use <prosody rate="+10%">SSML</prosody> to emphasize certain words or phrases,
    change the tone or style of your voice,
    or add some humor or emotion to your speech.
    <break time="500ms"/>
    You can also use <prosody rate="+10%">SSML</prosody> to create different characters or personas for your audio,
    such as a narrator,
    a teacher,
    a friend,
    or a robot.
  </voice>
  <voice name="en-US-GuyNeural">
    How do you use <prosody rate="+10%">SSML</prosody> Text To Speech?
    <break time="500ms"/>
    Well,
    there are different ways to do it,
    depending on what platform or tool you are using.
    <break time="500ms"/>
    For example,
    if you are using Google Cloud Text-to-Speech API,
    you can send an SSML document in your request and get an audio response.
    <break time="500ms"/>
    If you are using Microsoft Azure Cognitive Services Speech Service,
    you can use the Audio Content Creation tool to author plain text and SSML in Speech Studio.
    <break time="500ms"/>
    You can also use the Batch synthesis API,
    the Speech CLI,
    or the Speech SDK
    to provide SSML input.
  </voice>
  <voice name="en-US-JennyNeural">
    Here is an example of an SSML document that I created for this blog post:
  </voice>
</speak>
				
			

Como você pode ver, usei diferentes elementos SSML para tornar meu áudio mais interessante e dinâmico. Usei o elemento para alternar entre duas vozes, a voz feminina Jenny e a voz masculina Guy, ambas vozes neurais do UberTTS que utilizam a API do serviço de fala do Microsoft Azure Cognitive Services. 

Usei o elemento para soletrar o acrônimo SSML. Usei o elemento para aumentar a velocidade do SSML. Usei o elemento para inserir pausas de diferentes durações. E usei o elemento

SSML Text To Speech para E-Learning e aplicativos educacionais

Por que o SSML text-to-speech é importante para aplicativos educacionais e de e-learning? Imagine que você está criando um curso on-line ou um podcast que usa TTS para apresentar seu conteúdo. Você quer que seus alunos tenham uma experiência auditiva agradável e envolvente, certo? Você não quer que eles fiquem entediados ou confusos com uma voz robótica ou monótona que pronuncia palavras incorretamente ou ignora a pontuação. Com o SSML, você pode aprimorar a saída do TTS e torná-la mais natural e parecida com a de um ser humano.

Por exemplo, você pode usar tags SSML para:

  • - Especifique como pronunciar acrônimos, abreviações, números, datas, etc.
  • - Adicionar ênfase ou estresse a determinadas palavras ou frases
  • - Ajuste o tom, a taxa ou o volume da voz
  • - Inserir pausas ou intervalos entre frases ou parágrafos
  • - Alterar a voz ou o idioma do orador
  • - Adicionar efeitos sonoros ou música de fundo

O SSML é compatível com a maioria dos mecanismos e plataformas de TTS, como Amazon Polly, Google Cloud Text-to-Speech, Microsoft Azure Speech Services, IBM Watson Text to Speech etc. Você também pode usar o SSML com algumas ferramentas de criação de e-learning, como o Articulate Storyline ou o Adobe Captivate.

Para usar SSML, você precisa escrever seu conteúdo de texto no formato XML e incluí-lo em tags . Em seguida, você pode adicionar outras tags SSML dentro das tags para modificar a saída de fala. Por exemplo, é assim que você escreveria "Hello world" em SSML:

				
					<speak>Hello world</speak>
				
			

E é assim que você escreveria "Hello world" com um tom mais alto e uma pausa mais longa depois:

				
					<speak><prosody pitch="+10%">Hello world</prosody><break time="1000ms"/></speak>
				
			

Você pode encontrar mais exemplos e documentação sobre como usar o SSML nos sites dos mecanismos ou plataformas de TTS que estiver usando.

Assistentes de voz e sistemas interativos de resposta por voz (IVR)

O uso de SSML com assistentes de voz e sistemas IVR depende da plataforma e do serviço que você está usando, mas, em geral, você precisa fazer duas coisas:

  1. Escreva seu documento SSML com as tags e os atributos que atendam às suas necessidades. Você pode encontrar alguns exemplos e tutoriais sobre como escrever SSML para diferentes plataformas aqui:
    API de conversão de texto em fala do Google Cloud e Serviço de fala dos serviços cognitivos do Microsoft Azure
  2. Envie o documento SSML para o serviço de conversão de texto em fala que você está usando, seja por meio de uma API, uma CLI, um SDK ou uma ferramenta. O serviço sintetizará o texto em fala e retornará um arquivo ou fluxo de áudio que poderá ser reproduzido para os usuários.

Alguns benefícios de usar SSML com assistentes de voz e sistemas IVR são:

  • - Você pode criar interações de voz mais envolventes e personalizadas para seus usuários, adicionando pausas, ênfase, efeitos sonoros ou vozes diferentes.
  • - Você pode melhorar a clareza e a precisão da sua saída de voz, especificando como as palavras ou expressões devem ser pronunciadas ou soletradas.
  • - Você pode oferecer suporte a vários idiomas e localidades em seus aplicativos de voz, alternando entre vozes e idiomas no mesmo documento SSML.

Direções futuras e inovações em SSML Text-to-Speech

Uma das possíveis direções futuras do SSML TTS é permitir uma síntese de fala mais expressiva e natural usando **estilos de voz** e **etiquetas de emoção**. Os estilos de voz são variações predefinidas de uma voz que podem transmitir diferentes estados de espírito, personalidades ou cenários de fala.

Por exemplo, você pode usar um estilo de voz para fazer com que uma voz pareça alegre, calma, empática ou irritada. As tags de emoção são elementos SSML que podem modificar a saída de voz para expressar uma emoção específica, como felicidade, tristeza, medo ou surpresa.

Por exemplo, você pode usar uma tag de emoção para fazer com que uma voz pareça feliz ao dizer "parabéns" ou triste ao dizer "desculpe-me". Ao usar estilos de voz e tags de emoção, você pode criar um conteúdo de fala mais realista e envolvente que pode se adaptar a diferentes contextos e públicos.

Outra possível direção futura é melhorar a pronúncia e a inteligibilidade da síntese de fala usando **fonemas**, **léxicos personalizados** e **etiquetas de dizer como**. Os fonemas são as menores unidades de som que compõem uma palavra. Você pode usar fonemas para especificar como uma parte do wsub-taga de uma palavra deve ser pronunciada. Os léxicos personalizados são dicionários definidos pelo usuário que mapeiam as palavras para suas pronúncias.

Você pode usar léxicos personalizados para substituir a pronúncia padrão de palavras que não estão no dicionário padrão ou que têm várias pronúncias. As tags Say-as são elementos SSML que podem alterar a forma como uma palavra ou frase é falada com base em seu tipo ou formato.

Por exemplo, você pode usar uma tag say-as para fazer uma voz soletrar um acrônimo, ler uma data ou uma hora, ou dizer um número como ordinal ou cardinal. Ao usar fonemas, léxicos personalizados e tags say-as, você pode melhorar a precisão e a clareza da síntese de fala para diferentes idiomas e domínios.

Uma terceira possível direção futura é aprimorar a interatividade e a personalização da síntese de fala usando as tags **audio** e **sub**. As tags de áudio são elementos SSML que podem inserir clipes de áudio pré-gravados na saída da fala.

Por exemplo, você pode usar uma tag de áudio para adicionar um efeito sonoro, uma nota musical ou um ruído de fundo ao conteúdo da fala. As submarcas são elementos SSML que podem substituir uma palavra ou frase por outra. Por exemplo, você pode usar uma submarca para substituir uma abreviação por sua forma completa, um termo técnico por sua definição ou um nome por seu apelido. Com o uso de áudio e submarcas, você pode criar um conteúdo de fala mais interativo e personalizado, capaz de captar a atenção e o interesse dos ouvintes.

Essas são algumas das futuras direções e inovações no SSML Text-to-Speech que podem torná-lo mais avançado e versátil. O SSML Text-to-Speech é uma tecnologia que tem muitas aplicações e benefícios para vários setores e domínios. Com o uso de elementos e atributos SSML, é possível criar conteúdo dinâmico e envolvente que pode melhorar a experiência e a satisfação do usuário.

Considerações éticas e desafios com o SSML TTS

Uma das considerações éticas com o Text To Speeches usando SSML é a autenticidade e transparência da saída da fala. Como você garante que os ouvintes saibam que estão ouvindo uma voz sintética e não uma voz humana? 

Como você evita enganar ou iludi-los com falas manipuladas ou fabricadas? Como você respeita os direitos e as preferências dos dubladores ou locutores originais cujas vozes são usadas para criar as vozes sintéticas? 

Essas são algumas das questões que você precisa considerar ao usar o SSML Text-to-Speech para a criação de conteúdo.

Outra consideração ética é a acessibilidade e inclusão do resultado do discurso. Como você garante que o resultado da fala seja claro, compreensível e apropriado para seu público-alvo? 

Como você leva em conta a diversidade e a variabilidade da fala humana, como sotaques, dialetos, idiomas, gêneros, idades e emoções? Como evitar preconceito ou discriminação na escolha da voz, do idioma, do estilo e da função? Essas são algumas das perguntas que você precisa considerar ao usar o SSML Text-to-Speech para o fornecimento de conteúdo.

Alguns dos desafios que você pode enfrentar ao usar o SSML Text-to-Speech estão relacionados à qualidade e ao desempenho da tecnologia. Como você garante que a saída da fala seja natural, fluente e expressiva? 

Como você lida com as limitações e os erros do mecanismo de conversão de texto em fala, como pronúncias erradas, entonações incorretas ou pausas não naturais? Como você otimiza a saída de fala para diferentes dispositivos, plataformas e ambientes? 

Essas são algumas das questões que você precisa considerar ao usar o SSML Text-to-Speech para otimizar seu conteúdo.

O SSML Text-to-Speech é uma tecnologia poderosa e versátil que pode ajudá-lo a criar conteúdo dinâmico e envolvente para vários cenários. No entanto, ela também traz algumas considerações e desafios éticos dos quais você precisa estar ciente e resolver. 

Ao usar o SSML Text-to-Speech de forma responsável e criativa, você pode aprimorar sua experiência de criação e entrega de conteúdo.

Perguntas frequentes (FAQ)

A função da SSML na síntese de fala é fornecer informações e instruções adicionais para que o computador gere uma saída de fala que soe mais natural e expressiva. A SSML pode controlar aspectos como a velocidade, o tom, o volume, a pronúncia e a ênfase da fala. 

O SSML também pode adicionar pausas, intervalos e outros efeitos para fazer com que a fala soe mais natural e expressiva. O SSML também pode ajudar a pronunciar as palavras corretamente, especialmente quando elas têm significados ou grafias diferentes em diferentes idiomas ou contextos. 

A SSML também pode tornar a fala mais adequada para diferentes contextos e públicos, alterando o tom, o estilo e a disposição da voz. Os mecanismos de síntese de fala e SSML trabalham juntos para criar uma saída de fala personalizada e de alta qualidade a partir da entrada de texto.

Você pode usar SSML para personalizar a saída de fala usando diferentes tags e atributos SSML. As tags SSML são uma forma de escrever texto que informa ao computador como dizê-lo em voz alta. As tags SSML podem controlar vários aspectos da saída de fala, como pronúncia, prosódia, voz, idioma e muito mais. 

Por exemplo, você pode usar a tag para controlar como tipos especiais de palavras são falados, como números, datas, horas, abreviações, acrônimos e outros termos especiais. Você também pode usar a tag para ajustar o volume, a velocidade de fala e o tom da saída de fala. Você também pode usar a tag

Você também pode usar a tag para especificar uma saída de fala diferente, dependendo do valor de uma variável ou de uma expressão. Há muitas outras tags e atributos SSML que você pode usar para personalizar a saída de fala. Você pode consultar as páginas de referência SSML para diferentes serviços ou plataformas de síntese de fala para saber mais sobre eles.

Algumas linguagens de programação que suportam a implementação de SSML são:

  • Pitão: Você pode usar o ASK SDK para Python para criar respostas para as habilidades da Alexa usando Python. Você pode usar o objeto response_builder para criar respostas usando funções auxiliares para tags SSML. Você também pode usar a função get_speechcon_text_content para obter um objeto de conteúdo de texto com um speechcon (uma palavra que a Alexa pronuncia de forma mais expressiva) inserido.
  • C#: Você pode usar o Speech SDK for C# para integrar a síntese de fala em seu aplicativo usando o C#. Você pode usar a classe SpeechSynthesizer para criar um objeto sintetizador de fala que possa sintetizar a fala a partir de texto ou entrada SSML. Você também pode usar o método SpeakSsmlAsync para sintetizar de forma assíncrona a fala a partir da entrada SSML.
  • Java: Você pode usar o ASK SDK para Java para criar respostas para as habilidades da Alexa usando Java. Você pode usar a classe ResponseBuilder para criar respostas usando métodos auxiliares para tags SSML. Você também pode usar a classe SsmlOutputSpeech para criar um objeto de fala de saída que contenha conteúdo SSML.

Algumas plataformas compatíveis com SSML gratuitas ou de código aberto são:

  • Conversão de texto em fala no Google Cloud: Este é um serviço baseado em nuvem que converte texto em fala com som natural usando uma API alimentada pelas tecnologias de IA do Google. Ele oferece uma ampla variedade de vozes, idiomas e estilos, bem como a capacidade de criar vozes personalizadas e ajustar a saída de fala usando SSML.
  • OpenTTS: Este é um servidor de texto para fala de código aberto que unifica o acesso a vários sistemas de texto para fala de código aberto e vozes para muitos idiomas. Ele é compatível com um subconjunto de SSML que pode usar várias vozes, sistemas de conversão de texto em fala e idiomas.
  • eSpeak: Este é um software compacto de código aberto para sintetizar a fala em inglês e em outros idiomas. Ele suporta entrada SSML e pode ser usado como front-end para outros mecanismos de síntese de fala.

Sim, a SSML pode ser usada para gerar fala em vários idiomas. A SSML suporta a tag que pode especificar o idioma das palavras marcadas. Ela pode ser usada para alternar entre diferentes idiomas ou dialetos na saída da fala. Por exemplo, você pode usar a tag para dizer olá em diferentes idiomas:

Hello Hola Bonjour 你好

No entanto, nem todos os serviços ou plataformas de síntese de fala suportam o mesmo conjunto de idiomas ou tags SSML. Você deve verificar a documentação e a disponibilidade do serviço ou da plataforma que está usando antes de usar a SSML para gerar fala em vários idiomas. 

Sim, o SSML oferece opções para controlar a velocidade e o volume da fala. O SSML suporta a tag que pode ajustar o volume, a velocidade da fala e o tom da saída da fala. Ela pode ser usada para alterar o tom, o estilo e a disposição da voz. Por exemplo, você pode usar a tag para dizer uma frase mais rápido e mais alto:

Esta é uma sentença rápida e alta.

No entanto, nem todos os serviços ou plataformas de síntese de fala suportam o mesmo conjunto de atributos ou valores de prosódia. Verifique a documentação e a compatibilidade do serviço ou da plataforma que está usando antes de usar a SSML para controlar a velocidade e o volume da fala.

Alguns benefícios da incorporação do SSML em aplicativos de e-learning são

  • Aumentar o envolvimento e a motivação do aluno: O SSML pode ser usado para criar interações de voz dinâmicas e personalizadas que podem captar a atenção e o interesse dos alunos. A SSML também pode adicionar emoção e expressão à saída de voz, tornando-a mais natural e semelhante à humana.
  • Melhorar a compreensão e a retenção: A SSML pode ser usada para controlar o ritmo, o tom e a ênfase da saída da fala, facilitando o acompanhamento e a compreensão do conteúdo pelos alunos. A SSML também pode adicionar pausas, intervalos e efeitos sonoros à saída da fala, tornando-a mais clara e memorável.
  • Apoiar a acessibilidade e a inclusão: A SSML pode ser usada para oferecer modos alternativos de aprendizado para alunos com deficiências visuais, auditivas ou cognitivas. A SSML também pode oferecer suporte a alunos que falam idiomas ou dialetos diferentes usando a tag para alternar entre idiomas ou usando a tag para controlar como as palavras são pronunciadas.

A SSML pode contribuir para a acessibilidade de usuários com deficiência visual, fornecendo modos alternativos de aprendizado e comunicação que podem superar as barreiras do conteúdo visual. A SSML pode:

  • Ativar a conversão de texto em fala: O SSML pode ser usado para converter texto escrito em palavras faladas que podem ser ouvidas por usuários com deficiência visual. A SSML também pode controlar os atributos de saída da fala, como tom, pronúncia, velocidade de fala, volume e outros, para tornar a fala mais natural e expressiva.
  • Suporte à interação multimodal: O SSML pode ser usado para dar suporte à interação multimodal que combina fala, toque, gestos e outras modalidades para proporcionar uma experiência de usuário mais rica e intuitiva. A SSML também pode adicionar efeitos sonoros, notas musicais e outros elementos de áudio à saída de fala para aprimorar o feedback e o envolvimento.
  • Fornecer adaptação de conteúdo: A SSML pode ser usada para fornecer adaptação de conteúdo que adapta a saída de fala às preferências, às necessidades e ao contexto do usuário. A SSML também pode alternar entre diferentes idiomas ou dialetos usando a tag ou controlar como as palavras são pronunciadas usando a tag para dar suporte a usuários que falam diferentes idiomas ou têm diferentes níveis de alfabetização.

O SSML pode ser usado para criar aplicativos de voz interativos, fornecendo mais controle e flexibilidade sobre a saída de voz. A SSML pode:

  • Personalize a voz, o idioma, o estilo e a função da saída de fala usando a tag . É possível usar várias vozes em um único documento SSML para criar diferentes personagens ou cenários.
  • Ajuste a prosódia da saída da fala usando a tag . Você pode alterar o volume, a velocidade de fala, o tom e a ênfase da saída da fala para se adequar a diferentes contextos e públicos.
  • Insira arquivos de áudio pré-gravados ou efeitos sonoros na saída da fala usando a tag
  • Controle a pronúncia da saída de fala usando as tags ou . Você pode usar isso para lidar com tipos especiais de palavras, como números, datas, horas, abreviações, acrônimos e outros termos. Você também pode usar isso para definir como as palavras são pronunciadas em diferentes idiomas ou dialetos.
  • Insira marcadores ou eventos na saída de fala usando as tags ou . Você pode usar isso para acionar ações ou respostas em seu aplicativo com base na saída de fala.

Algumas perspectivas futuras e avanços na tecnologia SSML são:

  • Melhorar a qualidade e a naturalidade da fala: A tecnologia SSML pode se beneficiar dos avanços nas técnicas de síntese de fala, como modelos baseados em redes neurais, que podem gerar uma saída de fala mais realista e expressiva. A SSML também pode aproveitar os novos recursos e capacidades dos serviços ou plataformas de síntese de fala, como vozes personalizadas, estilos de fala e funções.
  • Suporte à interação multimodal e multimodal: A tecnologia SSML pode permitir modos de interação mais ricos e intuitivos que combinam a fala com outras modalidades, como toque, gesto, visão e som. A SSML também pode oferecer suporte à interação multimodal que pode ser traduzida entre diferentes modalidades, como fala para texto, texto para fala, fala para imagem e imagem para fala.
  • Aprimoramento da acessibilidade e da inclusão: A tecnologia SSML pode fornecer soluções mais acessíveis e inclusivas para diversos grupos de usuários, como pessoas com deficiências visuais, auditivas, cognitivas ou linguísticas. A SSML também pode oferecer suporte a usuários que falam idiomas ou dialetos diferentes usando a tag para alternar entre idiomas ou usando a tag para controlar como as palavras são pronunciadas.

Considerações finais

Nesta postagem do blog, exploramos a importância e os benefícios do SSML Text-to-Speech. Vimos como o SSML pode nos ajudar a criar uma saída de fala mais natural e expressiva, personalizar a voz e a pronúncia e adicionar efeitos especiais e emoções. O SSML Text-to-Speech é uma ferramenta poderosa para aprimorar a comunicação e envolver o público em vários domínios, como educação, entretenimento, negócios e saúde.

Incentivamos você a aproveitar o poder do SSML e experimentar diferentes tags e atributos para criar seu conteúdo de fala exclusivo. Você ficará surpreso com o quanto é possível fazer com o SSML Text-to-Speech e como ele pode transformar sua experiência de comunicação.

O SSML Text-to-Speech não é apenas uma tecnologia, mas uma forma de arte. Ela nos permite nos expressar de maneiras novas e criativas e nos conectar com nossos ouvintes em um nível mais profundo. Ferramentas de conversão de texto em fala, como o UberTTS, que usam a tecnologia SSML, são o futuro da síntese de fala, e esperamos que você se junte a nós nessa jornada emocionante.

Compartilhe com seus amigos e colegas!
Picture of Anson Antony
Anson Antônio
Anson é autor colaborador e fundador da www.askeygeek.com. Aprender algo novo sempre foi sua paixão, ASKEYGEEK.com é o resultado de sua paixão por tecnologia e negócios. Ele tem uma década de experiência versátil em terceirização de processos de negócios, finanças e contabilidade, tecnologia da informação, excelência operacional e inteligência de negócios. Durante sua gestão, ele trabalhou para organizações como Genpact, Hewlett Packard, M*Modal e Capgemini em diversas funções e responsabilidades. Fora dos negócios e da tecnologia, ele é um cinéfilo que passa horas juntos assistindo e aprendendo Cinema e também Cineasta!

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Parabéns!
Você conseguiu,
Não feche!

Levante-se para 60.000 Créditos de personagem UberTTS de graça!!!

Este pop-up não vai aparecer você decide de novo!!!

UberTTS
Share to...