Ewolucja technologii zamiany tekstu na mowę – od XVIII wieku do chwili obecnej!

Ewolucja technologii zamiany tekstu na mowę
Technologia zamiany tekstu na mowę zmieniła sposób, w jaki komunikujemy się z komputerami i urządzeniami, od głosów robotów po naturalną mowę przypominającą ludzką. Dowiedz się, jak ewoluowała technologia zamiany tekstu na mowę, jak rozwijała się ona na przestrzeni lat, jakie są jej zalety i wyzwania oraz jakie są jej obecne i przyszłe zastosowania.
Spis treści

Technologia zamiany tekstu na mowę (TTS) to proces przekształcania tekstu pisanego na dźwięk mówiony. Ma wiele zastosowań, takich jak dostępność, edukacja, rozrywka i komunikacja. Technologia TTS znacznie ewoluowała na przestrzeni lat, od prostych syntetyzowanych głosów, które brzmią jak roboty i nienaturalnie, po zaawansowane systemy przetwarzania języka naturalnego (NLP), które mogą wytwarzać mowę przypominającą ludzką, z emocjami, akcentem i intonacją.

W tym artykule przyjrzymy się historii i rozwojowi technologii TTS, stojącym przed nią wyzwaniom i możliwościom oraz przyszłym kierunkom, jakie może ona obrać.

Kamienie milowe w historii technologii zamiany tekstu na mowę

Poniżej znajduje się krótkie podsumowanie rozwoju synteza mowy technologii i kamieni milowych w historii zamiany tekstu na mowę.

RokWydarzenie
1700Niemiecko-duński naukowiec Christian Kratzenstein tworzy rezonatory akustyczne imitujące ludzki głos.
1952AUDREY, pierwszy system rozpoznawania mowy, który rozpoznaje wypowiadane liczby, został opracowany przez Bell Laboratories.
1962Shoebox, system rozpoznający liczby i proste terminy matematyczne, został opracowany przez IBM.
1968Noriko Umeda wymyśla syntezator mowy dla języka angielskiego w Laboratorium Elektrotechnicznym w Japonii.
Lata 70Opracowanie pierwszego syntezatora artykulacyjnego opartego na ludzkim traktie głosowym.
1976HARPY, system rozpoznający zdania ze słownictwa składającego się z 1011 słów przy użyciu ukrytych modeli Markowa, został opracowany przez Carnegie Mellon University.
Lata 80Synteza mowy wkracza do świata gier wideo wraz z wydaniem Stratovox. Steve Jobs tworzy NeXT, który później łączy się z Apple.
1984Firma Kurzweil Applied Intelligence wypuściła pierwsze dostępne na rynku oprogramowanie do rozpoznawania mowy dla komputerów osobistych.
Lata 90Udoskonalenia mowy syntetycznej prowadzą do uzyskania bardziej miękkich spółgłosek i bardziej naturalnie brzmiących głosów. Firma Microsoft wypuszcza Narratora, rozwiązanie czytnika ekranu zawarte w systemie Windows.
1990Firma Dragon Systems wypuściła Dragon Dictate, pierwsze oprogramowanie do ciągłego rozpoznawania mowy, które umożliwiało użytkownikom mówienie naturalnie, bez przerw między słowami.
1996Firma Bell Labs wprowadziła AT&T Natural Voices, system syntezy mowy wykorzystujący sieci neuronowe do generowania naturalnie brzmiącej mowy.
Lata 2000Programiści stoją przed wyzwaniami związanymi z tworzeniem uzgodnionych standardów mowy syntetycznej.
2001Firma Microsoft wprowadziła interfejs programowania aplikacji mowy (SAPI) 5.0, standardowy interfejs do tworzenia aplikacji obsługujących mowę na platformach Windows.
2006Firma Google uruchomiła Google Voice Search, usługę umożliwiającą użytkownikom przeszukiwanie Internetu za pomocą poleceń głosowych w telefonach komórkowych.
2011Firma Apple wprowadziła Siri, osobistego asystenta aktywowanego głosem, który wykorzystuje przetwarzanie języka naturalnego i uczenie maszynowe do odpowiadania na pytania i wykonywania zadań.
2014Amazon uruchomił Alexa, opartą na chmurze usługę głosową, która zasila inteligentne głośniki i inne urządzenia z możliwością interakcji głosowej.
2016WaveNet, oparty na głębokiej sieci neuronowej model syntezy mowy, który generuje nieprzetworzone przebiegi audio, został opracowany przez firmę DeepMind.
2018Baidu przedstawił Deep Voice 3, oparty na sieci neuronowej model zamiany tekstu na mowę, który może sklonować ludzki głos za pomocą zaledwie kilku minut danych audio.
2020OpenAI wprowadziło Jukebox, oparty na sieci neuronowej model generowania muzyki, który może tworzyć utwory z tekstami i wokalami w różnych gatunkach i stylach.
PrzyszłySkoncentruj się na stworzeniu modelu mózgu, aby lepiej zrozumieć dane mowy. Nacisk na zrozumienie roli emocji w mowie i tworzenie głosów AI nie do odróżnienia od ludzkich.

Teraz wejdźmy głębiej w historię technologii zamiany tekstu na mowę.

Historyczny rozwój TTS

Wczesne początki technologii TTS i jej pierwsze zastosowania

Początki technologii TTS sięgają XVIII wieku, kiedy niektórzy naukowcy zbudowali modele ludzkiego układu głosowego zdolnego do wytwarzania dźwięków samogłoskowych. Pierwszy elektroniczny syntezator mowy został wynaleziony przez Homera Dudleya w 1939 roku i wykorzystywał klawiaturę i pedał nożny do kontrolowania wysokości i czasu trwania dźwięków mowy.

Początkowe zastosowania technologii TTS dotyczyły głównie celów związanych z dostępnością, takich jak pomaganie osobom niedowidzącym z wadami wzroku lub trudnościami w czytaniu w dostępie do tekstu pisanego. Później technologię TTS wykorzystywano także do celów rozrywkowych, edukacyjnych i komunikacyjnych, np. do tworzenia robotów głosowych, audiobooki i asystenci głosowi.

Ograniczenia wczesnych systemów TTS.

Niektóre z ograniczeń wczesnych systemów TTS to:

  1. Robotyczne głosy: Wczesne systemy TTS wykorzystywały technologie oparte na regułach, takie jak synteza formantów i synteza artykulacyjna, które osiągnęły podobny wynik dzięki nieco innym strategiom. Pionierscy badacze nagrali mówcę i wyodrębnili z niego cechy akustyczne — formanty, definiujące cechy dźwięków mowy w syntezie formantów; oraz parametry artykulacyjne, takie jak położenie języka i kształt warg, w syntezie artykulacyjnej. Cechy te wykorzystano następnie do zsyntetyzowania dźwięków mowy od podstaw przy użyciu modeli matematycznych traktu głosowego i innych elementów wytwarzania mowy. Jednakże metody te często generowały nienaturalnie brzmiącą mowę, której brakowało prozodii, intonacji i zmienności ludzkiej mowy.
  2. Brak naturalności: Kolejnym ograniczeniem wczesnych systemów TTS była trudność w tworzeniu naturalnie brzmiącej mowy, która pasowałaby do kontekstu, emocji i intencji mówiącego. Wczesne systemy TTS opierały się na ustalonych regułach i algorytmach generowania mowy, które nie uwzględniały niuansów i odmian ludzkiego języka i komunikacji. Na przykład wczesne systemy TTS nie mogły dostosować swojego tonu, wysokości lub szybkości w zależności od nastroju lub nastawienia mówiącego lub słuchacza. Nie radzili sobie także ze skomplikowanymi zjawiskami językowymi, takimi jak sarkazm, ironia, humor czy idiomy.
  3. Błędy w wymowie: Trzecim ograniczeniem wczesnych systemów TTS była niemożność prawidłowego wymawiania słów w różnych językach, akcentach lub dialektach. Wczesne systemy TTS wykorzystywały konwersję tekstu na fonem w celu mapowania pisanych słów na odpowiadające im dźwięki mowy. Jednak proces ten był często niedokładny lub niekompletny, zwłaszcza w przypadku słów, które miały wielokrotną wymowę lub nieregularną pisownię. Co więcej, wczesne systemy TTS nie miały dostępu do dużych i różnorodnych baz danych próbek mowy, które mogłyby obejmować wszystkie odmiany i niuanse ludzkiej mowy w różnych regionach i kulturach. W rezultacie wczesne systemy TTS często błędnie wymawiały słowa lub wyrażenia, które były dla nich nieznane lub rzadkie

Zasady wczesnych modeli TTS

Zasady leżące u podstaw wczesnych modeli TTS, takich jak synteza formantów i synteza konkatenatywna, są następujące:

  1. Synteza formantów: Metoda ta wykorzystuje modele matematyczne traktu głosowego i innych elementów wytwarzania mowy do syntezy dźwięków mowy od podstaw1. Polega na wyodrębnieniu z nagranej mowy cech akustycznych, takich jak formanty, i wykorzystaniu ich do kontrolowania parametrów modeli2. Synteza formantów może wygenerować mowa w dowolnym języku i z dowolnym akcentem, ale często brzmi ona automatycznie i nienaturalnie3
  2. Synteza konkatenatywna: Ta metoda wykorzystuje nagrane wcześniej jednostki mowy, takie jak głoski, dyfony lub sylaby, i łączy je w celu wytworzenia mowy1. Polega na znalezieniu najlepiej pasujących jednostek dla danego tekstu i wygładzeniu przejść między nimi2. Synteza konkatenacyjna może zapewnić naturalnie brzmiącą mowę , ale wymaga dużej i zróżnicowanej bazy danych próbek mowy i nie radzi sobie z wyrazami spoza słownika ani nowatorskimi akcentami

Postęp w technologii TTS

Głosy syntetyczne i prozodia

Rozwój głosów syntetycznych i ich wpływ na TTS.

Rozwój głosów syntetycznych i ich wpływ na TTS to:

  1. Głosy syntetyczne: Głosy syntetyczne to sztuczne głosy tworzone przez aplikacje do syntezy mowy, takie jak systemy zamiany tekstu na mowę (TTS), które przekształcają tekst lub inne reprezentacje symboliczne na mowę. Syntezę głosu można wykorzystać do różnych celów, takich jak dostępność, edukacja, rozrywka i komunikacja.
  2. Rozwój: Rozwój głosów syntetycznych przeszedł kilka etapów, od metod opartych na regułach, takich jak synteza formantów i synteza konkatenatywna, po metody oparte na danych, takie jak statystyczna synteza parametryczna i synteza oparta na sieciach neuronowych. Metody oparte na regułach wykorzystują modele matematyczne i wcześniej nagrane jednostki mowy do generowania dźwięków mowy od podstaw lub poprzez konkatenację. Metody oparte na danych wykorzystują algorytmy uczenia maszynowego i wielkoskalowe korpusy mowy do uczenia się mapowania między tekstem i funkcjami mowy oraz generowania mowy poprzez próbkowanie lub optymalizację.
  3. Uderzenie: Wpływ głosów syntetycznych na TTS polega na tym, że z biegiem czasu poprawiły one jakość, naturalność i różnorodność mowy syntetycznej. Głosy syntetyczne mogą teraz wytwarzać mowę, która w niektórych przypadkach jest nie do odróżnienia od mowy ludzkiej, a także może dostosować się do różnych języków, akcentów, stylów i emocji. Głosy syntetyczne mogą także umożliwić nowe zastosowania i scenariusze TTS, takie jak klonowanie głosu, konwersja głosu, podszywanie się pod głos i znak wodny głosu. Jednak głosy syntetyczne stwarzają również pewne wyzwania i ryzyko dla TTS, takie jak kwestie etyczne, implikacje społeczne i potencjalne niewłaściwe wykorzystanie fałszywych treści i treści wprowadzających w błąd

Znaczenie prozodii w tworzeniu naturalnie brzmiącej mowy.

Znaczenie prozodii (intonacji, rytmu i akcentu) w tworzeniu naturalnie brzmiącej mowy jest następujące:

  1. Prosodia to wzór zmienności wysokości, głośności i czasu trwania dźwięków mowy, który przekazuje informacje o strukturze, znaczeniu i emocjach wypowiedzi. Prozodia jest istotnym aspektem ludzkiej mowy, który wpływa na to, jak postrzegamy i rozumiemy język mówiony.
  2. Modelowanie prozodyczne to proces dodawania odpowiedniej intonacji, akcentu i rytmu do głosu, w zależności od kontekstu i znaczenia tekstu3 Modelowanie prozodii ma kluczowe znaczenie w tworzeniu naturalnie brzmiącego TTS, który przekazuje właściwe uczucia i emocje w mowie3 Technologia ta obejmuje analizowanie cech językowych i akustycznych tekstu oraz stosowanie odpowiednich reguł i wzorców prozodycznych2
  3. Wpływ prozodii jest wpływem prozodii na jakość, naturalność i wyrazistość mowy syntetycznej. Oddziaływanie prozodyczne może poprawić zrozumiałość, klarowność i płynność mowy, a także zaangażowanie, uwagę i satysfakcję słuchacza2. Oddziaływanie prozodyczne może również poprawić przekazywanie emocji, postaw, intencji i osobowości w mowie, czyniąc ją bardziej ludzką. i realistyczne

Techniki stosowane w celu doskonalenia prozodii w systemach TTS

Niektóre z technik stosowanych w celu poprawy prozodii w systemach TTS to:

  1. Przewidywanie prozodii: Technika ta polega na przewidywaniu cech prozodycznych, takich jak wysokość, czas trwania i energia, na podstawie tekstu wejściowego lub innych cech językowych1 Przewidywania prozodycznego można dokonać przy użyciu metod opartych na regułach, takich jak adnotacja ToBI i model Fujisaki, lub metod opartych na danych , takie jak drzewa decyzyjne, ukryte modele Markowa i sieci neuronowe. Przewidywanie prozodii może poprawić zrozumiałość i naturalność mowy syntetycznej poprzez dodanie odpowiedniego akcentu, intonacji i rytmu.
  2. Modelowanie prozodyczne: Technika ta polega na modelowaniu struktury prozodycznej i wzorców mowy naturalnej i zastosowaniu ich do głosu. Modelowanie prozodyczne można przeprowadzić przy użyciu metod opartych na regułach, takich jak model superpozycyjny i model aproksymacji celu, lub metod opartych na danych, takich jak statystyczna synteza parametryczna i synteza oparta na sieciach neuronowych. Modelowanie prozodii może poprawić jakość i ekspresję mowy syntetycznej poprzez uchwycenie językowych i akustycznych odmian prozodii.
  3. Kontrola prozodii: Technika ta polega na modyfikowaniu lub włączaniu pożądanej prozodii na wyższym poziomie poprzez kontrolowanie częstotliwości podstawowej i czasu trwania rozmowy. Kontrolę prozodii można przeprowadzić za pomocą metod opartych na regułach, takich jak skalowanie wysokości tonu i skalowanie czasu trwania, lub metod opartych na danych, takich jak tokeny stylu i globalne tokeny stylu3 Kontrola prozodii może poprawić różnorodność i możliwości adaptacji syntezowanej mowy poprzez umożliwienie stosowania różnych języków i akcentów , style i emocje.

Modele oparte na sieciach neuronowych

Pojawienie się modeli sieci neuronowych w technologii TTS.

Pojawienie się modeli opartych na sieciach neuronowych w technologii TTS polega na:

  1. Modele oparte na sieciach neuronowych: Modele oparte na sieciach neuronowych to modele uczenia maszynowego, które wykorzystują sztuczne sieci neuronowe do uczenia się mapowania między elementami tekstu i mowy oraz generowania mowy poprzez próbkowanie lub optymalizację. Modele oparte na sieciach neuronowych mogą przezwyciężyć niektóre ograniczenia metod opartych na regułach i danych, takie jak nienaturalność, brak różnorodności i błędy w wymowie.
  2. Powstanie: Pojawienie się modeli opartych na sieciach neuronowych w technologii TTS można przypisać rozwojowi głębokiego uczenia się i sztucznej inteligencji, a także dostępności wielkoskalowych korpusów mowy i zasobów obliczeniowych. Pierwszy model TTS oparty na sieci neuronowej został zaproponowany przez Zen i in. w 2009 r., w ramach którego wykorzystano głęboką sieć neuronową (DNN) do przewidywania cech akustycznych na podstawie cech językowych. Od tego czasu w TTS zastosowano różne architektury i techniki sieci neuronowych, takie jak rekurencyjne sieci neuronowe (RNN), splotowe sieci neuronowe (CNN), mechanizmy uwagi, generatywne sieci kontradyktoryjne (GAN), autoenkodery wariacyjne (VAE) i transformatory.
  3. Uderzenie: Wpływ modeli opartych na sieciach neuronowych na technologię TTS polega na tym, że osiągnęły one najnowocześniejszą wydajność pod względem jakości, naturalności i różnorodności syntezowanej mowy. Modele oparte na sieciach neuronowych mogą w niektórych przypadkach wytwarzać mowę nie do odróżnienia od mowy ludzkiej, a także mogą dostosowywać się do różnych języków, akcentów, stylów i emocji. Modele oparte na sieciach neuronowych mogą również umożliwić nowe zastosowania i scenariusze dla TTS, takie jak klonowanie głosu, konwersja głosu, podszywanie się pod głos i znak wodny głosu. Jednak modele oparte na sieciach neuronowych stwarzają również pewne wyzwania i ryzyko dla TTS, takie jak wydajność danych, możliwość interpretacji, solidność i potencjalne niewłaściwe wykorzystanie deepfakes i treści wprowadzających w błąd.

Zalety sieci neuronowych w porównaniu z tradycyjnymi podejściami opartymi na regułach.

Oto niektóre zalety sieci neuronowych w porównaniu z podejściami opartymi na regułach:

  1. Uczenie się oparte na danych: Sieci neuronowe mogą uczyć się mapowania między tekstem a cechami mowy z korpusów mowy na dużą skalę, bez polegania na ręcznie opracowanych regułach lub wcześniej nagranych jednostkach mowy. Dzięki temu są bardziej elastyczne i można je dostosować do różnych języków, akcentów, stylów i emocji.
  2. Generacja od końca do końca: Sieci neuronowe mogą generować mowę bezpośrednio z tekstu, bez etapów pośrednich, takich jak analiza tekstu, modelowanie akustyczne i wokodowanie. Zmniejsza to złożoność i propagację błędów potoku syntezy.
  3. Naturalność i różnorodność: Sieci neuronowe mogą wytwarzać mowę, która jest bardziej naturalna i zróżnicowana niż podejścia oparte na regułach, poprzez wychwytywanie językowych i akustycznych różnic w prozodii i jakości głosu. Sieci neuronowe mogą również umożliwić nowe zastosowania i scenariusze dla TTS, takie jak klonowanie głosu, konwersja głosu, podszywanie się pod głos i znak wodny głosu

Elementy neuronowych modeli TTS

Składniki neuronowych modeli TTS to:

  1. Przetwarzanie tekstu: Ten komponent polega na analizie tekstu wejściowego i przekształceniu go w sekwencję cech językowych, takich jak fonemy, sylaby, słowa lub znaki. Przetwarzanie tekstu może również obejmować dodawanie znaków interpunkcyjnych, wielkich liter, normalizację i inne etapy wstępnego przetwarzania tekstu. Przetwarzanie tekstu można przeprowadzić przy użyciu metod opartych na regułach, takich jak gramatyki i leksykony analizy tekstu, lub metod opartych na danych, takich jak sieci neuronowe i transformatory.
  2. Modelowanie akustyczne: Ten komponent polega na przewidywaniu cech akustycznych, takich jak wysokość, czas trwania i energia, na podstawie cech językowych. Modelowanie akustyczne może również obejmować modelowanie struktury prozodycznej i wzorców mowy naturalnej oraz zastosowanie ich do głosu. Modelowanie akustyczne można przeprowadzić przy użyciu metod opartych na regułach, takich jak model superpozycyjny i model przybliżenia celu, lub metod opartych na danych, takich jak sieci neuronowe i transformatory.
  3. Vokodowanie: Ten komponent polega na przetwarzaniu cech akustycznych na ciągły sygnał audio. Vokodowanie może również obejmować modyfikowanie lub wprowadzanie żądanej jakości głosu i barwy na wyższym poziomie poprzez kontrolowanie częstotliwości podstawowej i czasu trwania telefonu. Vokodowanie można przeprowadzić przy użyciu metod opartych na regułach, takich jak model filtra źródła i łączenie przebiegów, lub metod opartych na danych, takich jak sieci neuronowe i transformatory

WaveNet i SampleRNN

Eksploracja rewolucyjnego modelu WaveNet i jego wkładu w TTS.

Model WaveNet i jego wkład w TTS to:

  1. Model WaveNetu: WaveNet to generatywny model surowych przebiegów audio, który wykorzystuje głęboką splotową sieć neuronową z rozszerzonymi splotami przyczynowymi. WaveNet bezpośrednio modeluje rozkład prawdopodobieństwa każdej próbki audio na podstawie wszystkich poprzednich próbek, używając warstwy wyjściowej Softmax. WaveNet może generować mowę poprzez próbkowanie z tej dystrybucji lub warunkowanie dodatkowych danych wejściowych, takich jak tekst lub tożsamość mówiącego.
  2. Wkład w TTS: WaveNet znacznie poprawił jakość, naturalność i różnorodność syntezowanej mowy w porównaniu z poprzednimi metodami. WaveNet może wytwarzać mowę, która brzmi bardziej ludzką i realistyczną, a także może dostosować się do różnych języków, akcentów, stylów i emocji. WaveNet zainspirował wiele późniejszych modeli TTS opartych na sieciach neuronowych, takich jak Tacotron, Deep Voice i Transformer TTS3. WaveNet umożliwił także nowe zastosowania i scenariusze dla TTS, takie jak klonowanie głosu, konwersja głosu, podszywanie się pod głos i znak wodny głosu

Zdolność WaveNet do generowania wysokiej jakości mowy przypominającej ludzką poprzez głębokie modelowanie generatywne.

Zdolność WaveNet do generowania wysokiej jakości mowy przypominającej ludzką poprzez głębokie modelowanie generatywne to:

  1. Głębokie modelowanie generatywne: WaveNet to głęboko generatywny model surowych przebiegów audio, który wykorzystuje głęboką splotową sieć neuronową z rozszerzonymi splotami przyczynowymi. WaveNet bezpośrednio modeluje rozkład prawdopodobieństwa każdej próbki audio na podstawie wszystkich poprzednich próbek, używając warstwy wyjściowej Softmax. WaveNet może generować mowę poprzez próbkowanie z tej dystrybucji lub warunkowanie dodatkowych danych wejściowych, takich jak tekst lub tożsamość mówiącego.
  2. Wysokiej jakości mowa: WaveNet może tworzyć mowę, która brzmi bardziej naturalnie i realistycznie niż poprzednie metody, wychwytując językowe i akustyczne różnice w prozodii i jakości głosu. WaveNet może także dostosować się do różnych języków, akcentów, stylów i emocji. WaveNet znacznie poprawił jakość syntezowanej mowy w porównaniu z poprzednimi metodami, zmniejszając różnicę w wydajności człowieka o ponad 50%.
  3. Mowa podobna do ludzkiej: WaveNet może generować mowę naśladującą dowolny ludzki głos, bezpośrednio modelując głos na podstawie nagrań ludzkiego głosu nad aktorami. Zamiast syntetyzować dźwięki, naśladuje prawdziwą osobę. WaveNet może także udostępnić nowe aplikacje i scenariusze dla TTS, takie jak klonowanie głosu, konwersja głosu, podszywanie się pod głos i znak wodny głosu

Wprowadzenie SampleRNN jako alternatywnego podejścia do generowania mowy o zwiększonej wydajności.

Wprowadzenie SampleRNN jako alternatywnego podejścia do generowania mowy o zwiększonej wydajności polega na:

  1. PróbkaRNN: SampleRNN to autoregresyjny model generatywny surowych przebiegów audio, który wykorzystuje hierarchiczną strukturę głębokich nawracające sieci neuronowe (RNN) do modelowania zależności w przykładowej sekwencji. SampleRNN może generować mowę poprzez próbkowanie z rozkładu warunkowego każdej próbki audio, biorąc pod uwagę wszystkie poprzednie próbki i dodatkowe dane wejściowe, takie jak tekst lub tożsamość mówiącego.
  2. Alternatywne podejście: SampleRNN to alternatywne podejście do WaveNet, które do generowania mowy wykorzystuje głęboką splotową sieć neuronową z rozszerzonymi splotami przyczynowymi. SampleRNN ma różne moduły działające z różnymi częstotliwościami zegara, co pozwala na większą elastyczność w alokacji zasobów obliczeniowych i modelowaniu różnych poziomów abstrakcji.
  3. Poprawiona wydajność: SampleRNN może generować mowę z lepszą wydajnością w porównaniu do WaveNet, ponieważ ma mniejszą złożoność obliczeniową i wymagania dotyczące pamięci. SampleRNN może również wykorzystywać techniki równoległości i optymalizacji, takie jak wymuszanie przez nauczyciela i zaplanowane próbkowanie, aby przyspieszyć szkolenie i wnioskowanie.

 Transfer nauki i wielojęzyczny TTS

Postępy w technikach transferu uczenia się dla TTS

Postępy w technikach uczenia się transferowego dla TTS są następujące:

Nauczanie transferowe: Uczenie się transferowe to technika uczenia maszynowego, która wykorzystuje wiedzę z wcześniej wyszkolonego modelu do nowego zadania lub domeny1 Uczenie się transferowe może zmniejszyć zapotrzebowanie na dane i czas szkolenia w zakresie dostosowywania modeli TTS do nowego głosu przy użyciu zaledwie kilku minut mowy dane.

Postępy: Niektóre z postępów w technikach uczenia się transferu dla TTS to:

  1. Dostrajanie modeli TTS z jednym głośnikiem: Ta technika polega na dostrojeniu wysokiej jakości modeli TTS z jednym głośnikiem do nowego głośnika przy użyciu zaledwie kilku minut danych mowy. Technika ta może zapewnić wydajność porównywalną z modelem wytrenowanym od podstaw na podstawie ponad 27 godzin danych, zarówno dla docelowych mówców, jak i kobiet.
  2. Adaptacja wielogłośnikowych modeli TTS: Ta technika polega na dostosowaniu wstępnie wytrenowanych modeli TTS z wieloma głośnikami do nowego głosu przy użyciu kilkuminutowych danych mowy nowego mówcy. Technika ta może albo uzależnić wstępnie wytrenowany model bezpośrednio od osadzania wyprowadzonego głośnika nowego głośnika, albo dostroić model na podstawie danych nowego głośnika.
  3. Odkrywanie emocjonalnego TTS o niskich zasobach: Technika ta polega na badaniu metod uczenia się transferowego w przypadku TTS emocjonalnego o niskich zasobach, przy użyciu niewielkiej ilości danych związanych z mową emocjonalną. Technika ta może poprawić naturalność i ekspresję mowy syntetycznej poprzez uchwycenie emocji i stylu docelowego mówcy.

Wyjaśnienie, w jaki sposób uczenie się transferowe umożliwia szkolenie modeli TTS w wielu językach przy ograniczonych danych.

W jaki sposób uczenie się transferowe umożliwia szkolenie modeli TTS w wielu językach przy ograniczonych danych:

  1. Wiele języków: Uczenie się transferowe może umożliwić szkolenie modeli TTS w wielu językach przy ograniczonych danych przy użyciu międzyjęzycznych lub wielojęzycznych metod uczenia się transferowego. Międzyjęzykowe uczenie się transferowe polega na dostrojeniu wstępnie wytrenowanego modelu TTS z języka o dużych zasobach do języka o niskich zasobach przy użyciu niewielkiej ilości danych języka docelowego. Wielojęzyczne uczenie się transferowe polega na dostosowaniu wstępnie wyszkolonego modelu TTS z wieloma głośnikami do nowego języka przy użyciu wspólnego wielojęzycznego zbioru danych języków o niewielkich zasobach.
  2. Ograniczone dane: Uczenie się transferowe może przezwyciężyć problem niedoboru danych w przypadku języków o niskich zasobach poprzez wykorzystanie powiększania danych i technik uczenia się z transferem częściowym opartym na sieci. Powiększanie danych polega na generowaniu syntetycznych danych mowy z oryginalnych danych poprzez zastosowanie różnych transformacji, takich jak zmiana wysokości tonu, zakłócenia prędkości i dodawanie szumu. Częściowe uczenie się poprzez transfer sieciowy polega na przeniesieniu tylko niektórych warstw lub modułów wstępnie wytrenowanego modelu do nowego modelu, przy jednoczesnym zablokowaniu lub odrzuceniu reszty.

Korzyści i wyzwania związane z rozwojem wielojęzycznych systemów TTS

Oto niektóre korzyści i wyzwania związane z rozwojem wielojęzycznych systemów TTS:

  1. Korzyści: Wielojęzyczne systemy TTS mogą zapewnić syntezę mowy dla wielu języków przy użyciu jednego modelu, co może zmniejszyć wymagania dotyczące danych i czas szkolenia w przypadku języków o niskich zasobach. Wielojęzyczne systemy TTS mogą również poprawić jakość, naturalność i różnorodność mowy syntetycznej poprzez wychwytywanie odmian językowych i akustycznych różnych języków. Wielojęzyczne systemy TTS mogą także umożliwić nowe zastosowania i scenariusze TTS, takie jak synteza międzyjęzykowa, klonowanie głosu, konwersja głosu, podszywanie się pod głos i znak wodny głosu.
  2. Wyzwania: Wielojęzyczne systemy zamiany tekstu na mowę stoją przed kilkoma wyzwaniami, takimi jak znalezienie odpowiedniej reprezentacji dla wielu języków, np. międzynarodowego alfabetu fonetycznego (IPA) lub grafemów. Wielojęzyczne systemy TTS muszą także uwzględniać kompromis między modelowaniem specyficznym dla języka i niezależnym od języka, a także równowagę między ilością i jakością danych dla różnych języków. Wielojęzyczne systemy TTS muszą także uwzględniać kwestie tożsamości mówiącego, stylu mówienia i emocji w różnych językach.

Wyzwania i przyszłe kierunki

Względy etyczne

Niektóre z kwestii etycznych związanych z TTS to:

  1. Klonowanie głosu: Klonowanie głosu to proces tworzenia syntetycznego głosu naśladującego konkretny głos ludzki przy użyciu niewielkiej ilości danych mowy od docelowego głośnika. Klonowanie głosu może mieć pozytywne zastosowania, takie jak przywracanie głosu osobom, które utraciły zdolność mówienia z powodu choroby lub urazu, lub zachowanie głosu postaci historycznych lub celebrytów. Klonowanie głosu może jednak mieć również negatywne konsekwencje, takie jak naruszenie prywatności i zgody docelowego mówcy lub tworzenie fałszywych lub wprowadzających w błąd treści, które mogą zaszkodzić reputacji lub wiarygodności docelowego mówcy.
  2. Deepfakes: Deepfakes to syntetyczne media, które łączą i nakładają istniejące obrazy i filmy na obrazy lub filmy źródłowe przy użyciu technik głębokiego uczenia się. Deepfakes może tworzyć realistyczne i przekonujące filmy lub klipy audio, które pokazują, że ludzie mówią lub robią rzeczy, których nigdy nie powiedzieli ani nie zrobili. Deepfakes mogą mieć złośliwe zastosowania, takie jak rozpowszechnianie dezinformacji, propagandy lub zniesławienia bądź manipulowanie opinią publiczną, zachowaniem lub emocjami.
  3. Uprzedzenia i dyskryminacja: Uprzedzenia i dyskryminacja to niesprawiedliwe lub krzywdzące traktowanie osób lub grup ze względu na takie cechy, jak rasa, płeć, wiek lub religia. Uprzedzenia i dyskryminacja mogą na różne sposoby wpływać na systemy zamiany tekstu na mowę, na przykład na wybór języków, akcentów, stylów i emocji na potrzeby syntezy mowy lub reprezentowanie i uwzględnianie różnych głosów i tożsamości w danych i modelach mowy. Uprzedzenia i dyskryminacja mogą mieć szkodliwe konsekwencje, takie jak wzmacnianie stereotypów, marginalizacja mniejszości lub wykluczanie niektórych grup z dostępu do informacji lub usług.

To prowadzi nas do znaczenia odpowiedzialnego korzystania z technologii TTS i potencjalnych przepisów:

  1. Odpowiedzialne użytkowanie: Odpowiedzialne korzystanie z technologii TTS to etyczne i zgodne z prawem korzystanie z technologii TTS, które szanuje prawa, prywatność i zgodę osób zajmujących się głosami i użytkowników głosu, a także zapobiega lub minimalizuje szkody lub niewłaściwe użycie głosów syntetycznych. Odpowiedzialne korzystanie z technologii TTS wymaga zaangażowania i współpracy interesariuszy w całym łańcuchu wartości technologii, od projektowania i rozwoju po sprzedaż i końcowe wykorzystanie produktów i usług TTS. Odpowiedzialne korzystanie z technologii TTS wymaga również przyjęcia najlepszych praktyk i wytycznych w zakresie etycznego podejmowania decyzji, oceny ryzyka oraz przejrzystości i odpowiedzialności.
  2. Potencjalne regulacje: Potencjalne regulacje dotyczące technologii TTS to przepisy i zasady regulujące rozwój, wdrażanie i wykorzystanie technologii TTS oraz chroniące interesy i prawa osób posiadających talenty głosowe oraz użytkowników głosu. Potencjalne regulacje dotyczące technologii TTS mogą obejmować:
  • Przepisy dotyczące ochrony danych i prywatności: Przepisy te regulują gromadzenie, przetwarzanie, przechowywanie i udostępnianie danych osobowych, takich jak nagrania głosu lub modele głosu, i wymagają zgody osób, których dane dotyczą, oraz przestrzegania przepisów przez administratorów i podmioty przetwarzające dane.
  • Prawa własności intelektualnej i prawa autorskie: Przepisy te chronią własność i prawa lektorów do ich nagrań głosowych lub modeli głosu oraz zapobiegają nieuprawnionemu użyciu lub reprodukcji ich głosu przez inne osoby.
  • Przepisy dotyczące zwalczania oszustw i zniesławienia: te przepisy zabraniają tworzenia lub rozpowszechniania fałszywych lub wprowadzających w błąd treści przy użyciu głosów syntetycznych, takich jak deepfakes lub phishing głosowy, które mogą zaszkodzić reputacji lub wiarygodności talentów głosowych lub użytkowników głosu.

TTS w czasie rzeczywistym i małe opóźnienia

Niektóre z wyzwań związanych z osiągnięciem TTS w czasie rzeczywistym i niskimi opóźnieniami to:

  1. Złożoność obliczeniowa: Modele TTS, zwłaszcza modele oparte na sieciach neuronowych, mają dużą złożoność obliczeniową i wymagania dotyczące pamięci, ponieważ muszą przetwarzać duże ilości danych tekstowych i mowy oraz generować próbki audio o wysokiej jakości. Może to ograniczyć szybkość i wydajność modeli TTS, szczególnie w przypadku długich treści lub zastosowań na dużą skalę.
  2. Przeciążenie sieci: Modele TTS, zwłaszcza modele oparte na chmurze, wykorzystują łączność sieciową i przepustowość, aby dostarczać użytkownikom mowę. Jednak przeciążenie sieci może powodować opóźnienia, utratę pakietów lub wahania w transmisji danych mowy, co może obniżyć jakość i naturalność syntezowanej mowy.
  3. Doświadczenie użytkownika: Modele TTS, zwłaszcza do zastosowań komunikacyjnych w czasie rzeczywistym, muszą zapewniać bezproblemową i interaktywną obsługę użytkownika, która odpowiada oczekiwaniom i preferencjom użytkowników. Jednak na wrażenia użytkownika mogą wpływać różne czynniki, takie jak opóźnienie, niezawodność i różnorodność syntezowanej mowy, a także jakość, styl i emocje głosów syntetycznych.

To prowadzi nas do znaczenia skracania czasu wnioskowania w zastosowaniach TTS:

  1. Wydajność w czasie rzeczywistym: Skrócenie czasu wnioskowania w aplikacjach TTS może umożliwić syntezę mowy w czasie rzeczywistym, co jest wymogiem w przypadku wielu praktycznych aplikacji, takich jak asystenci cyfrowi, telefony komórkowe, urządzenia wbudowane itp. Systemy syntezy mowy w czasie rzeczywistym mogą zapewnić płynną i interaktywną obsługę użytkownika która odpowiada oczekiwaniom i preferencjom użytkowników.
  2. Efektywność zasobów: Skrócenie czasu wnioskowania dla aplikacji TTS może również poprawić efektywność wykorzystania zasobów modeli TTS, zwłaszcza modeli opartych na sieciach neuronowych, które mają wysoką złożoność obliczeniową i wymagania dotyczące pamięci. Efektywne gospodarowanie zasobami może zmniejszyć koszty i zużycie energii modeli TTS oraz sprawić, że będą one bardziej dostępne i skalowalne dla różnych urządzeń i platform.
  3. Polepszanie jakości: Skrócenie czasu wnioskowania w zastosowaniach TTS może również poprawić jakość, naturalność i różnorodność syntezowanej mowy poprzez minimalizację opóźnień, utraty pakietów lub drgań spowodowanych przeciążeniem sieci lub innymi czynnikami. Poprawa jakości może zwiększyć satysfakcję i zaufanie użytkowników oraz talentów głosowych, a także zapobiec szkodom lub niewłaściwemu wykorzystaniu głosów syntetycznych lub je złagodzić.

Emocje i ekspresja

Oto niektóre z trwających badań nad dodawaniem emocji i ekspresji do głosów TTS:

  1. Wejście dotyczące intensywności emocji: Badanie to polega na wykorzystaniu sygnału wejściowego intensywności emocji pochodzącego z ekstrakcji bez nadzoru w celu poprawy emocjonalnego TTS. Dane wejściowe dotyczące intensywności emocji pochodzą z mapy uwagi lub istotności modułu rozpoznającego emocje, który wskazuje obszary mowy, które są bardziej emocjonalne. Dane wejściowe dotyczące intensywności emocji można wykorzystać do kontrolowania stopnia ekspresji emocji w mowie syntetycznej.
  2. Osadzanie emocji i stylu: Badania te obejmują wykorzystanie metod bez nadzoru w celu wydobycia osadzonych emocji i stylu z referencyjnego dźwięku na poziomie globalnym, klastrowym lub klatki. Osadzanie emocji i stylu może uchwycić różnice w prozodii i jakości głosu w różnych emocjach i stylach. Osadzanie emocji i stylu można wykorzystać do uwarunkowania modelu TTS w celu wygenerowania mowy o pożądanych emocjach i stylu.
  3. Konwersja emocji: Badania te obejmują wykorzystanie technik takich jak konwersja głosu lub emocji w celu wygenerowania mowy emocjonalnej z mowy neutralnej. Konwersja emocji może modyfikować prozodyczne i widmowe cechy mowy, aby zmienić postrzegane emocje mówiącego. Konwersji emocji można używać do zwiększania danych emocjonalnych na potrzeby uczenia modeli TTS lub do syntezy mowy z różnymi emocjami na podstawie tego samego wprowadzonego tekstu.

Biorąc powyższe pod uwagę kolejnym ważnym czynnikiem jest znaczenie syntezy mowy emocjonalnej w różnych obszarach:

  1. Wirtualni asystenci: Synteza mowy emocjonalnej może zwiększyć naturalność i interaktywność wirtualnych asystentów, takich jak Siri, Alexa lub Cortana, umożliwiając im wyrażanie różnych emocji i stylów w zależności od kontekstu i opinii użytkownika. Synteza mowy emocjonalnej może również poprawić satysfakcję użytkowników i zaufanie do wirtualnych technologii wspomagających, czyniąc ich bardziej angażującymi i empatycznymi.
  2. Rozrywka: Synteza mowy emocjonalnej może wzbogacić przemysł rozrywkowy, taki jak gry wideo, filmy lub książki audio, tworząc realistyczne i różnorodne syntetyczne głosy dla postaci, narratorów i piosenkarzy. Synteza mowy emocjonalnej może również umożliwić nowe zastosowania i scenariusze rozrywki, takie jak klonowanie głosu, konwersja głosu, podszywanie się pod głos i znak wodny głosu.
  3. Dostępność: Synteza mowy emocjonalnej może poprawić dostępność i włączenie osób niepełnosprawnych lub ze specjalnymi potrzebami, takimi jak zaburzenia widzenia, dysleksja lub afazja, poprzez zapewnienie im wyrazistej i spersonalizowanej mowy syntetycznej do celów komunikacji lub informacji. Synteza mowy emocjonalnej może również wspierać dobrostan emocjonalny i zdrowie psychiczne osób niepełnosprawnych lub ze specjalnymi potrzebami, zapewniając im emocjonalną informację zwrotną lub towarzystwo.

Integracja z asystentami AI i urządzeniami IoT

Integracja technologii TTS z asystentami AI i urządzeniami IoT.

Niektóre z osiągnięć w integracji technologii TTS z asystentami AI i urządzeniami IoT to:

  1. Azure Neural TTS na urządzeniach: Azure Neural TTS to zaawansowana usługa syntezy mowy, która umożliwia użytkownikom przekształcanie tekstu w realistyczną mowę za pomocą sztucznej inteligencji. Usługa Azure Neural TTS ogłosiła niedawno dostępność naturalnych głosów na urządzeniach w przypadku scenariuszy rozłączonych i hybrydowych, takich jak czytniki ekranu, asystenci głosowi w samochodach lub urządzenia wbudowane. Usługa Azure Neural TTS na urządzeniach może zapewnić wysoką jakość, wysoką wydajność i wysoką szybkość reakcji w przypadku syntezy mowy na różnych urządzeniach i platformach.
  2. Interfejs API zamiany tekstu na mowę w chmurze Google: Google Cloud Text-to-Speech API to usługa oparta na chmurze, która umożliwia użytkownikom syntezę naturalnie brzmiącej mowy za pomocą przełomowych sieci neuronowych Google. Interfejs API Google Cloud Text-to-Speech obsługuje ponad 140 języków i wariantów oraz pozwala użytkownikom dostosować ton, tempo mówienia i profil głosowy mowy syntetycznej. Google Cloud Text-to-Speech API obsługuje także niestandardowe tworzenie i dostrajanie głosu w celu tworzenia unikalnych i spersonalizowanych głosów dla różnych marek i aplikacji.
    UberTTS jest zaawansowana zamiana tekstu na mowę program łączący możliwości w/w technologii Azure i Google AI w jedną wraz z pełnym wykorzystaniem Funkcje SSML.Ubertts_Logo_240X70
  3. Mowa na urządzeniu: Speech On-Device to rozwiązanie, które umożliwia użytkownikom lokalne uruchamianie sztucznej inteligencji mowy o jakości serwerowej na dowolnym urządzeniu, takim jak telefony, tablety, samochody, telewizory lub głośniki. Funkcja Speech On-Device zapewnia szybkie i niezawodne rozpoznawanie i syntezę mowy bez problemów z łącznością sieciową i opóźnieniami. Speech On-Device może również obsługiwać funkcje mowy wielojęzycznej i międzyjęzykowej dla różnych scenariuszy i preferencji użytkownika.

Ważne jest również omówienie korzyści płynących z włączenia TTS do systemów inteligentnego domu, opieki zdrowotnej, a rozwiązania w zakresie dostępności to:

  1. Systemy inteligentnego domu: TTS może zwiększyć funkcjonalność i interaktywność systemów inteligentnego domu, takich jak inteligentne głośniki, inteligentne wyświetlacze lub inteligentne urządzenia, umożliwiając im komunikację z użytkownikami za pomocą naturalnej i wyrazistej mowy. TTS może również poprawić komfort użytkowania i satysfakcję użytkowników systemów inteligentnego domu, czyniąc je bardziej angażującymi i spersonalizowanymi.
  2. Opieka zdrowotna: TTS może poprawić jakość i dostępność usług opieki zdrowotnej, takich jak telemedycyna, edukacja zdrowotna lub wsparcie w zakresie zdrowia psychicznego, zapewniając użytkownikom realistyczną i dostosowaną do indywidualnych potrzeb syntezę mowy. TTS może również obniżyć koszty i czas świadczenia opieki zdrowotnej, umożliwiając zdalną i efektywną komunikację między pacjentami a świadczeniodawcami.
  3. Rozwiązania w zakresie dostępności: TTS może wzmocnić pozycję osób niepełnosprawnych lub ze specjalnymi potrzebami, takimi jak upośledzenie wzroku, dysleksja lub afazja, zapewniając im mowę do celów komunikacji lub informacji. TTS może również wspierać dobrostan emocjonalny i integrację osób niepełnosprawnych lub ze specjalnymi potrzebami, zapewniając im emocjonalną informację zwrotną lub towarzystwo.

Często zadawane pytania (FAQ)

Pierwszy oprogramowanie do zamiany tekstu na mowę była firma Kurzweil Applied Intelligence, która w 1984 r. wypuściła pierwsze dostępne na rynku oprogramowanie do rozpoznawania mowy dla komputerów osobistych. Jednak pierwsze systemy syntezy mowy były komputerowe i opracowane pod koniec lat pięćdziesiątych przez Bell Laboratories i IBM. Pierwszy mechaniczny syntezator mowy został opracowany przez Charlesa Wheatstone’a na początku XIX wieku.

Nie ma jednoznacznej odpowiedzi na pytanie, kto zapoczątkował TTS, ponieważ na przestrzeni lat różni badacze i firmy przyczyniły się do rozwoju systemów syntezy i rozpoznawania mowy. Jednak niektórzy z pionierów TTS to:

  • Christian Kratzenstein, niemiecko-duński naukowiec, który w XVIII wieku stworzył rezonatory akustyczne naśladujące dźwięk ludzkiego głosu.
  • Charles Wheatstone, brytyjski wynalazca, który na początku XIX wieku opracował pierwszy mechaniczny syntezator mowy.
  • Homer Dudley, amerykański inżynier elektryk, który w 1939 roku stworzył VODER (Voice Operating Demonstrator), pierwszy elektroniczny syntezator mowy.
  • John Larry Kelly Jr., fizyk z Bell Labs, który w 1961 roku użył komputera IBM do syntezy mowy.
  • Noriko Umeda i wsp., badacze z Laboratorium Elektrotechnicznego w Japonii, którzy w 1968 roku opracowali pierwszy ogólny system zamiany tekstu na mowę w języku angielskim.
  • Ray Kurzweil, amerykański wynalazca, który w 1984 roku wypuścił pierwsze dostępne na rynku oprogramowanie do rozpoznawania mowy dla komputerów osobistych.

Historię mowy syntetycznej można podsumować w następujący sposób:

  • Historia mowy syntetycznej sięga XVIII wieku, kiedy niektórzy badacze i wynalazcy próbowali zbudować urządzenia mechaniczne, które mogłyby wytwarzać dźwięki podobne do ludzkich, takie jak rezonatory akustyczne i syntezatory mowy.
  • Historia mowy syntetycznej rozwinęła się w XX wieku, kiedy opracowano systemy elektroniczne i komputerowe do generowania mowy na podstawie tekstu lub innych danych wejściowych, takie jak VODER, komputer IBM i system Laboratorium Elektrotechnicznego.
  • Historia mowy syntetycznej rozwinęła się dalej pod koniec XX i na początku XXI wieku, kiedy wprowadzono nowe techniki i technologie mające na celu poprawę jakości, naturalności i różnorodności mowy syntetycznej, takie jak sieci neuronowe, klonowanie głosu oraz osadzanie emocji i stylów

Historię rozpoznawania mowy w sztucznej inteligencji można podsumować w następujący sposób:

  • Rozpoznawanie mowy to technologia umożliwiająca komputerom rozpoznawanie i tłumaczenie języka mówionego na tekst.
    Pierwszy system rozpoznawania mowy został opracowany przez Bell Laboratories w 1952 roku i potrafił z dużą dokładnością rozpoznawać wypowiadane liczby.
  • W latach sześćdziesiątych i siedemdziesiątych systemy rozpoznawania mowy rozszerzyły swoje słownictwo i wykorzystały metody probabilistyczne, takie jak ukryte modele Markowa, aby poprawić dokładność i szybkość.
  • W latach 80. i 90. systemy rozpoznawania mowy stały się bardziej niezależne od mówiących i wykorzystywały sieci neuronowe i statystyczne modele języka do obsługi języka naturalnego i dużych słowników.
  • W latach 2000 i 2010 systemy rozpoznawania mowy skorzystały z postępów w głębokim uczeniu się i dużych zbiorach danych, osiągając wydajność niemal ludzką w różnych domenach i zastosowaniach.

Technologia syntezy mowy odnosi się do procesu generowania sztucznej mowy na podstawie cyfrowego wprowadzania tekstu. Technologia ta jest powszechnie stosowana w urządzeniach i oprogramowaniu, które wymagają wyjścia audio treści pisanych.

Pierwsze systemy syntezy mowy zostały stworzone w latach siedemdziesiątych XVIII wieku przez Wolfganga von Kempelena i rosyjskiego profesora Christiana Kratzensteina. Te akustyczno-mechaniczne maszyny mowy były pierwszymi urządzeniami uznawanymi za syntezatory mowy.

Pierwszym urządzeniem uznanym za syntezator mowy był Voder, który został stworzony przez Homera Dudleya pod koniec lat trzydziestych XX wieku. Był w stanie wytworzyć ograniczony zakres dźwięków podobnych do ludzkich i był używany głównie do wczesnych eksperymentów z kodowaniem głosu.

Technologia syntezy znacznie ewoluowała od czasu stworzenia Vodera. W latach 70. firma Texas Instruments wyprodukowała pierwszy kompletny system zamiany tekstu na mowę, znany jako „Speak & Spell”. Rozwój syntezy selekcji jednostek w latach 80. pozwolił na uzyskanie bardziej naturalnie brzmiącej mowy poprzez łączenie wcześniej nagranych słów i fraz. Wprowadzenie technik spektrogramów i liniowego kodowania predykcyjnego w latach 90. XX wieku jeszcze bardziej poprawiło jakość syntezowanej mowy. Obecnie algorytmy przetwarzania języka naturalnego są wykorzystywane do generowania wysoce realistycznej i zrozumiałej mowy.

Wokoder to rodzaj syntezatora mowy, który działa poprzez analizę i syntezę charakterystyki sygnałów mowy. Pierwotnie został wynaleziony do bezpiecznej komunikacji podczas II wojny światowej i od tego czasu jest używany w produkcji muzycznej do tworzenia wokali robotów.

Synteza selekcji jednostek to technika, w której wcześniej nagrane jednostki mowy, takie jak słowa lub frazy, są wybierane na podstawie ich cech fonetycznych i prozodycznych i łączone w całość w celu stworzenia naturalnie brzmiącej mowy.

Mowa zrozumiała odnosi się do mowy, która może być zrozumiana przez słuchacza. W kontekście syntezy mowy odnosi się do zdolności mowy syntetycznej do postrzegania tak wyraźnie i dokładnie, jak mowa naturalna.

Dectalk to syntezator mowy wykorzystujący syntezę konkatenacyjną, która jest inną formą syntezy selekcji jednostek. Był powszechnie stosowany w urządzeniach technologii wspomagających dla osób niedowidzących lub mających trudności z czytaniem.

Haskins Laboratories to prywatny instytut badawczy non-profit zajmujący się badaniem mowy, języka i procesów poznawczych. Przeprowadzili szeroko zakrojone badania nad technologią syntezy mowy.

Tekst przekształcany jest w dźwięk w procesie syntezy mowy. Proces ten polega na podzieleniu tekstu na elementy fonetyczne i językowe oraz wykorzystaniu technologii syntezy do wygenerowania sygnałów mowy, które są następnie konwertowane na sygnał audio.

Przemyślenia końcowe

W oparciu o wszystko, co omówiliśmy powyżej, możliwy wniosek dotyczący ewolucji technologii TTS od głosów robotów do naturalnej mowy ludzkiej może być następujący:

W ciągu ostatnich dziesięcioleci technologia TTS uległa znacznemu postępowi, począwszy od wytwarzania monotonnych głosów robotycznych po generowanie realistycznej i wyrazistej mowy. Głównymi czynnikami napędzającymi tę ewolucję są rozwój nowych technik syntezy, takich jak modele oparte na sieciach neuronowych, dostępność dużych i różnorodnych danych dotyczących mowy oraz zastosowanie metod uczenia się transferowego i powiększania danych. 

Ewolucja technologii TTS umożliwiła nowe możliwości i funkcje, takie jak klonowanie głosu, osadzanie emocji i stylu oraz dostrajanie głosu. Ewolucja technologii TTS umożliwiła także powstanie nowych aplikacji i scenariuszy, takich jak asystenci głosowi, rozrywka i rozwiązania w zakresie dostępności. 

Ewolucja technologii TTS przyniosła także nowe wyzwania i możliwości, takie jak kwestie etyczne, ocena jakości i doświadczenie użytkownika. Oczekuje się, że ewolucja technologii TTS będzie kontynuowana w przyszłości w miarę prowadzenia większej liczby badań i innowacji w tej dziedzinie.

Udostępnij to swoim znajomym i współpracownikom!
Picture of Anson Antony
Anson Antoni
Anson jest współautorem i założycielem w www.askeygeek.com. Uczenie się czegokolwiek nowego zawsze było jego pasją, ASKEYGEEK.com jest wynikiem jego pasji do technologii i biznesu. Posiada dziesięcioletnie wszechstronne doświadczenie w outsourcingu procesów biznesowych, finansach i księgowości, technologiach informatycznych, doskonałości operacyjnej i inteligencji biznesowej. W trakcie swojej kadencji pracował dla takich organizacji jak Genpact, Hewlett Packard, M*Modal i Capgemini, zajmując różne role i obowiązki. Poza biznesem i technologią jest miłośnikiem kina, który spędza razem godziny, oglądając i ucząc się kina, a także Twórcy Filmowego!

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Gratulacje!
Zrobiłeś to,
Nie zamykaj!

Wstań do 60 000 Kredyty postaci UberTTS za darmo!!!

To wyskakujące okienko nie pokaże zależy od Ciebie Ponownie!!!

UberTTS
Share to...