1. Scroll
  2. /
  3. Technologia
  4. /
  5. Polski syntezator mowy Ivona — droga do międzynarodowego sukcesu

Technologia

1 miesiąc temu

Polski syntezator mowy Ivona — droga do międzynarodowego sukcesu

Gadżety Nauka
4
1
0
4
1

Ivona to polski syntezator mowy, który został kupiony przez Amazon. Jaka jest historia sukcesu polskiego protoplasty syntezatora Alexa? Czy Alexa zastąpiła Ivonę? Tego wszystkiego dowiesz się w tym artykule.

Ivona — podstawowe informacje — czym jest?

Syntezator mowy to urządzenie peryferyjne lub oprogramowanie komputerowe, które zamienia treść pisaną na mowę. Jest to zadanie tylko pozornie błahe. Na powstanie syntezatora mowy, który umożliwia dokładną wymowę skomplikowanych słów, właściwe odczytywanie liczb oraz skrótów w językach narodowych czekaliśmy aż do początku XXI wieku.

Syntezator mowy ma wiele zastosowań. Jego podstawowe wykorzystanie to informowanie lub alarmowanie użytkownika o wcześniej zdefiniowanych komunikatach czy tłumaczenia z języków obcych. Syntezator mowy jest też doskonałym wsparciem dla osób niepełnosprawnych, szczególnie słabo widzących lub niewidomych. 

Sprawdź: Ranking najlepszych programów do odtwarzania filmów

Syntezator mowy w ekosystemie sztucznej inteligencji ma wielki potencjał, aby zastąpić człowieka w wielu czynnościach. Można tu wskazać na przykład na Ivonę. To polski syntezator mowy, który zadebiutował w 2005 roku. Już rok później został po raz pierwszy nagrodzony w międzynarodowym konkursie Blizzard Challenge, czym zwrócił uwagę światowego giganta e-commerce – Amazona. W 2013 roku syntezator mowy Ivona potrafił odczytać dowolny tekst w 17 językach na 44 głosy.

ivona
Źródło: slideserve.com

Technologia, jaką początkowo wykorzystywano w projekcie Ivona, określana była mianem unit selection. Polegała na stworzeniu ogromnej bazy danych nagrań zdań jednego lektora, które potem dzielone były na malutkie części, tzw. difony. 

Zaletą takiego rozwiązania była naturalna mowa — opierano się na rzeczywistych nagraniach. Niestety syntezowane w ten sposób zdania nie były ekspresyjne — nie wyrażały emocji. Technologia hybrid unit selection zaczęła ingerować w intonację generowanej mowy. Z kolei nowoczesne rozwiązania Neural Text-to-Speech, oparte o sieci neuronowe generują dźwięki z intonacją dobrze imitujące mowę ludzką.

Ivo Software i Spiker 1.0 – początki firmy odpowiedzialnej za Ivonę

Ivo Software to firma informatyczna założona w 2001 roku przez Michała Kaszczuka i Łukasza Osowskiego — absolwentów Politechniki Gdańskiej. Spółka miała na celu kontynuowanie rozwoju syntezatora mowy Ivona, która była przedmiotem pracy dyplomowej Michała Kaszczuka. 

IVO to skrót od „intelligent voice”. Jednak skoro syntezator mowy miał jak najlepiej odzwierciedlać głos ludzki, w pewnym momencie spółkę przemianowano na Ivona Software. Również nowe głosy dodane do aplikacji otrzymały swoje imiona.

IVONA - początki firmy
Źródło: biznes.trojmiasto.pl

Naturalną grupą docelową syntezatora mowy są osoby niewidome lub słabowidzące. Do nich kierowany był syntezator mowy Spiker 1.0. Oprogramowanie Spiker doczekało się pięciu wersji, a także wydania na telefony komórkowe — Speaker Mobile. Szczególnie Speaker Mobile zyskał dużą popularność, umożliwiając korzystanie z telefonu komórkowego przez osoby niedowidzące.

Zobacz: Najlepsze programy do czytania tekstu – zobacz zestawienie darmowych syntezatorów mowy online

Komercyjny sukces projektu stał się kołem napędowym głównego produktu Ivo Software, jakim był syntezator mowy Ivona. Na początku Ivona „mówiła” w czterech głosach: polski męski (Jacek), polski żeński (Iwona), angielski męski (Ryan), angielski żeński (Claire).

Ivona – Droga do zdominowania rynku

Zarówno kolejne edycje oprogramowania Spiker, jak i pierwsza wersja syntezatora mowy Ivona natychmiast zyskały uznanie w Polsce, ale także zostały zauważone na świecie. Do Ivo Software zaczęły zgłaszać się takie instytucje jak PKP, ZTM Warszawa, Wojsko Polskie, aby wykorzystać lektora Ivona do odczytywania generycznych komunikatów. 

W 2008 roku Ivo Software wydało komercyjną edycję oprogramowania ze wbudowanym syntezatorem — Expressivo (później przemianowany na Ivona Reader). Narzędzie potrafiło odczytywać dowolny tekst z dokumentów, stron internetowych lub wiadomości e-mail. Sprawdzało się przy oglądaniu filmów z lektorem (odczytując napisy filmu z dołączonego pliku), jak również do tworzenia prostych audiobooków. Było dobrym dodatkiem do nauki języków obcych.

IVONA reader
Źródło: ivona.softonic.pl

Język angielski (a raczej brytyjski) był drugim językiem, w którym syntezator Ivona był „biegły”. Stało się to dzięki współpracy z organizacją wspierającą osoby niepełnosprawne w Wielkiej Brytanii (Royal National Institute of Blind People) od 2009 roku. 

Otworzyło to drogę ekspansji na zagraniczne, anglojęzyczne rynki (Wielka Brytania, Stany Zjednoczone, Kanada). Ivo Software podpisało nawet kontrakt na dostawę oprogramowania Ivona na telefony BlackBerry, wchodząc w ten sposób w drogę innym dużym graczom. 

Syntezator Ivona zaczął być sprzedawany również w modelu abonamentowym SaaS (Software as a Service). Jednocześnie stale udoskonalano usługę na podstawie własnych badań. Spółka stworzyła nawet technologię szybkiego tworzenia nowych głosów w wielu językach porównywalnych do ludzkiej mowy, zwaną Rapid Voice Development (RVD).

Zobacz: Alexa po polsku? Amazon Alexa być może niebawem po polsku

Ivo Software (później przemianowany na Ivona Software) dotarł do punktu zwrotnego. Mimo że dalszy, powolny, organiczny rozwój Ivony mógł być finansowany z dochodów generowanych przez spółkę, naprzeciw stali giganci o praktycznie nieograniczonych możliwościach finansowych — Google, IBM, Microsoft, Amazon. 

Choć ich produkt był gorszy, mogli oni z powodzeniem wyeliminować polską spółkę z udziału w światowym rynku choćby poprzez pozwy np. o opatentowane technologie syntezy mowy. Takie groźby były już przekazywane firmie od bezpośredniego konkurenta, firmy Nuance, dostawcy syntezatora mowy Siri do urządzeń Apple. Konieczne było więc albo samodzielne szukanie zewnętrznego źródła finansowania u aniołów biznesu, albo połączenie sił z jednym z gigantów technologicznych. Wybrano tę drugą opcję.

Przejęcie przez Amazona — Ivona staje się Alexą?

Zacieśnianie współpracy z Amazon było procesem naturalnym. Amerykański gigant już wcześniej korzystał z programu Ivona w czytnikach Kindle i tabletach Kindle Fire. Amazon przejął Ivona Software w 2013 roku. Transakcja miała partnerski charakter. 

Amazon był nie tylko zainteresowany zakupem technologii, ale też jej dalszym rozwojem przez kompetentny zespół. Ivona Software stała się Amazon Development Center Poland — oddziałem rozwoju amerykańskiej firmy, odpowiedzialnym również za kontynuację projektu Ivona w ramach czytników Kindle. 

Alexa - zastępca IVONY?
Źródło: fatbat.pl

Przekształcanie Ivony w nowy syntezator mowy — Amazon Polly było również naturalnym procesem. Alexa, głos wykorzystywany już nie tylko w czytnikach Kindle i tabletach Kindle Fire, na dobre zadomowił się w urządzeniach Smart Home od Amazonu, głównie w głośniku Amazon Dot.

Plany na przyszłość Ivony

Amazon Polly (czyli w zasadzie: syntezator mowy Ivona), o który oparty jest głos Alexa,  jest obecnie rozwijany przez tysiące inżynierów na całym świecie. Jednak wciąż prawdziwym centrum projektu jest gdański Amazon Development Center Poland. 

Syntezator mowy jest trzonem całego ekosystemu IoT (Internet of Things), urządzeń smart i systemów wirtualnych asystentów, które są już obecne na co dzień w naszym życiu. Zakłada się, że rynek rozwiązań rozwijać się będzie przynajmniej do 2025 roku ze średniorocznym tempem wzrostu ponad 30%. Alexa będzie więc wszędzie tam, gdzie korzystamy z urządzeń lub aplikacji Amazon.

IoT
Źródło: slideserve.com

Z projektu odszedł twórca Ivony, Łukasz Osowski. Jego odejście związane było z chęcią zaangażowania w inne tematy. Jak sam stwierdził w jednym z wywiadów — nie lubi mieć nad sobą szefów.

Ivona została przejęta przez Amazon, będąc na etapie technologii syntezy mowy opartej o sieci neuronowe. Centrum rozwojowe Amazon kontynuowało rozwój syntezatora w kierunku wiernego generowania mowy w zależności od sytuacji oraz emocji. Informacje radiowe intonowane są inaczej niż treści przekazywane podczas koleżeńskiej rozmowy. Emocje również mają znaczenie. 

Alexa ma obecnie własne emocjonalne style, które są aplikowane w zależności od sytuacji. To jest obecnie najważniejszy kierunek rozwoju syntezatora mowy — tworzenie jak największej ilości stylów mówienia. W końcu syntezator mowy ma zastąpić mowę ludzką na wielu płaszczyznach. Dzieje się to właśnie na naszych oczach.

A Ty co sądzisz o wirtualnych asystentach z syntezatorem mowy? Pamiętasz może jeszcze głos Ivona wszechobecny w starych prześmiewczych filmach na Youtube? Koniecznie daj znać w komentarzu.

4
1

Podziel się:

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.