Polski syntezator mowy jest najlepszy
Nasi rodacy zwyciężyli w konkursie Blizzard Challenge organizowanym przez Carnegie Mellon University. Produktem, który pozwolił na zwycięstwo był program IVONA, będący silnikiem pozwalającym na głosowe odczytywanie tekstów.
IVONA jest dziełem Łukasza Osowskiego i Michała Kaszczuka. Prace nad syntezatorem mowy trwały około trzech lat. Powstał on w Pomorskim Parku Naukowo-Technologicznym w Gdyni, gdzie Osowski i Kaszczuk, tuż po obronie prac magisterskich, założyli firmę IVO Software.
Jak mówił Łukasz Osowski w wypowiedzi dla PAP, o sukcesie IVONY w konkursie zadecydowała konsekwencja jej twórców w dążeniu do tego, aby "sztuczna mowa" brzmiała jak najbardziej naturalnie. Czy to się udało? Możemy ocenić sami odwiedzając stronę IVO Software, gdzie można posłuchać próbek.
Na silniku IVONA oparto już kilka produktów komercyjnych. Syntezator jest wykorzystywany przez osoby niewidome i niedowidzące do surfowania po internecie, ale stosuje go również wojsko do automatycznego odczytywania tekstów przez telefon.
Popularna wersja syntezatora, Ekspressivo, pozwala na odsłuchiwanie poczty elektronicznej i dokumentów. IVONA może być także wbudowana w serwis internetowy.
W konkursie Blizzard Challenge brało udział 14 ekip badawczych z całego świata. W pierwszym etapie uczestnicy konkursu otrzymali nagrania głosu lektora, który posłużył do stworzenia jego sztucznego odpowiednika. W ciągu 6 tygodni uczestnicy opracowali syntezator mowy mówiący takim samym głosem, jak lektor.
Następnie uczestnicy otrzymali kilkaset zdań, które musieli "odczytać" sztucznym głosem. Efekt tego odczytywania został odesłany do organizatorów konkursu w celu dokonania oceny.