Popularność smart speakers w krajach anglojęzycznych pozwala sądzić, że głosowe interfejsy użytkownika (VUI) odniosą sukces na kolejnych rynkach. Jakie urządzenia podbijają obecnie serca entuzjastów nowych technologii? W Wielkiej Brytanii prym wiedzie Amazon z linią Echo oraz wirtualną asystentką Alexą. Użytkownicy mogą z nią rozmawiać wykorzystując podstawowe, wbudowane funkcjonalności spod znaku voice search lub dodatkowo aktywować tzw. skille, czyli umiejętności przygotowywane przez wyspecjalizowane zespoły programistów. Liczba poszczególnych skilli jest zależna od kraju użytkownika. Najwięcej dostępnych jest, co nie dziwi, na rynku amerykańskim (ponad 56 tysięcy) i w Wielkiej Brytanii (blisko 30 tysięcy). Podstawowe usługi głosowe uruchomią minutnik w kuchni, odtworzą płytę ulubionego artysty lub podadzą prognozę pogody. Skille można włączyć za pośrednictwem wirtualnego sklepu.

Rozwiązanie dla każdego

W rozwój głosowych interfejsów użytkownika coraz śmielej inwestuje branża motoryzacyjna. Producenci pojazdów dostrzegli, że frustracja współczesnych kierowców związana z poczuciem marnotrawienia czasu w korkach, tworzy potężną szansę biznesową. Receptą na rozterki tracących cenne minuty zmotoryzowanych ma być asystent głosowy. Dyktowanie korespondencji, rejestracja wizyty u dentysty, rezerwacja stolika w ulubionej restauracji – wszystko natychmiast i to z rękami na kierownicy? Dla samochodów przyszłości to standard.

Technologie głosowe stanowią szansę nie tylko dla dużych koncernów. Własny skill będzie dobrym rozwiązaniem także dla małych graczy, np. w branży e-commerce. Właściciel sklepu internetowego skorzysta z usług asystenta, gdy będzie zabiegał o podniesienie jakości obsługi klienta bez ponoszenia kosztów zatrudnienia kolejnego pracownika. Asystent sprawdzi dostępność towaru, przedstawi metody płatności oraz poinformuje o statusie wysyłki.

Asystenci głosowi równie dobrze spiszą się w relacjach B2B. Już teraz firmy mogą korzystać z usługi oferującej obsługę salek konferencyjnych (zrób notatkę z rozmowy, uruchom rzutnik), bądź ułatwiającej dostęp do służbowego oprogramowania.

Wyzwania dla użytkowników i programistów

Czy szerokie zastosowanie VUI sprawia, że ich przyszłość rysuje się w jasnych barwach? Okazuje się, że technologii mogą nie zaakceptować… sami użytkownicy. Jak pokazują badania, 30% młodych internautów deklaruje, że chciałoby korzystać z asystenta w przestrzeni publicznej, ale czuje przy tym pewne skrępowanie. Osoba oczekująca na autobus nie zapyta swojego telefonu o repertuar kina, obawiając się krzywych spojrzeń przechodniów. Podobna bariera istnieje także w warunkach domowych, w odniesieniu do członków rodziny. Większość ludzi odczuwa pewien dyskomfort mówiąc do urządzenia, szczególnie w obecności obserwatora.

Z punktu widzenia programisty klucz do sukcesu rozwiązań głosowych tkwi w „intent recognition”, czyli takim zaprojektowaniu skilla, aby wiedział, co użytkownik ma na myśli. Asystent powinien nadążać za różnorodnością żywego języka, który podlega nieustannej ewolucji i występuje w wielu, kulturowo uwarunkowanych, wariantach. Inaczej będą wysławiać się młodzi, a inaczej starsi użytkownicy. Inaczej komunikują się mieszkańcy poszczególnych regionów, grup społecznych lub zawodowych. Każda z nich będzie używała charakterystycznego, niespotykanego w innych kręgach żargonu.

Marcin Niczyporuk, Director of Cognitive Service Line w intive, zauważa, że młody człowiek nie ma cierpliwości do prowadzenia długich rozmów z asystentem głosowym. Zależy mu na wypowiedzeniu krótkiego komunikatu i oczekuje, że zostanie zrozumiany w mig. Dobrze napisany skill powinien błyskawicznie rozpoznać intencję użytkownika. W przeciwnym razie zostanie szybko odinstalowany.

Lingwiści projektują dialogi

Zespoły deweloperskie proces tworzenia skilli zaczynają od postawienia pytania: w jaki sposób moja usługa przyda się użytkownikom? Uzyskana odpowiedź jest zależna od zdefiniowania potrzeb potencjalnego rozmówcy oraz doświadczenia, jakie będzie mu towarzyszyć w rozmowie z botem. Co ciekawe, nad interfejsem urządzeń głosowych pracują nie tylko wyspecjalizowani UX designerzy, ale również lingwiści i kulturoznawcy. Ich rola polega na określeniu założeń osobowościowych asystenta – a dzięki temu – zaprojektowaniu wiarygodnych dialogów. Tworzonych jest około 50-100 wersji tego samego pytania, aby bot nie miał problemu z rozpoznaniem, co użytkownik ma na myśli. Zdefiniowanie dialogów jest ściśle skorelowane z przeznaczeniem danego skilla. Komunikacja prostego interfejsu głosowego stworzonego do informowania o ofercie operatora komórkowego będzie się różnić od komunikacji bazowego voice search’a, który napisze notatkę, powie jakiej pogody należy spodziewać się następnego dnia i opowie dowcip.

Co przyniesie przyszłość?

Obecnie wszystkie skille dostępne w wirtualnym sklepie Amazona oferowane są bezpłatnie. Ponoszone opłaty mogą dotyczyć jedynie oferowanych w ramach nich usług, np. zakupu biletów. W najbliższej perspektywie należy jednak spodziewać się zmiany modelu biznesowego i wypracowania metod monetyzacji rosnącej popularności interfejsów głosowych. Obecnie, Alexa proponuje In-Skill purchase – opcję zakupienia zawartości premium, od której Amazon pobiera 30% ceny ustalonej przez twórcę skilla.

Technologia nadąża za zmieniającymi się oczekiwaniami użytkowników. W odpowiedzi na wymagania rozmówców, boty będą się uczyć i stale podnosić swoje umiejętności. Pomysłów na wykorzystanie interfejsu głosowego pojawi się więcej, bo rozwiązanie można stosować w niemal każdej gałęzi biznesu.

Źródło: intive