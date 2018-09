Podczas tegorocznej konferencji Usenix, zespół badawczy z Uniwersytetu Illinois zaprezentował raport zatytułowany "Skill Squatting Attacks on Amazon Alexa". Naukowcy przeanalizowali możliwości działania „skill squattingu”, a w efekcie powstał teoretyczny model ataku wykorzystujący fakt, iż są takie słowa, które mylą nam się częściej, niż pozostałe, co zwiększa ryzyko przypadkowej aktywacji niechcianych funkcji przez użytkownika.

Czym są „Skille”, a czym „Skill Squatting"?

W uproszczeniu: „skill” to funkcja, którą platforma Alexa aktywuje po usłyszeniu danego słowa. Niektóre skille są domyślnie zaprogramowane w Amazon Echo. Jest to na przykład funkcja „głośniej” i „ciszej”. Gdy użytkownik powie „Alexa, głośniej”, platforma „wie”, że użytkownik chce zwiększyć głośność. Zewnętrzni deweloperzy mogą także wykorzystywać platformę Alexa do tworzenia spersonalizowanych skillów.

Skill Squatting to zatem technika wiążąca fonetycznie podobne słowo z daną funkcją, nawet jeśli rzeczone słowo nigdy nie miało zostać użyte jako właściwa komenda aktywująca daną funkcję. Skuteczny skill squatting uruchamia komendę, której użytkownik wcale nie wywoływał. Podobna technika jest wykorzystywana od lat w modelu zwanym „Typo Squatting”, w którego ramach przestępcy rejestrują domeny bardzo zbliżone do prawdziwych stron internetowych, jednak zawierające powszechnie występujące literówki. W ten sposób, gdy wpiszemy „faecbook.com” lub „youtiube.com”, możemy zostać przekierowani na zainfekowaną stronę internetową bądź stać się ofiarami phishingu.

Jak skomplikowany jest scenariusz ataku?

Niemal każdemu z nas zdarza się źle usłyszeć pojedyncze słowo lub całe zdanie. Z Alexą dzieje się to samo. Oczywiste jest, że skill squatting to nie tylko zdefiniowanie przypadkowego słowa jako wektora funkcji oprogramowania Alexa. Z jednej strony atakujący musi wybrać słowo, co do którego ma pewność, że prędzej czy później zostanie wypowiedziane przez użytkownika. Z drugiej strony, słowo to musi wykazywać pewne prawdopodobieństwo niepoprawnej interpretacji. Prawdopodobieństwo to jest ściśle związane z brzmieniem niektórych wyrazów. Z wyrazami jednosylabowymi zawierającymi podobny dźwięk wiąże się większa ilość pomyłek niż w przypadku wyrazów wielosylabowych. W swoich testach naukowcy wzięli na warsztat 188 wyrazów jedno- i wielosylabowych. Każdy z nich został wypowiedziany 50 razy przez 60 różnych osób z różnych rejonów świata, kobiet i mężczyzn. Zaledwie dwa procent z tych wyrazów było zawsze poprawnie interpretowanych przez oprogramowanie Alexa, a dziewięć procent było za każdym razem interpretowane błędnie.

Zarówno dla ludzi, jak i dla aplikacji głosowych wyzwanie stanowią homofony, a więc wyrazy, które prawie identycznie się wymawia, ale inaczej zapisuje i które różnią się znaczeniem. Inne równie problematyczne pary wyrazów to te oparte na podobieństwie dźwięków, na przykład „czat” i „czad”.

Na ile prawdopodobny jest tego rodzaju atak?

Prawdopodobieństwo błędnej interpretacji zależy od płci oraz pochodzenia mówcy. Dlatego też, aby atak typu skill squatting mógł okazać się skuteczny, należy wziąć pod uwagę regionalne wersje wyrazów. To, co zadziała w Londynie, nie musi wcale okazać się skuteczne w Leeds czy w Edynburgu – lub to, co jest skuteczne w USA, może zawieść w Nowej Zelandii czy Australii.

W trakcie testów możliwe okazało się nawet przeprowadzenie ataku phishingowego z wykorzystaniem techniki skill squattingu. Nadal pozostaje jednak niejasne, czy takie postępowanie zadziałałoby w rzeczywistości.

Około trzech miliardów osób na całym świecie mówią po angielsku, chińsku, francusku i hiszpańsku. Dlatego też, jeśli przestępcy zdecydują się na wykorzystanie tego modelu, na pierwszy ogień mogą pójść właśnie te języki. Jeśli model okaże się wystarczająco skuteczny i opłacalny, w dalszej kolejności obejmie następne języki. Atakiem, który miał już miejsce w oparciu o tę zasadę jest phishing – pierwsze ataki tego typu były w języku angielskim.

Należy jednak zauważyć, że żaden z ataków przedstawionych w opracowaniu nie wyszedł poza zamknięte środowisko testowe. Autorzy raportu podkreślają, że ich eksperymenty nie są reprezentatywne, jeśli chodzi o zastosowanie w realnym świecie. Tak jak wiele innych potencjalnych źródeł ataku, ten scenariusz pozostaje na razie w sferze czysto akademickiej.

Źródło: G DATA