Modele językowe AI – język polski najlepszy w długim kontekście, angielski na szóstym miejscu

14-11-2025, 17:22

Badanie OneRuler ujawnia zaskakujące różnice w modelach językowych AI. Polski zajmuje pierwsze miejsce z 88% skuteczności, angielski szósty z 83.9%, a chiński w dolnej części rankingu. Przepaść między językami rośnie wraz z długością kontekstu.

Sztuczna inteligencja coraz częściej mierzy się z obsługą długich tekstów w różnych językach. Niedawne badania pokazują jednak zaskakujące wyniki – modele językowe radzą sobie znacznie lepiej z polskim niż z angielskim, a ich skuteczność drastycznie spada w językach rzadziej używanych. Czy jesteśmy świadkami nowej formy nierówności cyfrowej, gdzie dostęp do zaawansowanych technologii zależy od języka, którym mówimy?

Czym jest benchmark OneRuler i jak testuje modele AI w 26 językach?

Modele językowe AI – polski najlepszy w długim kontekście, angielski na szóstym miejscu

OneRuler to nowy benchmark stworzony przez naukowców z University of Maryland, UMass Amherst i Microsoftu, który testuje możliwości dużych modeli językowych w obsłudze długich kontekstów w 26 różnych językach. Badanie objęło zarówno modele open-source, jak Llama 3.3 czy Qwen 2.5, jak i zamknięte rozwiązania – OpenAI o3-mini oraz Google Gemini 1.5 Flash. Analizowano je w kontekstach od 8 tysięcy do 128 tysięcy tokenów, sprawdzając ich umiejętności wyszukiwania informacji i agregacji danych.

Jak działa test "igła w stogu siana" z opcją braku odpowiedzi?

Kluczowe zadanie w benchmarku stanowiła zmodyfikowana wersja testu "igła w stogu siana" (needle-in-a-haystack). Naukowcy wprowadzili opcję odpowiedzi "nie ma odpowiedzi", co spowodowało spadek skuteczności modeli o 32 proc. przy kontekście 128 tysięcy tokenów. W klasycznej wersji model szuka konkretnej informacji ukrytej w długim tekście. Wydawałoby się, że to drobna modyfikacja, ale skutki okazały się dramatyczne.

Szczególnie wyraźnie problem ten dotknął model o3-mini firmy OpenAI, który w dłuższych kontekstach często błędnie odpowiadał "brak odpowiedzi", mimo że informacja była obecna. To przypomina sytuację znaną z testów czytania ze zrozumieniem, gdzie pytania bez odpowiedzi stanowią znacznie większe wyzwanie niż te z jednoznaczną odpowiedzią.

Który język osiąga najlepsze wyniki w modelach AI przy długim kontekście?

Najbardziej zaskakującym odkryciem było uszeregowanie języków według skuteczności modeli. Polski zajął pierwsze miejsce z 88-procentową skutecznością przy kontekście 64K i 128K tokenów, wyprzedzając rosyjski (87%), francuski (86%) i włoski (85%). Angielski znalazł się dopiero na szóstym miejscu z wynikiem 83,9 proc., a chiński – język dominujący w danych treningowych wielu modeli – uplasował się w dolnej części rankingu z zaledwie 62,1 proc. skuteczności.

Dlaczego tak się dzieje? Badacze spekulują, że kluczowa może być struktura językowa. Języki słowiańskie, romańskie i germańskie korzystające z alfabetu łacińskiego lub cyrylicy osiągały najlepsze wyniki – średnio 85-88% skuteczności przy długich kontekstach. Z kolei języki używające innych systemów pisma – nawet te zasobne w dane treningowe – radziły sobie gorzej. Hipotezę tę wspiera fakt, że języki z rodziny bantu, mimo ponad 350 milionów użytkowników, znalazły się na końcu rankingu z wynikami 45-52%.

Jak długość kontekstu wpływa na różnice między językami zasobnymi i rzadkimi?

Im dłuższy kontekst, tym większa różnica między językami zasobnymi w dane a tymi rzadziej reprezentowanymi. Przy 8 tysiącach tokenów różnica wynosiła 11 punktów procentowych między pięcioma najlepszymi a pięcioma najgorszymi językami. Przy 128 tysiącach tokenach przepaść urosła już do 34 punktów procentowych. Oznacza to, że zwiększanie możliwości przetwarzania długich tekstów paradoksalnie pogłębia nierówności językowe.

Języki takie jak hindi (165 tysięcy artykułów w Wikipedii), suahili (97 tysięcy artykułów) czy sesotho (1383 artykuły) już przy krótkich kontekstach 8K tokenów osiągały skuteczność 70-75%, podczas gdy języki wysokozasobne osiągały 90-95%. Problem ten był szczególnie widoczny w modelach Llama 3.1 8B i Llama 3.3 70B – najprawdopodobniej z powodu ich silnego ukierunkowania na angielski w danych treningowych. Nie chodzi tu jedynie o mniejszą ilość danych w tych językach, ale również o sposób, w jaki przeprowadzono rozszerzenie kontekstu podczas treningu modeli.

Dlaczego agregacja słów jest trudniejsza od wyszukiwania informacji?

Podczas gdy zadania wyszukiwania informacji były stosunkowo proste (modele osiągały 80-95% skuteczności w wersjach podstawowych przy krótkich kontekstach), agregacja danych okazała się prawdziwym testem możliwości. Zadanie Common Word Extraction (CWE) polegało na znalezieniu dziesięciu najczęściej występujących słów w długiej liście zawierającej 1600-2000 różnych słów. Brzmi banalnie? Dla ludzi tak, dla modeli językowych – niekoniecznie.

W wersji "łatwej", gdzie najczęstsze słowa pojawiały się 30 razy, a pozostałe tylko 3 razy, średnia skuteczność modeli wynosiła jedynie 31,5 proc. przy kontekście 128K tokenów. Trzy modele (Llama 3.3 70B, Qwen 2.5 72B, Gemini 1.5 Flash) osiągnęły ponad 80% skuteczności przy 8K tokenów, ale wyniki drastycznie spadały wraz ze wzrostem długości kontekstu. W wersji "trudnej" z mniejszą różnicą częstotliwości (20 vs 10 wystąpień), żaden model nie osiągnął skuteczności powyżej 1 proc. Co ciekawe, modele rozumujące jak o3-mini-high często przekraczały limit 10 tysięcy tokenów wyjściowych, "przegadując" się zamiast podać konkretną odpowiedź.

Jak język instrukcji wpływa na skuteczność modeli w zadaniach międzyjęzykowych?

Naukowcy zbadali także sytuacje międzyjęzykowe, gdzie instrukcje były w jednym języku, a kontekst w drugim. Wyniki mogły się różnić nawet o 20 punktów procentowych w zależności od języka poleceń. Przykład: gdy kontekst był po koreańsku przy długości 128 tysięcy tokenów, zmiana instrukcji z koreańskiego na angielski podniosła skuteczność z 61% do 77%. Z drugiej strony, gdy kontekst był po angielsku, zmiana instrukcji na koreański obniżyła wyniki z 91% do 71% przy kontekście 64K tokenów.

To wskazuje, że modele nie tylko "rozumieją" języki różnie, ale także preferują określone kombinacje języków instrukcji i kontekstu. Dla praktycznego zastosowania oznacza to, że warto eksperymentować z językiem poleceń, nawet gdy przetwarzany tekst jest w innym języku. Polski kontekst z polskimi instrukcjami osiągał 88% skuteczności, ale z angielskimi instrukcjami skuteczność wzrastała do 91% przy długich kontekstach.

Co oznacza tokenizacja i dlaczego ma znaczenie dla porównań wielojęzycznych?

Jednym z fundamentalnych wyzwań w porównywaniu modeli była tokenizacja - proces dzielenia tekstu na mniejsze jednostki. Ten sam tekst w tamilskim zajmował 42 124 tokeny w tokenizerze Gemini, ale aż 103 990 tokenów w tokenizerze Qwen. Czy więc porównujemy długość kontekstu w tokenach, czy rzeczywistą ilość informacji? Naukowcy zdecydowali się kontrolować długość w tokenach, co oznaczało, że niektóre modele otrzymywały różną ilość treści dla tego samego zadania.

Alternatywne podejście – wyrównanie ilości treści zamiast tokenów przy standardzie 128K tokenów według cl100k_base – pokazało podobne wzorce. Języki słowiańskie wciąż dominowały (polski 88%, rosyjski 87%, ukraiński 86%), a przepaść między językami zasobnymi a rzadkimi rosła wraz z długością kontekstu. Jednak języki takie jak koreański (spadek do 62%), hindi (spadek do 58%) czy chiński (spadek do 61%) radziły sobie gorzej, mimo że nowsze tokenizery lepiej je obsługują. Pokazuje to, że problem nie leży tylko w technicznych aspektach tokenizacji, ale w głębszych właściwościach samych modeli.

Jakie są ograniczenia syntetycznych benchmarków dla oceny modeli AI?

Benchmark OneRuler, choć innowacyjny, ma swoje ograniczenia. Przede wszystkim opiera się na syntetycznych zadaniach, które nie oddają pełnej złożoności rzeczywistych zastosowań. Wyszukiwanie "magicznej liczby" w tekście to jedno, a zrozumienie niuansów prawnego dokumentu lub medycznej dokumentacji – zupełnie inna sprawa. Syntetyczne testy są wygodne do automatyzacji i porównań, ale nie zawsze przekładają się na praktyczne umiejętności.

Ponadto dobór tekstów nie był neutralny. Większość książek użytych jako kontekst pochodziła z początku XX wieku lub wcześniej – ze względu na ograniczenia praw autorskich. Oznacza to język często archaiczny, który może wpływać na wyniki. Nie wiadomo, czy nowsze teksty dałyby podobne rezultaty. Również wybór jedynie 26 języków, choć imponujący, wciąż stanowi niewielką próbkę spośród tysięcy języków używanych na świecie.

Wreszcie, badanie koncentrowało się na długości kontekstu jako głównym czynniku trudności. Tymczasem złożoność zadań może wynikać z wielu innych czynników – od struktury gramatycznej po kulturowy kontekst informacji. Model może poradzić sobie świetnie z polskim tekstem o prostej strukturze, ale zawieść przy skomplikowanym tekście prawniczym w tym samym języku.

Ku równiejszemu dostępowi do AI

OneRuler ujawnia fundamentalny problem: rozwój technologii AI nie jest równomierny między językami. To nie tylko kwestia akademicka – ma realne konsekwencje dla miliardów ludzi używających języków słabiej reprezentowanych w systemach AI. Kiedy asystent głosowy nie rozumie pytania po hindi, gdy narzędzie do analizy dokumentów zawodzi przy tekstach w suahili, czy gdy system tłumaczeniowy niepoprawnie interpretuje sesotho – to nie są drobne niedogodności, lecz bariery w dostępie do technologii.

Badacze planują udostępnić OneRuler jako otwarty benchmark, co pozwoli innym zespołom testować swoje modele i śledzić postępy. Miejmy nadzieję, że doprowadzi to do większego skupienia na wielojęzyczności w trenowaniu modeli – nie tylko w kontekście ilości danych, ale także jakości i różnorodności metod treningowych. Rozwój AI powinien być inkluzywny, a nie pogłębiać istniejących nierówności cyfrowych.

Które modele AI najlepiej radzą sobie z długim kontekstem w 2025 roku?

Najlepszym z testowanych modeli okazał się Gemini 1.5 Flash Google'a z średnią skutecznością 93% w zadaniach NIAH przy kontekście 128K tokenów, który radził sobie solidnie we wszystkich językach i długościach kontekstu. Qwen 2.5 72B zajął drugie miejsce z wynikiem 88%, szczególnie w dłuższych kontekstach 64K-128K. Model o3-mini-high OpenAI, mimo zaawansowanych możliwości rozumowania, osiągnął tylko 67% skuteczności przy długich kontekstach. Modele open-source, choć generalnie słabsze (Llama 3.3 70B: 69%, Qwen 2.5 7B: 52% przy 128K), wykazują dynamiczny rozwój – a ich dostępność pozwala badaczom lepiej rozumieć mechanizmy działania i optymalizować je pod konkretne języki.

FAQ - najczęściej zadawane pytania o wielojęzyczne modele AI

Dlaczego polski radzi sobie lepiej od angielskiego w modelach AI?

Polski osiąga 88% skuteczności przy długim kontekście (64K-128K tokenów), angielski 83.9%. Badacze spekulują, że kluczowa jest struktura językowa i alfabet łaciński, który jest efektywnie reprezentowany w tokenizerach. Języki słowiańskie, romańskie i germańskie osiągają najlepsze wyniki.

Jaka jest różnica w skuteczności między językami zasobnymi a rzadkimi?

Przy 8 tysiącach tokenów różnica wynosi 11 punktów procentowych, ale przy 128 tysiącach tokenach przepaść rośnie do 34 punktów procentowych. Języki wysokozasobne osiągają 85-90% skuteczności, podczas gdy języki z rodziny bantu spadają do 45-52%.

Który model językowy AI jest najlepszy dla polskiego języka?

Gemini 1.5 Flash osiąga 97% skuteczności dla polskiego przy kontekście 128K tokenów. Qwen 2.5 72B również radzi sobie doskonale z 93% skutecznością. Oba modele przewyższają wyniki dla języka angielskiego w tych samych zadaniach.

Co to jest tokenizacja i dlaczego ma znaczenie?

Tokenizacja to proces dzielenia tekstu na mniejsze jednostki. Ten sam tekst w języku tamilskim zajmuje 42 124 tokeny w tokenizerze Gemini, ale 103 990 tokenów w tokenizerze Qwen. Różnice w tokenizacji wpływają na ilość informacji, którą model może przetworzyć w jednym zapytaniu.

Źródło: Arxiv.org

Foto: Freepik, treść: materiał partnera



Artykuł może zawierać linki partnerów, umożliwiające rozwój serwisu i dostarczanie darmowych treści.

Ostatnie artykuły:





fot. Freepik




fot. mdjaff