W rywalizacji wzięli udział przedstawiciele najbardziej zaawansowanych technologicznie firm i uniwersytetów na świecie. Wyniki 17.06.2021 ogłosił na swoich koncie Twitterowym, Jure Leskovec, przedsiębiorca i profesor informatyki na Uniwersytecie Stanforda, będący głównym naukowcem w firmie Pinterest.

Synerise pokonał drużyny z całego świata, między innymi specjalistów firmy Intel (producent procesorów komputerowych), OPPO Research Topology Lab (producent telefonów OnePlus i Oppo) czy Huazhong University of Science and Technology.

- To wielka radość stanąć na podium z gigantami takimi jak Baidu Research czy Google Deep Mind. Duża część postępu w uczeniu maszynowym możliwa jest dzięki zastosowaniu coraz większej mocy obliczeniowej. Giganci technologii prześcigają się w użyciu coraz większych modeli o niesamowitej pojemności, ale też bardzo wysokich kosztach trenowania i niebagatelnym wpływie na środowisko. W Synerise stawiamy na fundamentalne zrozumienie fenomenów matematycznych leżących u podstaw działania deep learningu. W połączeniu z finezją inżynierii pozwala nam to konkurować z najlepszymi ośrodkami badawczymi na świecie, mimo że dysponujemy tylko ułamkiem dostępnych im zasobów - mówi Jacek Dąbrowski, Chief Artificial Intelligence Officer, Synerise S.A.

KDD Cup (International Knowledge Discovery and Data Mining Competition) jest organizowany przez ACM (American Computer Association) organizacją zajmującą się informatyką na świecie.

Odbywająca się od 1989 roku konferencja KDD jest najstarszym i największym wydarzeniem eksploracji danych na świecie. Jest domem dla jednych z pierwszych i najczęściej cytowanych artykułów naukowych w dziedzinach, które są obecnie powszechnie znane jako "Big Data", "Data Science" i "Analityka Predykcyjna". Innowacje, takie jak crowdsourcing, zakrojone na szeroką skalę konkursy data science, algorytmy personalizowania reklam (np. Google), eksploracji danych (np. Facebook, LinkedIn) oraz systemy rekomendacji (np. Netflix, Amazon itp.) w dużej części pochodzą z KDD (za https://kdd.org/kdd2021/).

W 2020 roku konferencja KDD przyciągnęła ponad 3900 czołowych badaczy zarówno ze świata komercyjnego jak i uniwersyteckiego. Wśród nich znaleźli się wiodący badacze z uniwersytetów (np. Berkeley, Stanford, Oxford, Tsinghua) którzy odwiedzają KDD, aby uczyć się i prezentować najnowocześniejsze postępy w dziedzinach Data Science, Machine Learning, Sztucznej Inteligencji, Predictive Analytics i Big Data. KDD jest pionierem stosowanej nauki o danych. Nic dziwnego, że uczestnicy KDD pochodzą z najpotężniejszych firm technologicznych na świecie takich jak Google, Alibaba, Facebook, Netflix, LinkedIn, Tencent, Microsoft, IBM, Spotify i Amazon. Głos instytucji państwowych takich jak NIH, NSF, DARPA jest również ważny dla społeczności KDD i przedstawicieli tychże branż można spotkać w trakcie konferencji.

- Myślę, że eksploracja grafów i ich modelowanie to jedno z najbardziej istotnych zagadnień w społeczności eksploracji danych. KDD Cup przenosi je na wyższy poziom pod względem skali tych problemów i ich różnorodności. [...] Miejmy nadzieję, że konkurs skłoni społeczność do opracowania nowych technik i przekonamy się, jakie algorytmy działają na danych o ogromnej skali - Alex Beutel - KDD Cup Chair, Research Scientist & Team Leader w Google.

W tym roku niemal 2500 zespołów z całego świata rywalizowało w 3 kategoriach konkursowych KDD Cup, z których nagrodzono trzech zwycięzców danej kategorii. Synerise wystąpił w najtrudniejszej z nich, organizowanej między innymi przez Uniwersytet Stanford, Facebook AI, Google i Intel.

- Naszym wielkim marzeniem była zawsze rywalizacja z największymi w branży technologicznej. Obrana przez nas droga jest wyboista, ambitna i bezkompromisowa. Chcemy wygrywać wiedzą, doskonałością i ekskluzywnością rozwiązań wspieranych przez najnowsze zdobycze nauki, w szczególności w trzech segmentach rynku takich jak BigData, AI i automatyzacja - mówi Jarosław Królewski, prezes Synerise.

- Swoją pracą chcemy udowodnić, że nasz zespół AI może rywalizować z liderami innowacji z całego świata. Stworzyliśmy jeden z najdokładniejszych i najszybszych systemów - czas przetworzenia zbioru testowego za pomocą modelu Synerise wynosi ok. 7 minut, podczas gdy rozwiązanie Google DeepMind potrzebuje aż 12 godzin. To już nasze trzecie wyróżnienie na międzynarodowej arenie, co potwierdza, że globalne aspiracje polskich firm technologicznych są jak najbardziej uzasadnione. Mam nadzieję, że nasz sukces zainspiruje innych naukowców i inżynierów w kraju do stawania w szranki z najlepszymi na świecie - Michał Daniluk, AI Research Scientist w Synerise.

Zadanie konkursowe polegało na przewidywaniu tematyki publikacji naukowych na podstawie krawędzi zawartych w heterogenicznym grafie opracowań, cytowań, autorów i instytucji naukowych. Graf o bezprecedensowych rozmiarach (~250 GB) zawierał 244 160 499 wierzchołków 3 typów, połączonych aż 1 728 364 232 krawędziami, co pozwoliło na weryfikację algorytmów pod kątem gotowości do działania na danych o bardzo dużej skali.

- Wielkie heterogeniczne grafy pojawiają się w wielu zastosowaniach praktycznych. Przetwarzany przez nas w ramach KDD Cup graf dotyczy cytowań akademickich, jednak dane o podobnej strukturze są obecne również w e-commerce (grafy transakcji klientów), wielkich bazach wiedzy i bazach dokumentów. Mistrzostwo w przetwarzaniu danych tego typu prowadzi więc do uzyskania konkretnej przewagi biznesowej w ulepszaniu jakości rekomendacji i wyszukiwania danych. Cieszy mnie, że dane dotyczące tego typu praktycznych problemów coraz częściej pojawiają się w ramach konkursów na czołowych konferencjach - Barbara Rychalska, AI Research Scientist w Synerise.

Polacy w składzie Jacek Dąbrowski, Michał Daniluk, Barbara Rychalska, Konrad Gołuchowski w przeciwieństwie do większości drużyn, które usprawniły istniejące dotychczas algorytmy, zastosowali autorskie metody uczenia maszynowego: Cleora oraz EMDE. Metody opracowane przez zespół Synerise pozwoliły do tej pory na zwycięstwa w konkursach SIGIR Rakuten Data Challenge 2020 oraz WSDM Booking.com Data Challenge 2021. Metody te stanowią także kluczowy element systemu personalizacji (m.in. rekomendacji, wyników wyszukiwania) dostępnego dla klientów Synerise. Rozwiązanie polskiego teamu zostało już opublikowane na stronach Uniwersytetu Stanforda.

- Konkursy typu KDD Cup są szansą dla naszego zespołu do przetestowania i rozwoju naszych technologii używanych w firmie. To satysfakcjonujące, że algorytmy rozwinięte na potrzeby naszych produktów z powodzeniem konkurują z rozwiązaniami przygotowanymi przez gigantów technologicznych. Rywalizacja z najlepszymi uniwersytetami i firmami pokroju Baidu, Intel czy Google daje dodatkową motywację do dalszej pracy nad udoskonalaniem naszych rozwiązań - mówi Konrad Gołuchowski, AI Research Lead w Synerise.

Synerise.com to polska spółka technologiczna, będąca producentem platformy big data i AI pozwalającej w oparciu o najnowsze rozwiązania technologiczne przetwarzać dane w czasie rzeczywistym z różnych źródeł w oparciu o autorskie systemy bazodanowe, własne algorytmy sztucznej inteligencji a także metody zautomatyzowanej egzekucji scenariuszy biznesowych dla segmentów takich jak retail, banking, telekomunikacja czy e-commerce. Wśród klientów Synerise znajdują się między innymi: CCC, Carrefour, Żabka, Orange, mBank, SharafDG.