Apple Facebook Google Microsoft badania bezpieczeństwo patronat DI prawa autorskie serwisy społecznościowe smartfony

Boty - pomagają, czy szkodzą Twojej stronie WWW?

Porada Kei.pl 25-03-2009, 10:00

"Moją stronę odwiedza dużo robotów". "Czekam z utęsknieniem na kolejną wizytę bota". W rozmowach webmasterów często pojawiają się słowa "robot" lub "bot". Pod nazwą tą kryją się aplikacje, których zadaniem jest przeszukiwanie Internetu i zbieranie informacji o stronach internetowych.

Konkurencja na rynku wyszukiwarek internetowych wymaga, aby prezentowane wyniki były jak najbardziej aktualne i precyzyjne. Od dawna nie ma już fizycznej możliwości, aby dane na temat stron internetowych zbierali i gromadzili ludzie. Wyręcza ich armia skryptów, która na okrągło, 24 godziny na dobę i 365 dni w roku indeksuje strony internetowe, aktualizuje dostępne dane oraz wyszukuje nową zawartość.

Jak boty działają?
W dzisiejszych czasach można właściwie podpisać się pod stwierdzeniem, że jeśli czegoś nie ma w Google, to coś nie istnieje. Kiedy strona trafia do bazy wyszukiwarki? Między innymi wtedy, gdy podczas przeszukiwania sieci natrafi na nią robot. Wczytuje on zawartość strony, indeksuje, a następnie próbuje otworzyć wszelkie linki umieszczone w danym serwisie. W ten sposób przechodzi wgłąb witryny indeksując podstrony, a także przeskakuje z jednego serwisu na inny, gdy natrafi na link zewnętrzny prowadzący poza daną stronę WWW. Istnieje wiele sposobów, aby ułatwić botowi indeksowanie zawartości serwisu - "ładne linki" przygotowane przy pomocy mod_rewrite, opracowanie mapy strony itp.

Mój serwis generuje duże obciążenie. Czy boty mogą mieć coś z tym wspólnego?
Niestety, tak. Ideą działania botów jest jak najszybsze otwieranie kolejnych znalezionych linków, a to powoduje wystąpienie pewnej liczby problemów. Przykładem może być zapętlenie się robota, który natrafił na sytuację, w której wychodząc ze strony A przechodzi kilka/kilkanaście podstron i ponownie trafia na stronę A. Zazwyczaj roboty umieją sobie poradzić z takimi pętlami, ale bywa też inaczej.

Drugą kwestią jest generowane przez boty obciążenie serwera. Jak wiadomo, skrypty PHP mają duży wpływ na czas pracy procesora. Przy normalnym ruchu, nie ma problemu - nawet stosunkowo duże fora czy sklepy mogą funkcjonować w środowisku hostingu współdzielonego. Problem pojawia się, gdy na dane forum wejdzie bot, którego zadaniem jest jak najszybsze otwarcie wszystkich napotkanych linków (trzeba pamiętać że każdy link, to wywołanie skryptu PHP). Często można taką sytuację porównać do tego, jakby kilkudziesięciu użytkowników zaczęło nagle klikać po stronie. Efektem jest spory wzrost obciążenia, który przełoży się później na informację w panelu zarządzania kontem hostingowym.

Jeśli taki najazd robotów jest jednorazowy, problem nie jest bardzo poważny - średnie wykorzystanie zasobów jest w normie. Co można jednak zrobić, jeśli roboty zadomowiły się na naszej stronie i ruch przez nie generowany stanowi znaczną część ruchu wytwarzanego przez użytkowników?

Wzrost aktywności robotów. Jak się bronić?
Sytuacja w której roboty internetowe są główną przyczyną przekroczenia przez konto ftp Klienta przypisanych mu zasobów jest czymś, z czym administratorzy Kei.pl stykają się na co dzień. Jeśli ktoś nie zdaje sobie sprawy z sytuacji, informacja że 50% odwiedzin strony i 90% generowanego przez nią obciążenia jest efektem działalności robotów może być dla niego szokiem. W praktyce takie cyfry nie są niczym niespotykanym. Co można zrobić?

Wiadomo, chcemy żeby boty stronę odwiedzały. Może jednak nie jest konieczne indeksowanie każdej podstrony i każdego postu na forum? Pewnym standardem, respektowanym przez większość botów, jest plik robots.txt, który może zawierać informacje dotyczące sposobu, w jaki strona ma być indeksowana. W szczególności istnieje możliwość zablokowania dostępu do niektórych podstron:

User-agent: *
Disallow: /tajne

Zastosowanie powyższego wpisu wyłącza katalog /tajne z zawartości dostępnej robotom.

Inną opcją na ograniczenie zapędów botów jest skorzystanie z dyrektywy crawl-delay:

User-agent: *
Crawl-delay: 10

Powyższy wpis informuje wszystkie roboty o tym, że kolejne pobranie strony z serwera powinno odbyć się dopiero po dziesięciu sekundach. W ten sposób eliminujemy efekt dużego natężenia odwiedzin w krótkim okresie czasu.

Więcej informacji na temat pliku robots.txt można znaleźć (w języku angielskim) na stronach Wikipedii: http://en.wikipedia.org/wiki/Robots.txt

Innym mechanizmem umożliwiającym kontrolę nad poczynaniami bot'ów jest utworzenie pliku sitemap.xml. Jest to plik XML w którym można zdefiniować dodatkowe informacje na temat poszczególnych podstron. W szczególności są to takie parametry jak priorytet (jak bardzo chcemy aby dana strona została zindeksowana), częstotliwość zmian (jak często modyfikowana jest dana strona) czy data ostatniej modyfikacji. Część robotów potrafi wykorzystać takie informacje i na przykład pominąć konkretną podstronę, o której wiedzą że jej zawartość nie zmieniła się od poprzedniej próby zindeksowania.

Więcej informacji na ten temat można znaleźć na stronie: http://www.sitemaps.org

Oprócz przedstawionych opcji, należy przeanalizować dokładnie dokumentację dotyczącą konkretnego robota. Często twórcy umieszczają dodatkowe, niestandardowe opcje zarządzania. Dodatkowo, Google udostępnia cały panel administracyjny dla webmasterów, w którym to panelu można np. zdefiniować częstotliwość odwiedzania strony, sprawdzić kiedy i jakie strony zostały zindeksowane, z jakich stron dotarł do nas Googlebot, a także wiele innych, interesujących z punktu widzenia webmastera informacji.

Podczas wprowadzania wszelkich ograniczeń należy pamiętać, by nie zaszkodzić witrynie. Boty generują dodatkowe obciążenie, ale przecież to dzięki nim strona jest widoczna w sieci.

kei.pl 

Poradę dla Czytelników Dziennika Internautów przygotowała firma Kei.pl dostawca usług hostingowych.


Aktualności | Porady | Gościnnie | Katalog
Bukmacherzy | Sprawdź auto | Praca


Artykuł może w treści zawierać linki partnerów biznesowych
i afiliacyjne, dzięki którym serwis dostarcza darmowe treści.

              *              

Następny artykuł » zamknij

Serwis "zielonej" informatyki



Ostatnie artykuły:


fot. Samsung



fot. HONOR