Aby maszyna wyszukująca mogła funkcjonować i archiwizować dane udostępnione w sieci internet, potrzebuje narzędzia, w którego mocy jest odwiedzać strony internetowe, nawigować, rozróżniać informacje o witrynie, rozstrzygać, które strony są o czym, i dodawać informacje do swojego indeksu.
Rozwiązaniem wykorzystanym przez obecnie najlepszą światową wyszukiwarkę Google jest robot (inaczej spider, crawler, agent) o nazwie . Jest on oprogramowaniem indeksującym, odwiedza miliardy stron i archiwizuje zawartość.
Działanie crawlerów jest proste i ograniczone przetwarzając dane, podróżując po sieci szukając nowe strony i linki. Zapewnienie robotom dostępu do strony WWW musi być podstawą w każdej strategii optymalizacyjnej, mającej na celu zwiększenie pozycji notowań w wyszukiwarce Google.
Kiedy strona internetowa została zgłoszona do wyszukiwarki, adres witryny (URL) jest dodany do kolejki stron oczekujących na odwiedzenie przez robotów. Jeśli strona nie została zgłoszona tradycyjnie, jest możliwość że zostanie odwiedzona i zaindeksowana za pomocą odsyłaczy znajdujących się na witrynach linkujących do strony docelowej.
Bardzo ważnym i ciekawym faktem jest to, że droga do indeksacji poprzez budowanie linków jest efektywniejsza i skuteczniejsza niż tradycyjne zgłaszanie. Zgodnie z ostatnimi testami strona zgłoszona przez link jest wyświetlana w wynikach wyszukiwania już po 3 dniach. Witryna zgłoszona tradycyjnie pojawia się dopiero po 2-3 miesiącach.
Kiedy Googlebot dociera do strony docelowej, sprawdza czy dostępny jest plik robots.txt. Plik ten służy do ograniczenia działania robotów na stronie internetowej. Po przeanalizowaniu pliku (jeśli jest dostępny) Googlebot zabiera się za indeksowanie tekstu zawartego na stronie. Różnorodnych Meta Tagów, Title Tagu (nazwy strony), ALT Tagów, tekstu w hyperlinkach i pozostałej zawartości. Z uzyskanych informacji wyszukiwarka rozstrzyga, o czym jest strona docelowa.
Teraz powiedzmy kilka słów o tym, jak kierować poruszaniem się robotów Google na witrynie.
Googlebot przestrzega noindex, index, nofollow, follow, noarchive, all Meta Tagi. Jeśli zostaną one umieszczone w części HEAD strony internetowej Google nie będzie indeksować, podążać po linkom i archiwizować obecny stan strony.
Oto niektóre z nich przedstawione niżej:
<META NAME="robots" CONTENT="noindex"> Googlebot nie będzie indeksować dokumentu,<META NAME="robots" CONTENT="nofollow"> nie będzie podążać za linkami umieszczonymi na stronie do innych stron<META NAME="robots" CONTENT="noarchive"> nie będzie prowadzić zarchiwizowanych kopii strony
Niżej podajemy niektóre wskazówki służące pomocą robotom Google w lepszym zrozumieniu prowadzonej strony internetowej:
- Każdy link na stronie musi być w postaci czystego HTML, Google ma pewne trudności z czytaniem linków zawartych w filmach Macromedia Flash, napisany w języku JavaScript lub DHTML’u.
- Liczba linków na jednej stronie nie może przekraczać 100. Zgodnie z informacjami podanymi przez Google, wyszukiwarka indeksuje 100 kb z całej zawartości.
- Każda podstrona witryny docelowej musi mieć swój unikalny title, kompletny i sensowny.
- Bardzo ważnym faktorem jest budowa strony. Najlepiej jeśli nie jest ona oparta na ramkach.
- Wszystkie relewantne informacje na stronie należy umieścić w postaci tekstu.
- Ważnym elementem jest umieszczenie opisu strony w znaczniku Meta Description. Wstawić tam należy krótkie streszczenie strony.
- Najważniejszą zawartość na stronie z słowami kluczowymi należy umieścić na górnej części strony.
- Nie należy oszukiwać robotów robiąc ukryty tekst lub przekraczać dozwoloną ilość powtórzeń słów kluczowych w znacznikach meta. Jeśli wyszukiwarka sama strony nie zsanuje, za jakiś czas konkurencja zrobi wszystko możliwe.