Blokowanie dostępu robotom wyszukiwarek do strony
Przechowujesz na stronie informacje, do których dostęp mają tylko zarejestrowani użytkownicy? Nie pozwól, żeby roboty wyszukiwarek zapisywały te dane - skorzystaj z poniższych rozwiązań, ażeby również im zablokować dostęp.
#1: Plik robots.txt
Ten plik tekstowy jest sprawdzany przez roboty wyszukiwarek. Można go wykorzystać do zablokowania określonych lokalizacji na serwerze, wykorzystując specjalny protokół Robots Exclusion Protocol.
Plik "robots.txt" umieszcza się w katalogu głównym strony, aby zablokować wszystkie roboty wyszukiwarek (gwiazdka "*" określa wszystkie roboty). Należy skorzystać z poniższego kodu:
Disallow: /
- user-agent - określa które roboty mają przestrzegać podane warunki
- disallow - określa lokalizację która jest blokowana
Podanym sposobem zablokujemy wszystkie katalogi wraz z plikami, które znajdują się na serwerze w katalogu głównym strony ("Disallow: /").
Jeżeli chcemy zablokować np. robotowi wyszukiwarki Google, tylko określone katalogi wraz z ich zawartością, należy:
Disallow: /dokumenty/
Disallow: /kopie-robocze/dokument.html
#2: Deklaracja znacznika META
Taką deklarację należy umieścić w ramach HEAD, w dokumencie HTML.
- index - indeksowanie wszystkiego
- noindex - brak indeksacji
- follow - indeksowanie stron, do których można dotrzeć przez linki
- nofollow - brak indeksacji stron, do których linki znajdują się na danej witrynie
- none - odpowiednik noindex, nofollow
- all - odpowiednik index, follow
Podobne porady
- mod_rewrite w praktyce – przyjazne, krótkie adresy URL
- Top 30: Najpopularniejsze czcionki
- Skrypt obliczający Google Pagerank (PR)
Komentarze (2)
-
Dobry, zetelny artykuł.
No ale, jesli masz aplikacje zabezpieczoną logowaniem, i poprzez uprawnienia odcina się dostęp do pewny katalogów/url, to i tak nie zostanie zaindexowane przez google.----
Pzdr
Rafal
Co do sposobu nr 2. Słyszałem że nie wszystkie roboty wyszukiwarek przestrzegają tego metatagu...