Jak wyindeksować podstronę? 2 komentarze


Google PipesZdarza się, że podczas optymalizacji witryny natrafimy na podstrony, które należy usunąć z indeksu wyszukiwarki. Jak zauważyłem – również na forum Google dla Webmasterów – nie wszyscy potrafią prawidłowo wyindeksować treści ze swojej witryny i zabezpieczyć je przed ponownym indeksowaniem. Jak zatem skutecznie i szybko usunąć treści z indeksu wyszukiwarki?

Metatagi „index” i „noindex”

Standardowo w sekcji <head> indeksowanej strony stosuje się zapis:

<meta name=”robots” content=”index, follow”>

To jest informacja dla robota wyszukiwarki, aby podstronę zaindeksował w wyszukiwarce (index) oraz aby podążał dalej po linkach, które na tej podstronie odnajdzie (follow).

Aby skutecznie usunąć podstronę z indeksu wystarczy umieścić w nagłówku strony (w sekcji <head>) odpowiedni metatag:

<meta name=”robots” content=”noindex, follow”> lub <meta name=”robots” content=”noindex, nofollow”>

Pierwszy zestaw poleceń informuje boty, aby nie indeksowały treści z danej podstrony, a jednocześnie zezwala się im na przechodzenie po linkach na kolejne podstrony. Drugi zestaw poleceń zabrania robotom na indeksowanie i podążanie na kolejne strony po linkach znajdujących się na tejże podstronie.

UWAGA!

Typowym błędem popełnianym podczas próby wyindeksowania adresu z wyszukiwarki jest dodanie blokady dla robotów w pliku robots.txt na serwerze!

Zapis w pliku robots.txt

disallow: adrespodstronydowyindeksowania.php

sprawi, że bot wyszukiwarki NIE odczyta meta tagów „noindex” z nagłówka podstrony, ponieważ ma zabroniony do niej dostęp i w efekcie nie wyindeksuje adresu!

Jak przyspieszyć proces wyindeksowania podstrony?

Google do wyindeksowania podstrony musi odczytać nasz zmieniony meta tag. Jeśli rzadko wpada na naszą stronę, proces może trwać wiele dni czy tygodni. Ale w Narzędziach dla Webmasterów istnieje funkcja Pobierz jako Google:

Pobierz jako Google

Wystarczy pobrać podstronę i przesłać ją do indeksu, by bot Google wszedł na stronę i zaktualizował swoje dane. W tym przypadku, jeśli w pliku robots.txt są zapisy blokujące dostęp do zgłaszanej strony, pojawi się odpowiedni komunikat.

 

Dlaczego nie warto stosować blokady w pliku robots.txt?

Jeżeli usuniemy podstronę z indeksu i zablokujemy do niej dostęp w pliku robots.txt, może zdarzyć się sytuacja, w której wyszukiwarka i tak wyświetli do niej link w wynikach wyszukiwania. Dzieje się tak, jeżeli Google znajdzie w sieci linki do zablokowanej strony.

disallow w robots.txt na przykładzie adwords.google.pl

Powyższy screen nie oznacza, że Google strzeliło fackupa i zatrudnia głąbów. Od technicznej strony wszystko jest OK, a komenda w robots.txt nie miała w założeniu ukryć strony, tylko zapobiec zbędnemu zużywaniu zasobów na indeksowanie tej subdomeny.

Różnice między Disallow a noindex

Noindex w meta tagu pozwala robotom na swobodne pobieranie i analizowanie treści ze strony, a zapobiega tylko i wyłącznie pojawianiu się tych treści w wynikach wyszukiwarki.
Disallow w pliku robots.txt jest jak zamknięte drzwi do mieszkania – robot nie wejdzie do środka, jednak jeżeli na domofonie jest nazwisko i nr mieszkania, to wykorzysta te dane do swoich celów.

Jak zabezpieczyć dane na serwerze przed indeksowaniem i pobieraniem przez boty?

Od naprawdę skutecznego reglamentowania dostępu do danych jest plik .htaccess. W każdym katalogu możemy umieścić osobny plik .htaccess z innymi ustawieniami. Możemy np. zablokować dostęp do katalogu wszystkim oprócz wybranych adresów IP.

Order Deny, Allow
Deny from all
Allow from 00.000.000.000 (#tu adres naszego IP)

Powyższy zapis zabezpieczy dane nie tylko przed botami, ale przed innymi ciekawskimi użytkownikami.

Loading Facebook Comments ...

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

 

2 komentarzy do “Jak wyindeksować podstronę?

  • Marek Płatek Autor wpisu

    Podstrony można usuwać z różnych powodów, aby usunąć bezwartościowe adresy wygenerowane przez CMS, usunąć duplikaty, etc. Z zasady warto indeksować tylko wartościowe podstrony, a resztę usunąć.