Czym jest plik robots.txt i jak go poprawnie przygotować?
Czym jest plik robots.txt i jak go poprawnie przygotować?
Celem wszystkich działań pozycjonerskich jest zwiększenie widoczności danej strony w wynikach wyszukiwania. W końcu chcemy aby nasza witryna pojawiła się jak najwyżej w rankingu Google a to przełożyło się na wzrost ruchu i liczbę klientów. Na tym opiera się bowiem pozycjonowanie stron internetowych. Może się jednak zdarzyć, że w wynikach wyszukiwania pojawią się podstrony naszej witryny które wcale nie powinny być widoczne. Jak się przed tym ustrzec? Odpowiedzią jest plik robots.txt Czym jest plik robots.txt i jak go poprawnie przygotować dowiecie się z dalszej części naszego artykułu.
Zacznijmy zatem od tego, że plik robots.txt to swoistego rodzaju komunikator pomiędzy robotami wyszukiwarki Google a naszą stroną. Gdy roboty Google trafiają na daną stronę to w pierwszym kroku szukają właśnie owego pliku. Plik ten jest napisany językiem zrozumiałym dla robotów Google i ma zasugerować im, które zasoby naszej witryny powinny one pominąć podczas indeksacji. Mogą to być całe podstrony, pliki graficzne, style lub też skrypty.
Wiemy zatem już czym jest plik robots.txt. Teraz zastanówmy się co powinniśmy na naszej stronie ukryć przed wścibskim ,,wzrokiem” robotów Google. Jest to szczególnie istotne w przypadku sklepów internetowych które to posiadają bardzo wiele podstron, z których część jest całkowicie niewartościowa pod względem pozycjonowania i może jedynie przysporzyć problemów. Mowa tutaj o niebezpiecznej duplikacji treści.
Podstrony takie jak koszyk danego klienta, etapy procesu zakupowego czy też panel klienta to tylko z niektórych elementów, które powinny być ukryte przed indeksacją. Przez swoją specyfikę mogą one spowodować w wynikach wyszukiwania Google więcej szkody niż korzyści. Warto zatem ukryć je wykorzystując do tego celu plik robots.txt.
Posiadając taką wiedzę możemy już przystąpić do odpowiedniego przygotowania pliku robots.txt. Trzeba tutaj bowiem wykazać się szczególną ostrożnością. Jedną błędną regułą we wspomnianym pliku jesteśmy w stanie nieopatrzenie zablokować te strony na których indeksacji nam zależy.
Przyjrzyjmy się zatem konstrukcji podstawowych wpisów w tym pliku. Najpierw wprowadzamy polecenie, a następnie po dwukropku definiujemy do czego ma się odnosić. I tak komenda:
- User-agent: – pozwala określić do jakiego bota indeksującego skierowany jest nasz plik robots.txt
User-agent: Googlebot
- Disallow: – ta komenda deklaruje których miejsc na stronie roboty nie powinny indeksować. Na przykład:
Disallow: /katalog/podstronazkoszykiem.html
- Allow: – ta komenda natomiast deklaruje zawartość, którą chcemy udostępnić robotom indeksującym. Składnia jest podobna jak dla polecenia disallow:
Allow: /katalog/podstronadoineksacji.html