Robots.txt
Co to jest Robots.txt - Definicja
Robots.txt - to plik tekstowy, stosowany w kontekście SEO (Search Engine Optimization), który zawiera wytyczne dla robotów crawlujących odnośnie poszczególnych plików oraz stron, które witryny internetowe powinny zostać zindeksowane, a których nie należy indeksować. Jest to część standardu protokołu Robot Exclusion Protocol.
Zastosowanie pliku robots.txt?
Plik robots.txt jest umieszczany na serwerze witryny internetowej i jest publicznie dostępny pod adresem www.domena.pl/robots.txt. Roboty wyszukiwarek przeglądają plik robots.txt, zanim rozpoczną indeksowanie konkretnej strony internetowej. Plik ten ma kilka zastosowań, takich jak:
- Kontrolowanie dostępu: Plik robots.txt umożliwia administratorom witryn internetowych blokowanie dostępu do określonych obszarów serwisu dla robotów wyszukiwarek. Może być to przydatne, jeśli pewne sekcje witryny zawierają poufne dane lub wymagają uwierzytelnienia.
- Unikanie zduplikowanych treści: Jeśli na witrynie istnieją różne warianty adresów URL prowadzących do tej samej zawartości, plik robots.txt pozwala administratorom wykluczyć niechciane warianty z indeksowania, aby uniknąć problemów związanych z duplikacją treści.
- Zarządzanie częstością indeksowania: Plik robots.txt umożliwia kontrolowanie częstości, z jaką roboty wyszukiwarek powinny odwiedzać witrynę. Dla stron o dużej objętości zawartości lub ograniczonej przepustowości serwera, można skonfigurować preferencje dotyczące częstości odwiedzin, aby zminimalizować obciążenie serwera.
Warto pamiętać, że plik robots.txt to tylko zalecenie dla robotów Google, a nie wymuszenie. Niektóre roboty mogą zignorować reguły zawarte w pliku, dlatego istnieją również dodatkowe metody kontroli dostępności treści na stronie, takie jak nagłówki HTTP czy metatagi noindex.
Jak powinien wyglądać plik robots txt?
Plik robots.txt jest plikiem tekstowym, który powinien być umieszczony w głównym katalogu witryny na serwerze. Oto przykład prostego pliku robots.txt:
User-agent: *
Disallow: /private/
Disallow: /temp/
Disallow: /cgi-bin/
W powyższym przykładzie:
User-agent: * oznacza, że te instrukcje dotyczą wszystkich robotów wyszukiwarek.
Disallow: /private/ oznacza, że katalog "private" powinien zostać zablokowany i roboty Google nie powinny wejść na dany adres URL
Disallow: /temp/ oznacza, że katalog "temp" również powinien zostać zablokowany.
Disallow: /cgi-bin/ oznacza, że katalog "cgi-bin" również powinien zostać zablokowany.
Przy tworzeniu pliku robots ważne jest, żeby zrobić to ostrożnie i zachować ostrożność, aby uniknąć przypadkowego blokowania dostępu do istotnych części witryny. Poniżej znajdują się kilka wskazówek dotyczących tworzenia pliku robots:
Upewnij się, że plik robots.txt ma nazwę dokładnie taką, jaką powinien mieć: "robots.txt".
Zaleca się, aby plik był dostępny pod adresem https ://www.nazwadomeny.com/robots.txt.
Możesz dodać kilka linii z instrukcjami Disallow, aby zablokować określone katalogi lub pliki.
Możesz używać komentarzy, które zaczynają się od symbolu #, aby dodawać objaśnienia do pliku.
Jak edytować plik robots.txt?
Aby edytować plik robots.txt, należy podjąć następujące kroki:
Zaloguj się do serwera: Jeśli jesteś właścicielem lub administratorem witryny, musisz zalogować się do serwera, na którym znajduje się plik robots.txt. Może to wymagać dostępu do panelu kontrolnego hostingu lub uzyskania dostępu do serwera za pomocą protokołu FTP (File Transfer Protocol).
Znajdź plik robots.txt: Przejdź do katalogu, w którym znajduje się plik robots.txt na serwerze. Zazwyczaj jest to główny katalog witryny, ale może być również przechowywany w podkatalogu.
Edytuj plik robots.txt: Za pomocą edytora tekstu otwórz plik robots.txt. Możesz użyć dowolnego edytora tekstowego, takiego jak Notatnik (dla systemu Windows) lub TextEdit (dla systemu Mac).
Dokonaj zmian: W pliku robots.txt mogą znajdować się różne dyrektywy, takie jak Google, Adsense, User Agent, Disallow, Allow itp. Aby dokonać zmian, dodaj lub usuń odpowiednie linie w pliku, zgodnie z oczekiwanym wynikiem.
Zapisz plik: Po dokonaniu zmian w pliku robots.txt zapisz go, zachowując jego oryginalną nazwę.
Prześlij plik na serwer: Jeśli używasz protokołu FTP, użyj klienta FTP, aby przesłać zaktualizowany plik robots.txt z powrotem na serwer. Upewnij się, że nadpisujesz poprzedni plik i zapisujesz go w odpowiednim katalogu.
Sprawdź składnię: Gdy plik robots jest już na serwerze, sprawdź jego składnię, ponieważ w składni powinny znajdować się wyłącznie znaki z kodu ASCII. Możesz skorzystać z narzędzi online, takich jak "Robots.txt Tester" dostępny w narzędziach dla webmasterów Google Search Console lub inne narzędzia dostępne w Internecie.
Ważne jest, aby być ostrożnym podczas edycji pliku robots.txt, ponieważ niewłaściwe zmiany mogą wpłynąć na sposób, w jaki roboty indeksują stronę w wynikach wyszukiwania.