Robots.txt Vs Meta Robots Tag: Który jest najlepszy?

Dlaczego masz plik robots.txt?
Ograniczenia Robots.txt
Opcje Robots.txt
Dyrektywa Wildcard Robots.txt
Testowanie pliku robots.txt za pomocą Narzędzi dla webmasterów
Meta Robots Tag
Tag Meta Robots vs Robots.txt

Źródło obrazu: https://www.flickr.com/photos/peyri/48825808/

Celem pliku robots.txt, znanego również jako protokół wykluczania robotów, jest zapewnienie webmasterom kontroli nad tym, jakie strony (powszechnie zwane pająkami) mogą indeksować i indeksować w swojej witrynie. Typowy plik robots.txt, umieszczony na serwerze Twojej witryny, powinien zawierać adres URL mapy witryny i wszelkie inne parametry, które chcesz wprowadzić.

Jeśli robot chce odwiedzić stronę w witrynie, zanim to zrobi, sprawdza plik robots.txt (umieszczony na stronie www.domain.com/robots.txt - wielkość liter jest rozróżniana, jeśli nazywasz go Robots.TXT, to nie zadziała ) i widzi, że plik robots.txt zawiera następujące wykluczenie:

Agent użytkownika: *

Disallow: /
„User-agent: *” mówi robotowi, że ta zasada dotyczy wszystkich robotów, nie tylko wyszukiwarki lub botów Google.

„Disallow: /” informuje roboty, że nie wolno odwiedzać żadnych stron w tej domenie. Podczas tworzenia pliku robots.txt należy uważać na ustawione parametry, tak jakby plik robots.txt wyglądał jak w powyższym przykładzie, co oznacza, że witryna nie będzie indeksowana przez Google!

Uwaga: niektóre roboty zignorują plik robots.txt, ponieważ jest to tylko dyrektywa, a więc nadal będą uzyskiwać dostęp do stron w witrynie. Są to zazwyczaj złośliwe roboty, które mogą zbierać informacje z Twojej witryny. Niektóre z nich mogą być szkodliwe, nawet jeśli utworzysz sekcję w pliku robots.txt, aby wykluczyć ją z indeksowania witryny, ponieważ te roboty zazwyczaj ignorują plik robots.txt, ale nie powiedzie się. Blokowanie adresu IP robota może być opcją, ale ponieważ spamerzy zazwyczaj używają różnych adresów IP, może to być męczący proces.

Dlaczego masz plik robots.txt?

Niektórzy webmasterzy uważają, że ponieważ chcą, aby wszystkie roboty mogły indeksować całą witrynę, nie potrzebują pliku robots.txt, ale tak nie jest. Twój plik robots.txt powinien zawierać lokalizację mapy witryny, dzięki czemu pająki, zwłaszcza roboty wyszukiwarek, mają łatwiejszy dostęp do wszystkich stron witryny. Musisz także mieć plik robots.txt, jeśli pracujesz nad nową witryną, która jest NA ŻYWO na twoim serwerze, ale nie chcesz, aby była ona indeksowana przez Google. Jeśli korzystasz z pliku robots.txt, upewnij się, że rozumiesz, co wykluczasz z indeksowania, ponieważ tylko jedna pomyłka wymaga, aby cała witryna nie była indeksowana!

Ograniczenia Robots.txt

Ważne jest, aby pamiętać, że używanie pliku robots.txt jako środka ochrony i ukrywania poufnych informacji to nie tylko zła praktyka, ale może również naruszyć ustawę o ochronie danych, jeśli informacje są przechowywane niewłaściwie. Dostęp do pliku robots.txt może mieć każdy, nie tylko robot, więc jeśli masz jakieś informacje na swojej stronie, których nie chcesz oglądać przez nikogo innego niż to, dla którego jest przeznaczony, najbezpieczniejszym rozwiązaniem byłoby chronią hasło stronę / dokument.

Instrukcje w pliku robots.txt są tylko dyrektywami
Instrukcje zadeklarowane w pliku robots.txt nie mają możliwości kontrolowania zachowania pająków w witrynie, ale są w stanie rozróżnić, które roboty indeksujące mogą uzyskać dostęp do witryny. Jednak podczas gdy legalne roboty indeksujące, takie jak Googlebot i inne roboty indeksujące wyszukiwarki, będą przestrzegać zasad określonych w pliku robots.txt, inne roboty mogą po prostu zignorować reguły w pliku robots.txt lub w ogóle go nie oglądać.

Składnia w pliku robots.txt może być różnie interpretowana przez różne roboty

Ważne jest, aby podczas tworzenia pliku robots.txt znasz poprawną składnię adresowania określonych robotów internetowych, ponieważ dyrektywy łatwe do odczytania przez Googlebota mogą nie być zrozumiałe dla innych robotów indeksujących, co oznacza, że mogą nie być w stanie wykonać instrukcji wprowadziłem w życie.

Dyrektywy w pliku robots.txt nie uniemożliwią odniesienia twojego adresu URL do innych witryn

Google będzie postępować zgodnie z dyrektywami zawartymi w pliku robots.txt, co oznacza, że wszelkie pliki, których nie zezwolono, nie będą indeksowane ani indeksowane, jednak nie spowoduje to całkowitego usunięcia wszystkich śladów adresu URL z Google. Odniesienia do Twojej witryny w innych witrynach, takich jak katalogi i tekst zakotwiczenia na innych stronach internetowych, nadal będą pojawiać się w wynikach wyszukiwania Google, ponieważ nie możesz dokonywać zmian w innych witrynach za pomocą pliku robots.txt. Aby jednak zapobiec pojawianiu się adresu URL w dowolnym miejscu w SERPie Google, można użyć kombinacji metod blokowania adresów URL, takich jak ochrona hasłem, i dodanie tagów meta dyrektywy indeksującej do kodu HTML wraz z niedozwoleniem dostępu robota indeksującego w pliku robots.txt.

Opcje Robots.txt

Masz szereg opcji, jeśli chodzi o twój plik robots.txt, a to, co chcesz, aby zawierało, poniżej to kilka przykładów, które mogą pomóc ci stworzyć twoje!

Rozróżnianie wielkości liter
W dyrektywach Robots.txt rozróżniana jest wielkość liter, więc jeśli wyłączysz /logo-image.gif dyrektywa zablokuje http://www.domain.com/logo-image.gif, ale http://www.domain.com/Logo-Image .gif nadal będzie dostępny dla robotów.

Zezwalaj wszystkim robotom na indeksowanie całej witryny
Agent użytkownika: *
Zakazać:

Wyklucz wszystkie roboty (złośliwe i roboty Google) z całej witryny
Agent użytkownika: *
Disallow: /

Wyklucz określonego robota z określonego folderu / pliku na swojej stronie internetowej
User-agent: Examplebot
Disallow: / no-robots /

Uwaga : Możesz mieć tylko jeden folder / plik na linię „Disallow:”, jeśli masz więcej niż jedną lokalizację, którą chcesz wykluczyć, będziesz musiał dodać więcej linii Disallow.

Zezwól na jednego konkretnego robota i wyklucz wszystkie inne roboty
User-agent: Googlebot
Zakazać:

User-agent: * Disallow: / Wyklucz określonego robota User-agent: SpamBotDisallow: /

Deklarowanie mapy witryny w pliku robots.txt
Agent użytkownika: *
Zakazać:
Mapa strony: http://www.domain.com/sitemap.xml

Uwaga : Deklaracja mapy witryny musi mieć bezwzględny adres URL, a nie względny adres URL

Wyklucz wszystkie roboty z całego folderu, z wyjątkiem jednego pliku / obrazu
Agent użytkownika: *
Disallow: / moje zdjęcia
Zezwól: /my-photos/logo.jpg

Dyrektywa Wildcard Robots.txt

Wyszukiwarki, takie jak Google i Bing, umożliwiają stosowanie symboli wieloznacznych w plikach robots.txt, dzięki czemu nie trzeba wymieniać wielu adresów URL, ponieważ zawierają one te same znaki.

Disallow: * mobile

Powyższa dyrektywa zablokowałaby robotom indeksującym dostęp do wszelkich adresów URL w witrynie zawierającej termin „telefon komórkowy”, takich jak:

/mobilny
/ services / mobilna optymalizacja
/ blog / important-of-mobile-ppc-licytowanie
/images/mobile.jpg
/phone/mobile34565.html

Inną dyrektywą wieloznaczną, której można użyć w pliku robots.txt, jest znak „$”.

Disallow: * .gif $

Dyrektywa przykładowa blokuje przeszukiwaczom dostęp do dowolnego adresu URL zawierającego typ pliku „.gif”. Symbole wieloznaczne mogą być bardzo potężne i powinny być używane ostrożnie, tak jak w powyższym przykładzie, symbol wieloznaczny $ blokowałby wszystkie ścieżki plików, które zawierają również „.gif”, takie jak /my-files.gif/blog-posts.

Testowanie pliku robots.txt za pomocą Narzędzi dla webmasterów

Jeśli masz konto w Narzędziach dla webmasterów i zweryfikowałeś swój adres URL, możesz skorzystać z narzędzia do testowania robots.txt. Za pomocą tego narzędzia możesz przetestować zmiany w pliku robots.txt i zobaczyć wpływ, zanim ustawisz go na żywo. Możesz także zobaczyć poprzednie wersje pliku i zobaczyć, która linia w pliku robots.txt blokuje określoną stronę, może to zapobiec popełnianiu błędów i utracie ruchu / przychodów.

Możesz również wprowadzić adres URL, aby sprawdzić, czy jest on zablokowany przez dyrektywę w pliku robots.txt i łatwo ją odpowiednio zmienić. Narzędzie można znaleźć w menu rozwijanym Indeksowanie w Narzędziach dla webmasterów, sprawdź je teraz!

Meta Robots Tag

Jeśli chodzi o SEO, jeśli chcesz zablokować Google indeksowanie określonej strony w Twojej witrynie i indeksowanie jej na stronach wyników wyszukiwania, najlepiej jest użyć tagu robotów Meta, aby poinformować ich, że mogą uzyskać dostęp do tej strony, ale nie pokazuj go w SERPach. Twój tag Meta powinien wyglądać tak i być umieszczony w sekcji <head> Twojej witryny:

Jeśli chcesz uniemożliwić robotowi indeksowanie treści na swojej stronie i uniemożliwić mu śledzenie któregokolwiek z linków, Twój tag meta-robotów będzie wyglądał następująco:

Przegląd głównych poleceń tagów meta robotów dostępnych:

Indeks - wszystkie wyszukiwarki mogą indeksować zawartość na tej stronie
Śledź - wszystkie wyszukiwarki mogą indeksować wewnętrzne linki na stronie
Noindex - uniemożliwi włączenie wskazanej strony do indeksu
Nofollow - uniemożliwi Google botom śledzenie jakichkolwiek linków na stronie. Zauważ, że różni się od atrybutu łącza rel = ”nofollow”.
Noarchive - zapobiega wyświetlaniu w pamięci podręcznej wersji strony w SERP
Nosnippet - zapobiega buforowaniu strony i wyświetlaniu opisów poniżej strony w SERP
NOODP - zapobiega opisowi projektu Open Directory dla strony zastępującej opis ręcznie ustawiony dla tej strony
Noimageindex - zapobiega indeksowaniu Google obrazów na stronie
Notranslate - zapobiega tłumaczeniu strony w SERPach Google

Możesz użyć wielu poleceń w tagu meta robotów. Jeśli chcesz zapobiec buforowaniu strony na Twojej stronie przez wszystkie wyszukiwarki, a także uniemożliwić opisom Open Directory zastąpienie bieżących opisów, użyj następujących poleceń: noarchive i NOODP. Twój tag meta-robotów będzie wyglądał następująco:

Jeśli chcesz, aby roboty indeksowały tę stronę, ale śledziły wewnętrzne linki na tej stronie, twój tag meta-robotów będzie wyglądał tak. Jest to zalecana pozycja SEO, ponieważ jeśli jakiekolwiek linki trafiają na strony, które nie mają być indeksowane, nadal chcemy, aby link equity z linku przepływał przez resztę witryny.

Tag Meta Robots vs Robots.txt

Ogólnie rzecz biorąc, jeśli chcesz dezindeksować stronę lub katalog z wyników wyszukiwania Google, sugerujemy użycie metatagu „Noindex” zamiast dyrektywy robots.txt, używając tej metody przy następnym indeksowaniu strony zostanie dezindeksowany, co oznacza, że nie będziesz musiał wysyłać żądania usunięcia adresu URL. W tym celu możesz jednak nadal korzystać z dyrektywy robots.txt w połączeniu z usuwaniem stron Narzędzi dla webmasterów.

Użycie tagu meta robots zapewnia również, że twoje equity link nie zostanie utracone, za pomocą polecenia „follow”.

Pliki Robots.txt najlepiej uniemożliwiają wyświetlanie całej sekcji witryny, na przykład kategorii, podczas gdy znacznik meta jest bardziej skuteczny w blokowaniu pojedynczych plików i stron. Możesz użyć zarówno tagu meta robots, jak i pliku robots.txt, ponieważ nie ma on władzy nad drugim, ale „noindex” zawsze ma uprawnienia nad żądaniami „indeksu”.

Powrót do bloga Txt?
Txt?

Think : Студия веб-дизайна