Analiza wiodących plików robots.txt na świecie

Walled Gardens: Strony, które zakazują wszystkim oprócz Google
Boty źle się zachowują
Ogłoszenia o pracy
# 1 airbnb.com/robots.txt
Otrzymuj nowe posty przez e-mail!

Plik robots.txt witryny informuje roboty indeksujące na świecie, jakie pliki mogą i nie mogą pobrać. Działa jako pierwszy strażnik internetu, w przeciwieństwie do blokowania odpowiedzi - pozwala zatrzymać żądania do Twojej witryny zanim to nastąpi. Interesujące w tych plikach jest to, że określa, w jaki sposób webmasterzy zamierzają zautomatyzować procesy, aby uzyskać dostęp do swoich stron internetowych. Chociaż botowi łatwo jest zignorować ten plik, określa on wyidealizowane zachowanie, w jaki sposób powinny działać.

Jako takie pliki te są bardzo ważne. Pomyślałem, że pobiorę plik robots.txt z każdego z milionów najpopularniejszych witryn na świecie i zobaczę, jakie wzory mogę znaleźć.

Mam listę 1 milion witryn z Alexa i napisał mały program pobrać plik robots.txt z każdej domeny. Po pobraniu wszystkich danych uruchomiłem każdy plik za pomocą pytonów urllib.robotparser pakiet i zacząłem patrzeć na wyniki.

Walled Gardens: Strony, które zakazują wszystkim oprócz Google

Jedną z moich przykrych rzeczy są witryny, które pozwalają GoogleBotowi indeksować całą ich zawartość, ale zakazują wszystkim innym. Na przykład plik robots.txt na Facebooku zaczyna się od:

Uwaga: indeksowanie Facebooka jest zabronione, chyba że masz wyraźną pisemną zgodę. Patrz: http://www.facebook.com/apps/site_scraping_tos_terms.php

Jest to trochę hipokryzyjne, ponieważ sam Facebook zaczął od indeksowania stron profilowych studentów Harvardu - dokładnego rodzaju aktywności, którą próbują teraz zakazać innym osobom.

Wymaganie pisemnej zgody, aby istniało przed zezwoleniem na indeksowanie witryny, stoi w sprzeczności z ideałami otwartego internetu. To zniechęca do badań naukowych i stanowi barierę dla wejścia do nowych wyszukiwarek: DuckDuckGo ma zakaz indeksowania Facebooka, podczas gdy Google nie jest na przykład.

W donkiszotowskim wysiłku nazwania i wstydu stron, które angażują się w tego rodzaju zachowania, napisałem prosty skrypt sprawdza domeny, które umożliwiają indeksowanie strony głównej Google - ale zakazują wszystkim innym. Najpopularniejsze znalezione domeny to:

Ograniczyłem się do domen w języku angielskim, dzięki czemu są one znane osobom czytającym ten tekst, ale można zmienić język, aby wyświetlić witryny międzynarodowe. Uwzględniłem również, czy witryna pozwala indeksować stronę główną DuckDuckGo, aby pokazać, jak wiele trudnych bitew nowych wyszukiwarek zaczyna się w tych dniach.

Większość powyższych domen - takich jak Facebook, LinkedIn, Quora i Yelp - ma jedną wspólną cechę. Udostępniają treści generowane przez użytkowników, które mają największą wartość we własnej działalności. Te dane są jednym z najcenniejszych zasobów, jakie mają te firmy, i nie zamierzają oddawać ich za darmo. Aby być uczciwym, te zakazy są często przedstawiane w kategoriach ochrony prywatności użytkowników, takich jak w tym poście od dyrektora ds. technologii Facebooka wyjaśniającego decyzję zakazującą robotom indeksującym lub głęboko Robots.txt Quory, gdzie wyjaśniają, dlaczego zakazali maszyny cofania .

Dalej na liście, a wyniki nie są tak spójne - na przykład nie jest dla mnie jasne, dlaczego census.gov zezwala tylko trzem głównym wyszukiwarkom na dostęp do ich treści, ale zakazuje DuckDuckGo. Można by pomyśleć, że te dane należałyby do Amerykanów, a nie tylko do Google / Microsoft / Yahoo.

Chociaż nie jestem fanem tego rodzaju zachowań, z pewnością rozumiem impuls do białej listy niektórych robotów indeksujących, biorąc pod uwagę wszystkie złe roboty, które tam istnieją.

Boty źle się zachowują

Chciałem wypróbować jeszcze jeden najgorszy robot sieciowy w Internecie, wykorzystując zbiorową opinię o milionach pobranych plików robots.txt. Aby dowiedzieć się, które boty są najgorszymi aktorami, policzyłam, ile różnych domen całkowicie zbanowało agenta użytkownika - a następnie uszeregowano użytkowników według liczby zablokowanych:

Na tej liście jest kilka różnych typów botów.

Pierwsza grupa to roboty indeksujące, które zbierają dane do analizy SEO i marketingu. Firma ta chce uzyskać jak najwięcej danych, aby zasilić swoje analizy - powodując zauważalne obciążenie wielu serwerów. Ahrefs nawet się tym chwali „AhrefsBot jest drugim najbardziej aktywnym robotem indeksującym po Googlebocie” , więc zrozumiałe jest, że ludzie będą się denerwować i blokować. Majestic (MJ12Bot) pozycjonuje się jako narzędzie do analizy konkurencji, co oznacza, że indeksuje witrynę w celu umożliwienia wglądu biznesowego konkurentom - ale także twierdzi, że ma „największy na świecie indeks linków” na stronie głównej .

Druga grupa agentów użytkownika pochodzi z narzędzi, które mają na celu szybkie pobranie strony internetowej do osobistego użytku w trybie offline. Narzędzia takie jak WebCopier , Webstripper i teleport wszystko pozwala szybko pobrać całe witryny na dysk twardy. Problem polega na tym, że wszystkie te narzędzia mają dość szybkie strony, które często są tutaj zakazane.

Wreszcie, istnieją wyszukiwarki, takie jak Baidu (BaiduSpider) i Yandex, które mogą agresywnie indeksować zawartość, obsługując tylko języki / rynki, które niekoniecznie dostarczają mnóstwo wartości do niektórych witryn. Osobiście dostaję niebanalny ruch z obu tych stron, więc nie sugerowałbym też blokowania.

Ogłoszenia o pracy

To znak, że pliki przeznaczone do konsumpcji przez roboty często zawierają reklamy ofert pracy dla inżynierów oprogramowania - zwłaszcza osób zainteresowanych SEO.

Biorąc pod uwagę, że mam tutaj wszystkie te dane, pomyślałem, że ciekawie byłoby zaprezentować światy pierwszą (i prawdopodobnie tylko) tablicę zadań opartą całkowicie na opisach zeskanowanych z plików robots.txt:

Dalej>

# 1 airbnb.com/robots.txt

# /////// # // // # // // # // // //// /// /// # // // /// /// # // /// // //// /// /// (// (// /// //// /// //// /// //// # // /// /// // & ////////// /// (////// /////////// ////////// ///////// /// # // // // // /// /// /// (// /// /// /// /// /// /// # // (/ // / / /// /// /// (// /// /// /// /// /// /// # // // // // /// /// /// ( // //// //// /// /// /// /// # // // // // ////////// /// (// /// /////// /// /// ////////// # / (///// (/ # // //// # // # // /// / // // # ////// ////// # # # Myśleliśmy, że nigdy tego nie zrobisz! # Mamy nadzieję, że w tym pliku poczujesz się jak w domu ... chyba że jesteś niedozwolonym podfolderem # A ponieważ jesteś tutaj, zapoznaj się z naszą kulturą i zespołem: https://www.airbnb.com/careers/departments/engineering # Można nawet zabrać robota do pracy.

W odrobinie ironii Ahrefs.com kto jest twórcą drugiego najbardziej zakazanego bota, który tu zidentyfikowałem, ma również ogłoszenie dla osoby SEO ich plik robots.txt . Również, pricefalls.com poprzedza ogłoszenie o pracę ich plik robots.txt z „Uwaga: Cenniki indeksowania są zabronione, chyba że masz wyraźną pisemną zgodę”.

Cały kod tego posta jest na GitHub .

Opublikowano 18 października 2017 r

Otrzymuj nowe posty przez e-mail!