Тег Robots.txt Vs Meta Robots: Який найкращий?

Чому файл robots.txt?
Обмеження Robots.txt
Параметри Robots.txt
Директива Wildcard для символів Robots.txt
Тестування файлу robots.txt за допомогою інструментів для веб-майстрів
Тег мета-роботів
Тег мета роботів проти Robots.txt

Джерело зображення: https://www.flickr.com/photos/peyri/48825808/

Файл robots.txt, також відомий як протокол виключення роботів, має на меті надати веб-майстрам можливість контролювати, які сторінки роботів (які зазвичай називаються павуками) можуть сканувати та індексувати на своєму сайті. Типовий файл robots.txt, розміщений на сервері вашого сайту, повинен містити URL вашого файлу sitemap і будь-які інші параметри, які ви хочете встановити.

Якщо робот хоче відвідати сторінку на вашому веб-сайті, перш ніж він зробить це, він перевірить ваш файл robots.txt (розміщений на www.domain.com/robots.txt - з урахуванням регістру, якщо ви називаєте його Robots.TXT, він не працюватиме ) і бачить, що файл robots.txt містить такі виключення:

User-agent: *

Заборонити: /
"User-agent: *" повідомляє роботові, що це правило стосується всіх роботів, а не тільки пошукових систем або роботів Google.

"Disallow: /" повідомляє роботам, що заборонено відвідувати будь-які сторінки цього домену. При створенні файлу robots.txt ви повинні бути обережні, які параметри ви встановлюєте, так як якщо ваш файл robots.txt виглядає як приклад вище, це означає, що ваш веб-сайт не буде скановано Google!

Примітка. Деякі роботи ігноруватимуть ваш файл robots.txt, оскільки він є лише директивою, і таким чином все одно буде доступ до сторінок вашого сайту незалежно. Це звичайно шкідливі боти, які можуть збирати інформацію з вашого сайту. Деякі з них можуть бути шкідливими, навіть якщо ви створили розділ у файлі robots.txt, щоб виключити його з сканування вашого сайту, оскільки ці роботи зазвичай ігнорують ваш файл robots.txt, це було б невдало. Блокування IP-адреси робота може бути можливим, але оскільки ці спамери зазвичай використовують різні IP-адреси, це може бути стомлюючим процесом.

Чому файл robots.txt?

Деякі веб-майстри вважають, що тому, що вони хочуть, щоб усі роботи могли сканувати весь свій сайт, їм не потрібен файл robots.txt, однак це не так. Файл robots.txt повинен містити місцезнаходження вашої мапи сайту, тому павуки, особливо павуки пошукових систем, легше отримувати доступ до всіх сторінок вашого сайту. Вам також потрібно мати файл robots.txt на місці, якщо ви перебуваєте в процесі розробки нового сайту, який живе на вашому сервері, але ви не хочете, щоб він ще був індексований Google. Якщо ви використовуєте файл robots.txt, переконайтеся, що ви розумієте, що ви виключаєте із сканування, оскільки це лише одна помилка, щоб весь сайт не був сканований!

Обмеження Robots.txt

Важливо пам'ятати, що використання файлу robots.txt як засобу захисту та приховування конфіденційної інформації - це не тільки погана практика, але й порушення Закону про захист даних, якщо інформація зберігається неналежним чином. Доступ до файлу robots.txt може здійснювати будь-хто, а не лише роботи, тому, якщо на вашому сайті є будь-яка інформація про те, що ви не хочете бути переглянутою будь-ким іншим, окрім тих, для кого вона призначена, тоді найбільш безпечним є захистити паролем сторінку / документ.

Інструкції у файлі robots.txt є лише директивами
Інструкції, які ви оголосите у файлі robots.txt, не мають можливості керувати поведінкою павуків на вашому сайті, але можуть розрізняти, які сканери можуть і не можуть отримати доступ до вашого сайту. Проте, якщо такі законні сканери, як Googlebot та інші сканери пошукових систем, дотримуватимуться правил, зазначених у файлі robots.txt, інші сканери можуть просто ігнорувати правила у вашому файлі robots.txt або взагалі не дивитися на нього.

Синтаксис у вашому файлі robots.txt може по-різному інтерпретуватися різними сканерами

Важливо, що при створенні файлу robots.txt ви знаєте, що правильний синтаксис для вирішення конкретних веб-сканерів як директив, які легко читати Googlebot, не може бути зрозумілий іншим веб-сканерам, що означає, що вони не зможуть дотримуватися інструкцій поставили на місце.

Директиви у вашому файлі robots.txt не завадять посиланням URL на інших сайтах

Google дотримуватиметься вказівок у вашому файлі robots.txt, що означає, що будь-які файли, які ви заборонили, не будуть скановані або індексовані, однак це не видалить усі сліди вашої URL-адреси від Google взагалі. Посилання на ваш сайт на інших сайтах, таких як каталоги та текстові посилання на інших веб-сторінках, все одно відображатимуться в результатах пошуку Google, оскільки ви не можете вносити зміни на інші сайти, використовуючи файл robots.txt. Тим не менш, щоб запобігти появі URL у будь-якому місці в SERP Google, ви можете використовувати комбінацію методів блокування URL-адрес, таких як захист паролем і додавання мета-тегів директиви індексації до вашого HTML поряд з забороною доступу сканера до вашого robots.txt.

Параметри Robots.txt

У вас є ряд опцій, коли йдеться про ваш файл robots.txt, і те, що ви хочете, щоб він містив, нижче наведено кілька прикладів, які можуть допомогти вам створити ваш!

Чутливість справи
Директиви Robots.txt є чутливими до регістру, тому якщо ви заборонили /logo-image.gif директивою буде блокувати http://www.domain.com/logo-image.gif але http://www.domain.com/Logo-Image .gif все одно буде доступним для роботів.

Дозволити всім роботам сканувати весь ваш сайт
User-agent: *
Заборонити:

Виключіть всіх роботів (шкідливих і ботів Google) з усього сайту
User-agent: *
Заборонити: /

Виключіть певного робота з певної папки / файлу на своєму веб-сайті
User-agent: Examplebot
Заборонити: / no-robots /

Примітка : Ви можете мати тільки одну папку / файл у рядку "Disallow:", якщо у вас є більше ніж одне місце, яке потрібно виключити, вам доведеться додати більше рядків Disallow.

Дозволити одного конкретного робота і виключити всіх інших роботів
User-agent: Googlebot
Заборонити:

User-agent: * Disallow: / Виключити конкретного робота User-agent: SpamBotDisallow: /

Оголошення файлу sitemap у файлі robots.txt
User-agent: *
Заборонити:
Мапа сайту: http://www.domain.com/sitemap.xml

Примітка : декларація sitemap має бути абсолютним URL, а не відносним URL

Виключіть всіх роботів з усієї папки, крім одного файлу / зображення
User-agent: *
Заборонити: / мої-фотографії
Дозволити: /my-photos/logo.jpg

Директива Wildcard для символів Robots.txt

Пошукові системи, такі як Google і Bing, дозволяють використовувати маски в файлах robots.txt, так що вам не потрібно перераховувати безліч URL-адрес, оскільки вони містять однакові символи.

Заборонити: * мобільний

Наведена вище директива блокує сканерів, які отримують доступ до будь-яких URL-адрес вашого веб-сайту, які містять термін "мобільний", наприклад

/ мобільний
/ послуги / мобільна оптимізація
/ blog / значення-з-мобільного-ppc-торгів
/images/mobile.jpg
/phone/mobile34565.html

Іншою шаблоною, яку можна використовувати у файлі robots.txt, є символ "$".

Заборонити: * .gif $

Директива прикладу блокує сканери від доступу до будь-якої URL-адреси, яка містить тип файлу “.gif”. Символи підказок можуть бути надзвичайно потужними і повинні використовуватися обережно, оскільки з наведеним вище прикладом $ wildcard блокує будь-які файлові шляхи, які також містять “.gif”, наприклад, /my-files.gif/blog-posts.

Тестування файлу robots.txt за допомогою інструментів для веб-майстрів

Якщо у вас є обліковий запис з Інструментами для веб-майстрів і підтвердили свою URL-адресу, можна скористатися інструментом тестування robots.txt. Використовуючи цей інструмент, ви можете перевірити зміни у файлі robots.txt і побачити вплив, перш ніж його налаштувати. Ви також можете побачити попередні версії файлу і подивитися, який рядок у файлі robots.txt блокує певну сторінку, це може запобігти помилкам і втраті трафіку / доходу.

Ви також можете ввести URL-адресу, щоб перевірити, чи вона заблокована директивою у файлі robots.txt, і легко змінити її відповідно. Інструмент можна знайти у спадному списку сканування в Інструментах для веб-майстрів, перевірте ваш зараз!

Тег мета-роботів

Що стосується SEO, якщо ви хочете заблокувати Google від сканування певної сторінки на вашому веб-сайті та індексування її на сторінках результатів пошуку, то найкраще використовувати тег мета-роботів, щоб повідомити їм, що їм дозволено доступ до цієї сторінки, але не показувати його в видачах. Ваш мета-тег роботів повинен виглядати таким чином і розміщуватися в розділі <head> вашого веб-сайту:

Якщо ви бажаєте заборонити індексації вмісту на вашому веб-сайті сканеру та запобігти його відстеженню будь-якого з посилань, тег мета-роботів виглядатиме так:

Огляд основних команд тегів мета-роботів:

Індекс - Усі пошукові системи можуть індексувати вміст цієї веб-сторінки
Follow - Усі пошукові системи можуть сканувати через внутрішні посилання на веб-сторінці
Noindex - запобігає включенню призначеної сторінки до індексу
Nofollow - запобігає роботам Google за допомогою будь-яких посилань на сторінці. Зауважте, що це відрізняється від атрибуту посилання rel = ”nofollow”.
Noarchive - запобігання показу кешованих версій сторінки в видачах
Nosnippet - запобігає кешуванню сторінки та описи, які відображаються під сторінкою в SERP
NOODP - запобігання опису проекту Open Directory для сторінки, яка замінює опис, встановлений вручну для цієї сторінки
Noimageindex - запобігає індексації зображеннями на сторінці Google
Notranslate - запобігає перекладу сторінки в сервіси Google

Ви можете використовувати декілька команд у тезі мета-роботів. Якщо ви хочете, щоб сторінка вашого веб-сайту не кешувалася всіма пошуковими системами, а також запобігали змінам описів Open Directory, використовуючи такі команди: noarchive і NOODP. Тег мета-роботів виглядатиме так:

Якщо ви хочете, щоб сканери не індексували цю веб-сторінку, але виконували внутрішні посилання на цій сторінці, мета-робот-тег виглядав би так. Це позитивна позиція SEO, тому що якщо будь-які посилання йдуть на сторінки, які ви не хочете індексувати, ми все одно хочемо, щоб співвідношення посилань з посиланням проходило через решту сайту.

Тег мета роботів проти Robots.txt

Загалом, якщо ви бажаєте деіндексировать сторінку або каталог з результатів пошуку Google, ми пропонуємо скористатися мета-тегом "Noindex", а не директивою robots.txt, використовуючи цей метод під час наступного сканування вашого сайту буде деіндексировано, що означає, що вам не доведеться надсилати запит на видалення URL-адреси. Тим не менш, ви можете використовувати директиву robots.txt у поєднанні з видаленням сторінки "Інструменти для веб-майстрів", щоб зробити це.

Використання тега мета-роботів також гарантує, що ваш обліковий запис не буде втрачено, за допомогою команди "слідувати".

Файли Robots.txt є найкращими для заборони цілого розділу сайту, наприклад, категорії, тоді як мета-тег є більш ефективним при заборі окремих файлів і сторінок. Можна вибрати як мета-робот-тег, так і файл robots.txt, оскільки жоден з них не має повноважень над іншим, але "noindex" завжди має повноваження над "індексними" запитами.

Назад до блогу Txt?
Txt?