<
  • Главная
Статьи

Чорний квадрат Рунета: Індекси цитування сайтів Рунета :: аналітика

  1. Цілі, завдання і методи На сьогоднішній день авторитетність веб-сайту є дуже важливою його характеристикою:...
  2. Google PageRank в Рунеті
  3. Аналіз розподілу PR по сайтам
  4. Яндекс.тІЦ
  5. Кореляція ТИЦ і PR
  6. Медіанне значення ТИЦ
  7. висновки

Цілі, завдання і методи

На сьогоднішній день авторитетність веб-сайту є дуже важливою його характеристикою: від авторитетності залежать позиції у видачі пошукових систем, рекламні надходження сайтів і багато іншого. Запропонована Google модель авторитетності сайту грунтується на індексі цитування: чим більше посилаються на сайт, тим він авторитетніше і тим більшу вагу має посилання з нього на інший сайт.

Інформацію про індекс цитування можна отримати безпосередньо від пошукових систем:

  • Google - доступні дані Google PageRank (PR) у вигляді цілого числа від 0 до 10. Імовірно, значення PageRank безпосередньо використовується Google при ранжируванні результатів. Google PageRank розраховується для кожної сторінки (документа) інтернет-сайту.
    Імовірно, величина PageRank є логарифмічною тобто збільшення її на одиницю означає зростання цитованості на порядок (можливо, двійковий).
  • Yandex - доступна величина тИЦ (Тематичного Індексу Цитування). За словами представників Яндекса, тИЦ не впливає безпосередньо на ранжування в результатах пошуку, з іншого боку в описі тИЦ зазначено, що спроби маніпулювання їм розглядаються як маніпулювання видачею. тИЦ розраховується для окремих сайтів (або для великих розділів сайтів, описаних в каталозі Яндекса). При розрахунку тИЦ використовуються тільки посилання з сайтів, проіндексованих Яндексом.
    Судячи з розкиду значень тИЦ, тематичний індекс цитування є сумою ваг окремих посилань, які не піддаються нелінійним перетворенням.
  • Webalta - доступна величина Webalta Rating (WR), правда принципи його розрахунку не опубліковані, що робить його нецікавим для цього дослідження.

Завданнями цього дослідження були:

  • Вивчити розподіл значень індексів цитування для сайтів Рунета, що покриваються проектом Чорний квадрат.
  • Перевірити гіпотезу про те, що різні методики підрахунку дають добре скоррелировать результати.

дані

Аналізувалися індекси цитування для WWW-сайтів в доменах другого рівня в TLD .RU і .SU. Список доменів був зафіксований на момент початку дослідження (24 вересня 2006 року) - 477 494 сайта, які відповідають таким умовам:

  • сайт має ім'я http://www.domain.ru (su) або http://domain.ru (su).
  • сайт успішно відповів на HTTP-запит до головного сторінці;
  • сайт не є дзеркалом іншого сайту в доменах RU / SU.

Отримання Google PageRank вироблялося до початку масового перерахунку індексу цитування, яке почалося 28-29 вересня 2006 р Отримання тематичного ІЦ Яндекса вироблялося в початку жовтня 2006 року для того ж списку доменів.

Google PageRank в Рунеті

Визначення Google PageRank вироблялося шляхом запиту до toolbarqueries.google.com. У разі, коли у www.site.ru і site.ru були різні PR, бралося більше значення. Далі в тексті Toolbar PageRank, PageRank і PR вживаються як синоніми.

Розподіл величини Google PR для відібраних доменів виглядає наступним чином:

Google PageRank Кількість сайтів 9 1 * 8 13 7 136 6 1 197 5 7 185 4 27 883 3 60 186 2 67 405 1 48 221 0 265 268 * єдиний сайт з PR = 9 був створений спеціально для накачування PR як дзеркало сайту php. net. Після жовтневого перерахунку Google індексу цитування Google він має PR = 3

Вважається, що величина PageRank, що віддається Google у вигляді цілого числа в діапазоні 0-10 - це логарифм істинного значення PageRank, використовуваного при ранжируванні.

Аналіз розподілу PR по сайтам

Побудуємо графік в координатах PR / кількість сайтів. По горизонтальній осі - Toolbar PageRank (вже логарифмічна величина), по вертикальній - логарифм кількості сайтів з таким PR:
Побудуємо графік в координатах PR / кількість сайтів
Звичайне для WWW-сторінок розподіл цитованості виглядає в логарифмічних координатах як пряма лінія (див статтю про види мереж , Де приклади залежностей детально розбираються), однак для головних сторінок сайтів Рунета виходить залежність, характерна для цитування в наукових роботах: значно менша частка документів з екстремально низькими індексами цитування. В обох випадках зміна виду розподілу може бути пояснено самоцитування (вчені посилаються на власні роботи, другі сторінки сайтів - на головний сторінку).

Шум в області PR 0-2 пояснюється, по всій видимості, округленнями величини PR після логарифмування (див. Нижче розділ про індекс цитування Яндекса). Незважаючи на шум, поліном другого порядку (в логарифмічних координатах) описує ці дані з коефіцієнтом кореляції 0.98.

Яндекс.тІЦ

Тематичний індекс цитування Яндекса (далі в тексті ТІЦ) був отриманий шляхом ручного перегляду всіх 477494 сайтів браузером з встановленим Yandex.Bar (ліцензія Яндекса забороняє автоматичне звернення до їх сервісу). Роботу виконувала тисяча китайців, які розділили чорний квадрат на подквадратікі і чесно їх проклікалі.
272969 сайтів (з розглянутих 477494) мають ТІЦ менше 10, інші значення ТИЦ лежать в діапазоні від 10 до 110000. Для зручності порівняння з Google PR, дані були розкладені на 9 логарифмічних класів за формулою: Lcy = ROUND (ln (cy) /1.375 ), 1).

Розподіл величин ТИЦ для розглянутих сайтів виглядає наступним чином:

Клас (logCY) Діапазон значень ТІЦ Кількість сайтів 8 59 880-236 800 2 7 15 140-59 870 34 6 3 830-15 130 298 5 970-3 820 3 730 4 250-960 26 098 3 70-240 58 308 2 20-60 75 147 1 10 40 908 0 <10 272 969 З таблиці видно, що логарифмирование початково-лінійного індексу цитування призводить до шуму в області малих значень. У той же час, розподіл сайтів по логарифмічним класах практично точно повторює аналогічний графік для PageRank (див. Нижче).

Кореляція ТИЦ і PR

Виведемо на графік в логарифмічних координатах одночасно розподіл сайтів з PR та по логарифму ТИЦ.
Виведемо на графік в логарифмічних координатах одночасно розподіл сайтів з PR та по логарифму ТИЦ
Як видно з графіка, для перших п'яти (з дев'яти) логарифмічних класів, є практично точний збіг функцій розподілу (сайтів по класах). Це дозволяє стверджувати, що Toolbar PageRank отриманий шляхом логарифмування цілих значень індексу цитування, а шум в області малих значень викликаний, в першу чергу, помилками округлення.

В області високих значень індексу цитування два графіка розподілу значимо розходяться (на діаграмі наведені графіки полиномов другого порядку, що описують, відповідно, розподіл сайтів з PR та по ТИЦ, кожен з них має коефіцієнт кореляції з вихідними даними на рівні 0.98). Як ми бачимо, кількість сайтів з високим ТИЦ падає швидше, ніж кількість сайтів з високими значеннями PR. Це може пояснюватися багатьма причинами:

  • Google будує індекси цитування по всьому WWW-сторінок, а Яндекс - тільки по російськомовному подмножеству. В результаті, максимальний індекс цитування за Яндексом буде менше.
  • Google враховує всі сайти однаково (відповідно до їх вагою, отриманим при розрахунку PageRank). ТІЦ, згідно опису враховує тематичну близькість. Тематична близькість, по всій видимості, визначається близькістю рубрик каталогу Яндекса. Таким чином, відсутній в каталозі сайт має менше шансів отримати високий ТИЦ. При цьому:
    • близько половини сайтів з PR> 4 відсутні в каталозі Яндекса;
    • але 3/4 сайтів з ТІЦ> 1000 присутні в каталозі.
    Іншими словами, отримати високий ТИЦ важче, ніж високий PR, а отже почесніше.

Медіанне значення ТИЦ

Для сайтів з позитивними PR і ТИЦ (всього таких сайтів 162941) була побудована таблиця медіанний значень ТІЦ для заданого PR: PR кількість сайтів з ТІЦ> 0 Медіанне значення ТИЦ 8 11 900 * 7 114 1 400 6 1 066 750 5 6 411 350 4 24 609 160 3 50 929 80 2 50 618 40 1 29 183 20 * Даних по сайтам з PR = 8 недостатньо для розрахунку статистично-достовірного значення медіанного ТИЦ

Порівнюючи дані індексів цитування конкретного сайту з цією таблицею можна визначити "міжнародність" або "рунетность" даного сайту: у "більш рунетного" сайту ТИЦ буде більше медіанного.

висновки

  • Логарифмічність Google Toolbar PageRank можна вважати доведеною.
  • Високий ТИЦ зустрічається в Рунеті рідше високого PageRank, а значить високий ТИЦ почесніше.

Подяки

Автор дякує Костянтина Рощупкина за конструктивну критику.



Новости
  • Виртуальный хостинг

    Виртуальный хостинг. Возможности сервера распределяются в равной мере между всеми... 
    Читать полностью

  • Редизайн сайта

    Редизайн сайта – это полное либо частичное обновление дизайна существующего сайта.... 
    Читать полностью

  • Консалтинг, услуги контент-менеджера

    Сопровождение любых интернет ресурсов;- Знание HTML и CSS- Поиск и обновление контента;-... 
    Читать полностью

  • Трафик из соцсетей

    Сравнительно дешевый способ по сравнению с поисковым и контекстным видами раскрутки... 
    Читать полностью

  • Поисковая оптимизация

    Поисковая оптимизация (англ. search engine optimization, SEO) — поднятие позиций сайта в результатах... 
    Читать полностью