<
  • Главная
Статьи

Наскільки популярний білоруську мову в Байнет?

Але ні для кого не секрет, що мова титульної нації нашої держави (білоруський), хоч і є державним, але не дуже популярний серед населення Білорусі. На ньому розмовляє зовсім невеликий відсоток громадян. Він користується популярністю хіба що в певних політичних колах, в шарах інтелігенції, серед деяких представників молоді і, мабуть, у сільських жителів (у вигляді горезвісної «трасянку").

Зрозуміло, це дуже сумно, що один з європейських мов знаходиться, якщо не на межі вимирання, то вже точно в скрутному становищі. Не знаходячи достатньої підтримки з боку держави, білоруську мову живе і розвивається багато в чому завдяки ентузіастам. А для них одним із способів самовираження є інтернет, де можна писати хоч по-російськи, хоч по-білоруськи, хоч по-монгольські, і ніхто не дорікне тобі: «ой мужчина, гаварице нармальна, я вас не панімаешь».

Той факт, що інтернет є територією відносної свободи, наштовхнув на думку дослідити наскільки белорусскоязичен, якщо можна так висловитися, білоруський інтернет. До слова, в Байнет не так вже й багато сайтів, в порівнянні з інтернет-сегментами інших держав. Отже, можна мало не кожен ресурс перевірити на предмет того, яку мову на ньому використовується. Перевірити, звичайно ж, не вручну, а максимально автоматизувавши цей процес.

Етап 1. Збір бази даних адрес сайтів байнета

Благо інформацію про білоруських сайтах можна легко роздобути, завдяки різного роду каталогом, пошукачам і т.п. Для дослідження було обрано каталог сайтів байнета з сайту www.akavita.by . Це один з найбільш старих і повних каталогів сайтів білоруського сегменту Мережі. Більшість сайтів цього каталогу «живі», але не всі регулярно оновлюються.

На момент звернення до каталогу (30 липня 2015 г.) в ньому містилися відомості про 5315 сайтах, адміністратори яких визнали їх частиною байнета і зареєстрували в каталозі. Це звичайно ж не весь Байнет, але як кажуть працівники статистичних органів, вибірка репрезентативна. І дійсно, вона охоплює досить великий шматок білоруського інтернету.

Спочатку були ідеї скористатися пошуковою видачею Google або Яндекс і зібрати всі сайти доменної зони .by. Але ж в силу ряду причин білоруські сайти часто мають домен верхнього рівня відмінний від рідного .by. Причому ті сайти, які розраховані на білоруську аудиторію, і мають білоруськомовний контент часто і доменні імена мають в зонах .org, .net, .com і інших. Тому вирішено було зупинитися саме на готовому каталозі сайтів. Спарс адреси та назви сайтів з готового каталогу було справою не складним і на ньому детально зупинятися не будемо. В результаті була отримана база даних на локальному комп'ютері, з якої і велася подальша робота.

Етап 2. Розробка і обкатка алгоритму визначення мови.

Як визначити російською або українською мовою написаний текст? Ні, з людиною все зрозуміло. Той, хто більш-менш знайомий з обома мовами, без праці визначить мову тексту. Наше завдання - навчити комп'ютер визначати мову.

Перше що спало на думку повірити текст на предмет наявності в ньому символів «і», «ў», а також «і», «ь» і «щ». Перші два будуть свідчити про те, що текст білоруськомовний, інші - про те, що це російська мова.

Для перевірки роботи алгоритму вирішено було пройтися по назвах сайтів, які заповнюють адміністратори, реєструючи свій сайт в каталозі. Справа в тому, що, реєструючи сайт на Акавіте, користувач заповнює його назву російською, білоруською та англійською (за бажанням) мовами. Цікаво буде дізнатися, якими користуються відвідувачі в білоруському назві сайту використовували білоруської мову, а не продублювали російська назва. Заодно і алгоритм перевіримо.

Перший прогін дозволив визначити мову близько 75% заголовків. Але залишилася тисяча з невеликим сайтів, в назвах яких не містилося перерахованих вище букв, теж вимагала визначення мови, а вручну це робити не хотілося. Згадалися і інші відмінності між російським і білоруською мовами. Наприклад, недавно побачений на просторах інтернету білоруськомовний прикол «жи, ши піши з літарай И». Тобто ці буквосполучення є відмітною ознакою білоруської мови.

Додавши до алгоритму це і ще кілька правил, знову пропустив через нього базу сайтів. На цей раз «за бортом» залишилися 300 з гаком сайтів, чия мова алгоритм визначити так і не зміг. Після невеликого доопрацювання були відсіяні сайти, назва яких містило тільки латинські букви. Решта були перевірені вручну. Мова багатьох з них точно встановити не можна. Наприклад, таку назву, як «Футбол» може бути з рівним успіхом віднесено як до російського, так і до білоруської мови. І подібних назв набралося досить багато.

Етап 3. Підбиття підсумків перевірки заголовків

Переважна більшість заголовків перевіряються сайтів, містило не більше 5 слів. Але, як не дивно, 48 назв містили суміш російської та білоруської мов (ось вже воістину країна трасянка). Найбільший внесок в цю справу внесли сайти районних газет. Самі назви газет в більшості своїй білоруські, а ось заголовки сайтів, написані у вигляді «Сайт районної газети« Зара над Віліяй », якраз і є прикладом змішування двох мов в одному короткому реченні.

Підсумки аналізу мов заголовків 5315 сайтів байнета наведені на діаграмі.

Підсумки аналізу мов заголовків 5315 сайтів байнета наведені на діаграмі

У таблиці - абсолютні значення:

Мова заголовків сайтів

кількість сайтів

білоруський

1102

Русский

3826

Змішаний рус. + Бел.

48

інший

204

Не визначене

135

Відзначимо, що мова, позначений як «Інший» це в переважній більшості випадків або англійська, або просто написання адреси сайту замість назви.

Отже, трохи більше 20 відсотків білоруськомовних назв це вже непогано. Подивимося, як йдуть справи з текстами на сайтах.

Етап 4. Перевірка контенту сайтів

Після того, як алгоритм визначення мови тексту був обкатаний на заголовках, залишалася справа за малим - пройтися по всіх адресах з каталогу, завантажити головну сторінку кожного сайту і перевірити мову текстів на ній. Лізти вглиб сайтів особливого сенсу не було. Це значно збільшило б час роботи програми, але не дало б результатів, принципово відрізняються від отриманих.

Відзначимо, що значна частина сайтів (828) з тих чи інших причин не змогла бути перевірена. Це або недоступні сайти, або ті, в настройках безпеки яких не дозволено відвідувати їх невідомим роботам.

Крім того, на 204 сайтах робот не знайшов ознак ні російської, ні білоруської мов. Вдалося встановити, що іноді це було викликано невірно розпізнаної кодуванням. На діаграмі і в таблиці мову таких сайтів позначений як «Інший».

Так чи інакше, знайти ознаки російського і / або білоруської мови вийшло більш ніж на 4000 сайтів. Цього матеріалу цілком достатньо, щоб робити певні висновки.

Отже, результати - на діаграмі.

Отже, результати - на діаграмі

Що ж, білоруський виглядає якось сумно: 0%. В абсолютних цифрах це 13. Тобто всього 13 сайтів, де контент чисто білоруськомовний. У таблиці - це і інші абсолютні значення.

Мова контенту сайтів байнета

кількість сайтів

білоруський

13

Русский

3617

Змішаний рус + бел

653

інший

204

Не визначене

828

Чесно кажучи, очікував чогось більшого від білоруської мови. Ні, звичайно з російським йому змагатися не вийде, але хоча б відсотків 10 мати можна було б. Але, як то кажуть, маємо те що маємо.

Можна навіть сказати, що мовна картина в інтернеті повторює картину в суспільстві. Зрештою люди говорять і пишуть на тій мові на якому думають і на якому їм зручно говорити і писати. Можна було б в черговий раз пошкодувала на відсутність підтримки для білоруської мови з боку держави, сказати про те, що кожен повинен починати з себе розмовляти по-білоруськи. Але це все філософія. А реальність така, що процеси глобалізації зараз йдуть такими темпами, якими не йшли ніколи раніше. І мабуть, білоруську мову, як і багато інших мов світу з часом буде поглинений більш потужним мовою країни-сусідки.

Дмитро Макарський

Як визначити російською або українською мовою написаний текст?


Новости
  • Виртуальный хостинг

    Виртуальный хостинг. Возможности сервера распределяются в равной мере между всеми... 
    Читать полностью

  • Редизайн сайта

    Редизайн сайта – это полное либо частичное обновление дизайна существующего сайта.... 
    Читать полностью

  • Консалтинг, услуги контент-менеджера

    Сопровождение любых интернет ресурсов;- Знание HTML и CSS- Поиск и обновление контента;-... 
    Читать полностью

  • Трафик из соцсетей

    Сравнительно дешевый способ по сравнению с поисковым и контекстным видами раскрутки... 
    Читать полностью

  • Поисковая оптимизация

    Поисковая оптимизация (англ. search engine optimization, SEO) — поднятие позиций сайта в результатах... 
    Читать полностью