<
  • Главная
Статьи

Як перемогти корчеватель

Анти-спам для наукового світу: створена програма, яка протистоїть відомій програмі, яка генерує псевдо-наукові тексти. Хто переможе в цій «гонці озброєнь»?

Все почалося десять років тому, коли три аспіранти з Массачусетського технологічного інституту створили програму SCIGen , Яка вміла генерувати довільні наукоподібні статті з комп'ютерної тематики. Як то кажуть, збулася мрія всіх лінивих студентів та науковців - по одному кліку мишки комп'ютер видавав текст з графіками, схемами і навіть списком літератури, який можна було відразу брати і відправляти в науковий журнал або на конференцію. Чи варто говорити, що сенсу в таких статтях не було ніякого, зате написано все це було цілком науковою мовою, який з першого погляду можна цілком прийняти за серйозне дослідження.

Фото: Nic McPhee / Flickr.

Фото: Richard Bott / Flickr.

<

>

Автори комп'ютерного коду зовсім не були ледачими неробами, які вирішили одним кліком збільшити число своїх публікацій. Їхньою метою програми було показати, що редактори деяких журналів, як і організатори ряду конференцій, крізь пальці дивляться на якість прийнятого матеріалу. Для того, щоб це продемонструвати, наша трійця вибрала один з вподобаних згенерованих «текстів» і відправила його в якості теми своєї доповіді на конференцію з інформатики WMSCI в 2005 році.

Назва цього шедевра в прямому сенсі комп'ютерної думки в російській перекладі звучить приблизно так: «Корчеватель: алгоритм типової уніфікації точок доступу і надмірності» . Текст благополучно прийняли, а авторів запросили виступити на конференції з доповіддю про корчеватель. Таким чином, автори SCIGen на наочному прикладі показали, що якщо навіть такий відверту маячню, як статтю про корчеватель, можна при бажанні опублікувати, то чого вже говорити про якість ряду інших наукових статей. Свою програму аспіранти MIT забезпечили інструкцією і виклали в мережу, після чого їй міг скористатися кожен бажаючий, яких, втім, знайшлося чимало. Корчеватель дотягнувся і до вітчизняної наукової публіцистики. У вересні 2008 року ця стаття була опублікована у виданні, яке входить в список наукових журналів Міністерства освіти. В результаті скандалу, що вибухнув журнал позбувся свого наукового статусу.

Природно, що жодне поважає себе видання не допустить появи у себе таких «статей». Для цього редакція ретельно перевіряє всю інформації в статті, аж до посилань на використовувані джерела. Це велика і трудомістка робота рецензентів, але саме вона забезпечує високий рейтинг журналу і довіру читачів. Ось чому в науковому світі настільки цінується публікація статті в таких журналах як Science або Nature, які служать своєрідним еталоном якості наукового дослідження. Однак навіть серйозні й авторитетні видавництва, буває, допускають помилки. Наприклад, така відома видавнича компанія як Springer, що випускає понад 2000 наукових журналів, в 2014 році знайшла у себе 18 статей, які були згенеровані за допомогою SCIgen. Цих троянських коней світу наукової періодики негайно видалили, але сама уразливість нікуди не поділася. Імовірність, що з якоїсь причини «корчеватель» зможе проникнути на сторінки журналів, все одно залишилося.

Проблемою зайнявся Кирило Лаббе з університету Джозефа Фур'є в Греноблі. Протягом декількох років він вивчав те, як подібні псевдостатьі потрапляють на сторінки видань і як цьому можна протистояти. Результатом його дослідження стала програма SCIDetect - своєрідний спам-фільтр для наукового світу. Розроблений ним алгоритм дозволяє за цілою низкою ознак визначити статтю, написану комп'ютером, а не людиною. І все-таки, чому доводиться створювати одну комп'ютерну програму для боротьби з іншою програмою? Як віруси і спам дісталися до святая святих - науки?

Кількість наукових знань про світ зростає все швидше і швидше, а вчені стають все більш вузькоспеціалізованими. Зараз все менше вчених може похвалитися енциклопедичними знаннями всього на світі, швидше за це вже просто фізично неможливо. Проблема вже не в тому, що гуманітарії не розуміють технарів. Навіть хіміку вже все важче розуміти, чим же займається його колега з сусідньої лабораторії, якщо його дослідження лежать в іншій області. А у рецензентів в видавництвах часом просто не вистачає часу на те, щоб досконально вникнути в тему статті. І ось тут і зростає ймовірність фатальної помилки, коли такий науковий на вигляд корчеватель виходить друком, що приносить дуже серйозної шкоди репутації видання. SCIDetect і схожі програми допоможуть знизити ймовірність таких помилок - подібно спам-фільтрам в поштових клієнтах. Правда виникає цілком закономірне питання - а як обчислити наукову дурість, написану людиною? Але це вже зовсім інша історія.

фото: Richard Bott / Flickr , Nic McPhee / Flickr

за матеріалами Nature , Science і Springer .

Хто переможе в цій «гонці озброєнь»?
І все-таки, чому доводиться створювати одну комп'ютерну програму для боротьби з іншою програмою?
Як віруси і спам дісталися до святая святих - науки?
Правда виникає цілком закономірне питання - а як обчислити наукову дурість, написану людиною?


Новости
  • Виртуальный хостинг

    Виртуальный хостинг. Возможности сервера распределяются в равной мере между всеми... 
    Читать полностью

  • Редизайн сайта

    Редизайн сайта – это полное либо частичное обновление дизайна существующего сайта.... 
    Читать полностью

  • Консалтинг, услуги контент-менеджера

    Сопровождение любых интернет ресурсов;- Знание HTML и CSS- Поиск и обновление контента;-... 
    Читать полностью

  • Трафик из соцсетей

    Сравнительно дешевый способ по сравнению с поисковым и контекстным видами раскрутки... 
    Читать полностью

  • Поисковая оптимизация

    Поисковая оптимизация (англ. search engine optimization, SEO) — поднятие позиций сайта в результатах... 
    Читать полностью