Інтернет-літописці. Сервіси кешування веб-ресурсів

Однак іноді виникає необхідність вискочити з кругообігу оновлень, "зупинити мить" і відновити певний момент в історії того чи іншого веб-ресурсу, будь то пошук підтверджує посилання в абстрактному суперечці на якомусь форумі або точне посилання на джерело в науковій статті або іншої серйозної роботі. Цифрові технології дозволяють побудувати таку "машину часу" для сайтів - це сервіси, які займаються кешуванням веб-сторінок. Вони дають можливість побачити копію веб-сторінки, зроблену в певний момент часу, або познайомитися з проектом, що припинив своє існування. Крім того, свіжа копія веб-сторінки виручить в разі, якщо до оригінального веб-сайту в даний момент з яких-небудь причин немає доступу.
З точки зору користувача, сучасні кешуючий сервіси поділяються на дві великі групи: веб-кеші універсальних інтернет-пошукачів і спеціалізовані сервіси.
Як відомо, інтернет-пошуковики скачують веб-сторінки для подальшого індексування. Це своєрідне «інформаційне сировину», продукт переробки якого - індексна база. Таким чином, кеш є у всіх пошукових систем, різняться тільки умови доступу до нього користувачів і зручність застосування. У даній статті будуть розглянуті нюанси використання веб-кеша найбільш популярних в наших широтах універсальних пошукових систем: "Яндекс" і Google.
Звернутися до кешу Google можна прямо на сторінці результатів пошуку за допомогою посилання «Збережена копія». Ще один варіант - використання в поле пошуку оператора cache: із зазначенням адреси, що цікавить веб-сторінки. Видача такого пошуку - найбільш свіжа копія сторінки. При оновленні кеша збережена копія буде замінена новою. Причому збережена сторінка може виводитися зі спрощеної версткою і без деяких мультимедійних елементів. Вона супроводжується службовим заголовком Google, де повідомляється дата збереження демонстрованої копії.
Схожим чином організований і доступ до кешу "Яндекса": поряд з результатами пошуку пропонується посилання «Копія», що відкриває збережену копію сторінки. Службовий заголовок видається за запитом сторінки (як і в Google, тут демонструється тільки найсвіжіша копія), крім дати «знімка», містить посилання на поточну версію, а також перемикач підсвічування ключових слів із запиту в тексті демонстрованої сторінки.
Перевага цього способу - простота. Основний недолік - відсутність гнучкості. Справа в тому, що звернення до кешу для універсальних пошукових систем є все-таки допоміжної функцією. Вона буває корисна в першу чергу при порушенні доступу до потрібного ресурсу або при наявності інших подібних перешкод, а ось для відновлення «історії» будь-якого проекту підходить погано.
При вирішенні більш складних завдань має сенс звернутися до спеціалізованих ресурсів. Такі проекти веб-кешування мають ряд особливостей. Як правило, вони не просто надають доступ до кешовані сторінки, але і передбачають додаткові інструменти, оптимізовані для роботи з веб-кешем на практиці. Різні акценти в подібних рішеннях призводять до посилення їх індивідуальності: пряма конкуренція декількох проектів з близької функціональністю в цій сфері, як правило, трапляється рідко. З точки зору користувача, це означає наявність вибору спеціалізованих інструментів, оптимальних для вирішення свого кола завдань. Необхідно скасувати, що в даній сфері присутні як безкоштовні, так і комерційні рішення. Нижче будуть розглянуті сервіси з вільним доступом, орієнтовані на приватних користувачів.

Internet Archive Wayback Machine

Цілі роботи Wayback Machine, як і проекту Internet Archive в цілому, - некомерційні. Місія ресурсу полягає в збереженні веб-сайтів як своєрідних культурних артефактів, що характеризують свою епоху. Архів збирається з 1996 р, охоплюючи сайти за останні п'ятнадцять років. Звичайно, це невеликий проміжок для історії, проте в швидко змінюваному медіапросторі за такий час накопичується більш ніж солідний пласт інформації.

Звичайно, це невеликий проміжок для історії, проте в швидко змінюваному медіапросторі за такий час накопичується більш ніж солідний пласт інформації

Проект Wayback Machine - найбільший вільно доступний сервіс
автоматичного кешування веб-сторінок

Характерна відмінність більшості спеціалізованих проектів кешування веб-ресурсів - вибірковість архівування. Все-таки навряд чи можливо, та й потрібно архівувати весь контент Мережі. Наповнення баз Wayback Machine відбувається вибірково, проект архівує в основному великі і популярні ресурси. Перш за все обробляються ресурси, що входять у великі веб-каталоги. Використовуються дані Dmoz, і крім того, до лютого цього року сервіс тісно співпрацював з Alexa. Є у Wayback Machine і власні роботи- «павуки», що виявляють сайти з хорошим індексом цитування. Ресурс також працює з найбільшою
Бібліотекою Конгресу США і Смітсонівський музеєм.
В даний час сервіс доступний в двох варіантах. На сторінці «великого» Internet Archive пропонується класична версія пошукового інтерфейсу, розроблена свого часу у співпраці з Alexa і працює з 2001 р Нова експериментальна версія, яка є, в свою чергу, OpenSource проектом, забезпечує підвищену швидкодію і доопрацьований користувальницький інтерфейс. Попрацювати з нею можна на окремому сайті Waybackmachine.org.
«Класичний» інтерфейс пропонує простий і розширений режим пошуку. В якості простого запиту виступає адреса цікавить веб-сторінки. Розширений режим пропонує непоганий вибір додаткових фільтрів. Зокрема, можна вказати точну часовий діапазон, в якому буде вестися пошук збережених копій сторінок. Доступні і інші інструменти, що допомагають включати і відключати переадресації на знайдених веб-сторінках, а також вибирати типи файлів, за якими вестиметься пошук. Система вміє не тільки виводити сторінки по точному URL, але і пропонувати близькі значення. Перемикач цієї опції також присутній на сторінці розширеного пошуку. Якщо з'явиться необхідність, в результатах пошуку можна включити показ всіх знімків сторінки за один день. І тоді за замовчуванням, якщо їх було зроблено кілька, в видачу потрапить лише один.
Альтернативний спосіб складання запиту - використання спеціально сформованого URL. У найпростішому випадку досить просто вказати адресу цікавить веб-сторінки після слеша в адресі сервісу, наприклад "web.archive.org/http://osp.ru" для сайту нашого видавництва. В такому URL можна використовувати додаткові фільтри. Так, URL "web.archive.org/200501/osp.ru" рівнозначний запиту на пошук усіх копій сайту osp.ru за травень 2005 р
Відповіддю системи буде перейти безпосередньо до збереженої веб-сторінку. Якщо за зазначену в запиті дату збереження сторінки не проводилося, з'являється найбільш близька до цього часу наявна копія. На багатьох кешованих сайтах працюють посилання, також відкривають збережені копії старих веб-сторінок. Іншими словами, це дійсно мережева «машина часу».
Новий інтерфейс Wayback Machine містить тільки форму простого пошуку. Запит, як і в «класичної» версії, - URL потрібної сторінки. Відповідає система значно швидше. Помітно змінилася сторінка видачі - вона представлена у вигляді календаря. На стрічці у верхній його частині виводиться діаграма, що дозволяє візуально оцінити кількість зроблених копій цікавить веб-сторінки. Ціна поділки цієї діаграми - один рік. Після вибору потрібного року на сторінці відкривається календар, де відзначені ті дні, в які система виконувала збереження запитаної користувачем веб-сторінки. Клацання на дату відкриває архівну копію.

Wayback Machine
Оцінка: 4
Мова інтерфейсу: англійська
Розробник: Internet Archive
Сайт: web.archive.org, waybackmachine.org

WebCite

Наступний учасник даного огляду пропонує власний підхід до архівування веб-сторінок. Якщо Wayback Machine заповнює свій архів в автоматичному режимі, аналізуючи каталоги і застосовуючи робота- «павука», то сервіс WebCite пропонує самим користувачам визначати, яка сторінка потребує створення резервної копії, а яка - ні. Всі операції по збереженню сторінок тут виконуються виключно за прямим запитом користувача.

Сервіс WebCite, що виробляє кешування за запитом користувача,
оптимізований для застосування в академічній сфері

У такій моделі архівування інтернет-контенту є своя область застосування. Це в першу чергу створення правильних і гарантовано робочих посилань на мережеві джерела, які можна використовувати при цитуванні. Посилання на першоджерела в публікаціях є хорошим тоном, а в академічному середовищі і в наукових публікаціях вони абсолютно необхідні. Не виняток - посилання на інтернет-ресурси. Ось тут-то і виникає необхідність у резервному архівування веб-сторінок. Адже автору потрібно забезпечити доступ саме до тієї версії веб-сторінки, на яку поставлена посилання, причому навіть після певного часу і незалежно від долі вихідного сайту. Саме цей аспект архівування та став головним для WebCite, що позначилося як на його функціональних можливостях, так і на пропонованому користувачу інтерфейсі. Використовується WebCite безкоштовно, він підтримується за рахунок коштів видавців, які застосовують сервіс, для того щоб забезпечити доступ до публікацій своїх авторів.
Для створення копії веб-сторінки в системі WebCite передбачено кілька інструментів. По-перше, можна скористатися формою на сайті проекту. Вона містить поля власне URL і e-mail, призначене для повідомлень про успішне збереженні або збої. Крім того, пропонується ввести додатковий опис проекту в бібліографічному форматі Dublin Core, призначеному для роботи з інтернет-ресурсами. При заповненні ключових слів дозволено використовувати і онлайнову версію відомого тезауруса MeSH, проте він годиться лише для публікацій медичної тематики.
Другий варіант створення копії набагато зручніше - це додається в браузер букмарклет (невелика JavaScript-програма, що зберігається як браузерна закладка), за допомогою якого копію можна створити прямо в ході серфінгу. Букмарклет генерується системою після вказівки e-mail, який буде потім використовуватися для відправки службових повідомлень. Поля в формі букмарклета збігаються з уже розглянутим вище формою на сайті проекту.
Третій спосіб архівування під назвою Comb призначений для «оптового» архівування ресурсів. Отримавши зазначену в формі посилання, система формує список всіх посилань на цій сторінці. Потім користувачеві пропонується відзначити ті ресурси, які треба заархівувати. Цей режим, зокрема, зручний для обробки великих статей, розбитих на кілька сторінок. Кожна збережена за допомогою WebCite веб-сторінка отримує унікальний ідентифікатор.
Вбудована система пошуку досить проста. З її допомогою можна шукати за ідентифікатором сторінки, а також по URL збереженого матеріалу. Опціонально дозволяється вказати і дату створення копії сторінки. Звичайно ж, можливості і результати «суцільного» пошуку поступатимуться Wayback Machine, але ж і призначення у WebCite інше.

WebCite
Оцінка:

4
Мова інтерфейсу: англійська
Розробник: WebCite
сайт: www.webcitation.org

Peeep.us

Наступний сервіс в палітрі рішень для кешування веб-сторінок знову демонструє оригінальний підхід до проблеми. Проект Peeеp.us, як і WebCite, виробляє архівування веб-сторінок за запитом користувача, однак сфера його застосування далека від академічної. Його, скоріше, варто сприймати як сховище протягом невеликого проміжку часу для інформації, яка не має критичного значення, наприклад, для особистого листування або для швидкого підтвердження своїх слів при спілкуванні в Мережі. Справа в тому, що це приватний проект, і власник ресурсу залишає за собою право видаляти сторінки, до яких не зверталися більше місяця. Технічна основа Peeep.us - платформа Google Apps.

Сервіс Рееер об'єднує функції кешування веб-сторінок і
скор щення довгих URL

Особливість проекту полягає в тому, що він дозволяє зберігати копії веб-сторінок, що знаходяться в закритому доступі, зокрема на ресурсах, які потребують обов'язкової реєстрації. Щоб зберегти приватність, при виготовленні копії захищених сторінках на ній видаляються скрипти і інший активний контент. Інакше кажучи, даний сервіс виступає альтернативою збереженню веб-сторінки стандартними засобами браузера з подальшим відправленням, наприклад по e-mail. Сервіс Peeep в такій ситуації набагато зручніше, оскільки виключає ряд проміжних операцій і тим самим економить час користувачів. Крім того, таке посилання можна швидко передати великій кількості споживачів, помістивши її на блозі або в повідомленні форуму.
На сервісі передбачена реєстрація за допомогою облікового запису Google. Вона не є обов'язковою, зберігати сторінки можна і без аутентифікації. У той же час видалити збережену сторінку мають право тільки зареєстровані користувачі. Список всіх збережених сторінок після реєстрації аккаунта наведено в розділі Your Pages. Там же видаляються стали непотрібними «знімки».
Кешувати сторінку можна прямо на сторінці проекту, вказавши потрібний URL у відповідному полі. Для неї створюється власний короткий URL, тому Peeep можна використовувати і як інструмент для скорочення довгих посилань. Альтернативний варіант збереження веб-сторінки - скористатися встановлюються в браузері Букмарклет. До речі кажучи, кешувати захищену сторінку можна буде тільки з його допомогою.
Після успішного збереження відбувається автоматичне перенаправлення на кешовану сторінку. Крім того, відкривається невелика панелька Peeep, де розташовані кнопки швидкої публікації посилання в Twitter і Facebook.

Peep
Оцінка: 3
Мова інтерфейсу: англійська
Розробник: Cyril Nikolaev
Сайт: www.peeep.us

Корисні програми

Щоб спростити роботу з онлайновими сервісами кешування, можна використовувати допоміжні програми. Найбільш зручні, звичайно ж, доповнення для браузерів. Користувачам Firefox варто звернути увагу на додаток Resurrect Pages. Його можна викликати з контекстного меню відкритої в даний момент веб-сторінки. У російській версії відповідний пункт називається «Воскресити цю сторінку». У вікні доповнення пропонується на вибір вісім найбільших сервісів кешування, на які можна відправити запит. Серед них є і кеші універсальних пошукових систем (Google, Yahoo !, Gigablast), і розглянуті вище спеціалізовані проекти: Internet Archive, WebCite і CoralCDN. Якщо в обраному користувачем кеші не знайшлося копії запитаної сторінки, Resurrect Pages відкриває спеціальну сторінку, де можна повторно відправити свій запит на інший кешуючий сервіс.

Якщо в обраному користувачем кеші не знайшлося копії запитаної сторінки, Resurrect Pages відкриває спеціальну сторінку, де можна повторно відправити свій запит на інший кешуючий сервіс

Доповнення Resurrect Pages
для Firefox дозволяє швидко
провести пошук копій сторінки
в найбільших онлайнових кешах

Не залишилися без допоміжних програм і користувачі інших браузерів. Для Google Chrome і Chromium пропонується дуже схоже розширення під назвою Web Cache. Кнопка цього доповнення відкриває невелику панель, де пропонується вибрати сервіс для відправки запиту на кешовану сторінку. Усього доступно сім сервісів: Google, Yahoo !, Bing, Gigablast, Wayback Machine, CoralCDN \ і WebCite. Кнопка Open All відкриває відразу сім вкладок з результатами з названих джерел. Є і більш прості розширення, зокрема Cache і View Links in Google Cache, призначені виключно для роботи з веб-кешем пошукового гіганта.

Resurrect Pages
Оцінка: 4
Мова інтерфейсу: російська
Розробник: Anthony Lieuallen
Сайт: addons.mozilla.org/en-us/firefox/addon/resurrect-pages/

Think : Студия веб-дизайна