Як створити фільми онлайн - покрокова інструкція та видеоурок: Сайтобаза

Крок перший - пошук відповідного донора
Наступним кроком буде власне парсинг цього сайту
Крок три - обробка контенту онлайн фільмів
Назва фільму
Дивитися такий-то фільм онлайн

Мене практично кожен день просять створити сайт по онлайн фільмів та серіалів. Природно контент копіпаст, так як писати опису до тисяч фільмів буде дуже і дуже дорого.

Попит на послугу дуже великий, а часу у мене катастрофічно мало, тому я вирішив створити цю інструкцію.

Трохи теорії. Для нормального функціонування онлайн-кінотеатру потрібно власне база фільмів. Базу можна:

Створити самому. Потрібно накачати фільмів, перетиснути їх в формат .flv (можна і не віджимати, але тоді буде витрата трафіку більше). Залити це все до себе на хостинг і роздавати. Витрати тільки на хостинг будуть в межах $ 150 / місяць. Звичайно і прибуток буде зовсім інший
Використовувати сторонні розширення для перегляду фільмів онлайн з торрентів. наприклад ось це . Але тоді користувачам потрібно встановити розширення для браузера, а вони на це дуже рідко погоджуються. Хоча плюсів у цього рішення дуже і дуже багато.
Брати контент у інших сайтів - інших онлайн кінотеатрів, хостингів відео - рутуб, вконтакте ... Природно якщо людина просить скопіювати онлайн фільми, так він і не думати до них контент, тому беремо відразу і опис фільмів, і постер, і скріншоти.

У цій інструкції я вам покажу як зібрати фільми з трьох різних джерел, привести все в божеський вид і розмістити у себе на сателітах. Тобто йдемо за третім варіантом. Буду показувати на прикладі платних інструментів, в майбутньому я зроблю подібну інструкцію, за допомогою якої можна буде зробити абсолютно безкоштовно сайт з онлайн фільмами. Отже, нам знадобиться:

парсер контенту Content Downloader ;
Програма для обробки і імпорту контенту в движки зеброїда ;
Якщо що потрібно буде ще - напишу в міру необхідності.

Отже, поїхали:

Крок перший - пошук відповідного донора

Сайтів з онлайн фільмами в інтернетах дуже багато, але багато хто з них зроблені з помилками, маю недоліки і захист. Тому шукати будемо дуже уважно. Кинувши клич в google, я отримав подібного роду картину

Розглянемо детальніше які пропозиції є:

http://zonakino.net/ - гарний сайт, але недоліки - всього 540 фільмів і фільми зберігаються на сторонньому сервері, так що скоріше за все варто захист, і на нашому домені фільми простий оне будуть відтворюватися.
http://tvbest.com.ua/ - 3953 записи. Але подивившись вихідний код сторінки, я виявив що плеєр використовує якийсь додатковий код для перегляду, значить швидше за все варто захист від таких хитрунів як ми
http://novinkikino.net/ - 16 сторінок по 10 записів. Мало контенту. Плюс побіжно переглянувши пару записів, я побачив велику кількість реклами. Невже нам таке сміття
http://onlainfilm.ucoz.ua/ - 6962 записи. Переконливо, правда скільки з них робітників? Правда варто захист
...
сподобався мені http://www.kinopolus.ru/ - багато контенту, багато різних джерел для перегляду серіалів і що дуже зручно - багато фільмів розміщуються на серверах vkontakte.ru - надійність і швидкість роботи.

До нього я вибрав ще кілька подібних сайтів. Щоб ви повністю не копіювали мою роботу - виберете таких донорів самі.

Зроблю короткий відступ і розповім як я: [wpspoiler name = "Визначаю кількість записів"] Варіант раз - більшість сайтів зроблені на DLE, у цього движка при установці пропонується варіант ЧПУ тип2. Що значить що в URL адресі сторінки крім транслітерувати заголовка статті вказується також ID записи. І чим більше цей ID - тим більше записів. На сайті з 6 прикладу у нас останній запис має ID 15447 - що означає що на сайті є (або було) 15447 статей. Що дуже навіть ок. Подібна фішка є у багатьох двигунів. Потрібна буде допомога - в коменти. Варіант два - дивіться в футере сайту нумерацію сторінок. На нашому прикладі 946 сторінок. Множимо на 10 записів на сторінці - отримуємо вже 9460 - приблизно стільки (+/- 10) статей з фільмами на цьому донора. [/ Wpspoiler] [wpspoiler name = "Дивлюся на якому сервері розміщені фільми"] Цьому ви навчитеся дуже швидко. Наприклад фільми, розміщені на Вконтакте, помітні відразу. ось інтерфейс вконтакстовского плеєра, зліва внизу написано) Ну а вобще я заходжу на сторінку з плеєром і дивлюся вихідний код сторінки (ctrl + U) і дивимося розташування файлик з відео. Ось як на цій сторінці буде виглядати . З власного досвіду я вже знаю що скоріше за все файли доступні для перегляду тільки з цього домену. Якщо ви сумніваєтеся - збережіть сторінку на диск, і відкрийте. Якщо буде відображатися відео - значить все ок, в іншому випадку - шукайте іншого донора [/ wpspoiler]

Наступним кроком буде власне парсинг цього сайту

Показувати я буду по скриншотам, а внизу розбирати польоти

Це стартовий адресу, на основі якого ми будемо генерувати всі сторінки. Спочатку адреса сторінки був http://www.kinopolus.ru/ 13724 -brak-po-zaveshhaniyu.html. З огляду на особливості ЧПУ CMS DLE, я знаю що ці цифри id статті, і якщо поставити іншу цифру - відкриється інша стаття (якщо вона існує). На місці цифри я поставив змінну {num}, генерувати будемо в 5-6 пункті
"Парс задані частини документа", "Використовувати шаблон виводу". Ці пункти ми налаштуємо за наступними скриншотам.
Прибираємо галочку "Завантажувати зображення". Вони нам зараз не потрібні, тільки зайвий сміття на вінчестері, і як наслідок при великих обсягах - гальмування.
Вкажіть зручний шлях, куди зберігати файло. Під кожен проект я створюю окрему папочку, так зручніше потім шукати.
Тут вказуємо першу і останню цифру, яку програма повинна підставляти замість {num}. А {num} - ми задали в тому місці, де CMS DLE підставляв id записи. Зрозуміло, або пояснити детальніше?
Ну і кнопочка собсно запуску генератора сторінок для парсинга

Ну от і все. Тепер потрібно задати що парсити на конкретних сторінках. Отже, тиснемо кнопочку біля пункту # 2, навпроти "Парс задані частини документа". Отримуємо ось таку картину

Це власне задаємо кордону парсинга. Задати кордону - значить вибрати які елементи на сторінці нам потрібні. Адже всю сторінку з усім сміттям нам не потрібно, правди? Потрібен тільки контент, який включає в себе - назва статті, опис фільму і сам фільм. Також непогано було б отримати категорію, в якій цей фільм є
Це, власне кажучи, кнопочка для завдання кордонів, натиснувши на неї - потрапляємо в чудовий світ сторінки всередині - вихідного коду сторінки. Про це трохи нижче.
Ну і третій пункт - настройка одержуваного результату. Його ми будемо робити як задамо кордону парсинга.

Отже, тиснемо другу кнопочку і отримуємо:

Насамперед потрібно включити браузер. Він з'явиться в нижній частині панелі (на скріншоті він вже включений). З браузером нам буде легше орієнтуватися
Отже для початку ми вибираємо де у нас знаходиться заголовок статті. Можна просто клацнути на елементі внизу, і КД автоматом вас перекине до потрібного коду (там де # 4 і # 6).
Ще можна виділити шматок тексту і скопіювавши його потрапляємо в меню пошуку по html коду, ну це в тому випадку, якщо пункт 2 вам не допоміг знайти потрібний елемент.
Як бачимо, біля заголовка статті зліва і справа стоїть html код. Так як це движок, і форматування у кожної сторінки повинно бути однакове, ми, включаючи логіку, розуміємо що той код який зліва ми можемо використовувати для завдання початку парсинга
Ось тут задаємо початок парсинга. Просто виділяємо елемент з # 4, і тиснемо кнопочку 5
За аналогією з четвіркою - код справа - що закриває тайтл, значить його можна використовувати для завдання кінця кордону парсинга
Ось в цьому пунктик
На даний момент Content Downloader підтримуємо 20 звичайних кордонів парсинга. Щоб не плутатися - запам'ятаємо (або запишемо), що межа парсинга # 1 у нас відповідає за заголовок статті
Зберігаємо налаштування цієї сторінки і переходимо до завдання кордонів парсинга # 2

Щоб не плутатися - запам'ятаємо (або запишемо), що межа парсинга # 1 у нас відповідає за заголовок статті Зберігаємо налаштування цієї сторінки і переходимо до завдання кордонів парсинга # 2

Я задав кордону по етоу елементу
Так як бачу візуально що він найближче до тематичної частини, після нього відразу йде картинка і власне текст
Хоча можливо було правильніше чіпляти за цей елемент, так як він нормально виражений в html коді, і скоріше за все не змінюється на інших сторінках. Але все ж в я ризикну - потім роботи буде менше з очищення контенту від сміття
А тут я поступив зовсім навпаки, поставив по закінченню посту - ну якщо уважно подивитися на html код сторінки включивши логіку і зрозумівши англійське слово "post-data"
Хоча логічніше було б задати по початку цього дива, і позбутися від купи сміття (# 6), але я не впевнений в цьому діві, можливо він є тільки на декількох сторінках

По суті у нас вже є заголовок, і є стаття з відео. Нижче 4 пункту можна побачити що є і категорія. Я задаю її в межах парсинга # 3.

Тиснемо готове справа внизу і переходимо до "шаблонами виведення"

Тут все досить просто. Тут задається шаблон, за яким буде виводиться результат. Як ми пам'ятаємо - межа # 1 у нас заголовок статті, межа # 2 - сама стаття і # 3 - рубрика. Що б зручніше було імпортувати в зеброїда і не втрачати структури документа я поставив на перше місце рубрику, потім назва фільму і опис фільму з самим фільмом.

У зеброїда стандартний імпорт з html сторінки спрацює і зрозуміє мою структуру. Головне - назва категорії виділити тегом H1, а назва статті виділити тегом H2. тоді все буде ок;)

Ну що ж, тиснемо "Готово", переходимо на головне вікно, зберігаємо проект (обов'язково зберігайте, раптом що не так - що б потім швидко можна було переробити). Ну і стартуйте. Через деякий час весь сайт Спарс в безліч окремих файлів, готових до імпорту в зеброїда.

Крок три - обробка контенту онлайн фільмів

Ну тут можна залишити мої стандартні настройки.

Якщо ж у вас зеброїда зі стандартного набору, не забудьте додати на вкладці "Пост обробка" додати в список виключення більше тегів, а то отримаєте замість контенту з фільмами трохи так кашу;)

І ось, ми імпортували (у вас там буде багато більше записів, але мені для показу буде досить і цього). І у нас вийшов повний звіздець.

І у нас вийшов повний звіздець

Як бачимо - зеброїда правильно розпізнав де у нас рубрика, а де стаття. Але сам перегляд фільму додав в новостворену категорію.

[Wpspoiler name = "Це сталося тому ..."] Та все дуже просто - раз зеброїда створив нову категорію, значить щось виділялося тегом H2 в статті. А виділялася напис перед самим плеєром "Перегляд фільму такого-то". Разом у нас вийшло стаття виду

Назва фільму

Опис фільму, всі справи ...

Дивитися такий-то фільм онлайн

Коди плеєрів фільмів Зрозуміло що такі справи нас не влаштовують. Думаю в найближчому часі таку біду унеможливлять в зеброїда, але поки немає апдейта - я покажу як виходжу з ситуації я. Трохи нижче;) [/ wpspoiler]

Нас це нихт не влаштовує. Для вирішення питання ми будемо застосовувати сучасні нанотехнології і кмітливість. Ну звичайно нам ще знадобиться відмінна софтинка з очищення тексту - [download id = "9"].

Потрібно буде - як-то розпишу функціонал і можливості. Зараз же скажу коротко - програма дозволяє візуально налаштувати роботу регулярних виразів і так фільтрувати і чистити текст, що ви і ніколи і не думали про таких можливостей. Програма російськомовна, раджу хоча б мигцем глянути весь функціонал. Зараз же нам знадобиться пошук / заміна. [Wpspoiler name = "Завдання"] Є дублювання тегів в одному окремо взятому файлі. Перші теги h1, h2 у нас йдуть правильно, потмо в статті домішувати зайві теги h1 і h2, які ламають структуру. Потрібно - прибрати все теги h1 і h2 крім перших. [/ Wpspoiler] [wpspoiler name = "Рішення"] Перейменувати все теги h1 в h3, а h2 в h4. Потім перейменувати тільки перший тег h3 назад в h1, аналогічно вчинити з h4. Тільки перший тег! [/ Wpspoiler]

Рішення візуально я зроблю в відео. Ця проблема, я сподіваюся, буде усунена в найближчих версіях зеброїда.

Ну і далі я займуся банальної очищенням контенту і приведення ось цього сміття

з ось таким ось зовнішнім виглядом

в ось таку красу за кодом

яка буде виглядати ось так (там де недовантаження картинка - там плеєр, з ним все ок, просто не відображається)

Після того як я почищу контент, я проводжу такі процедури:

Додам мітки (ключові слова) до кожного запису. Це дозволить трохи оптимізувати сторінку з контентом (адже вони у нас будуть прописані в метатегах)
Зробити внутрішню перелинковку всередині сайту по частоупотребляемим ключовими словами, що підвищить швидкість індексації сайту, розподілить і дасть більше ваги внутрішнім сторінкам і як наслідок - підніме по НЧ запитам
Додам планування публікацій за часом - це створить видимість робочого, постійно поповнюється сайту, без будь-яких рухів тіла з нашого боку
Скачаю все зображення до себе на хостинг. Це дозволить виключити видалення картинок з сайту-донора і не дозволить зіпсувати зовнішній вигляд статей нашого онлайнкінотеатра
Можливо додам ще коментарии в автоматичному режимі - це створить видимість нормального, живого сайту
Заллю на якийсь популярний движок, скоріше за все CMS DLE
Ну і заллю на безкоштовний хостинг - ucoz

У підсумку ми отримуємо відмінний сайт з онлайн фільмами, яких і так вже величезна кількість, але які все продовжують приносити дохід своїм власникам.

Як ви бачите з уроку - маючи в руках потрібний софт і володіючи мінімумом знань можна за кілька годин створити самому відмінний сайт онлайн фільмів. Темболее що Напарс контенту з 5-7 донорів і перемішавши його, можна отримати десяток хороших трафікопріносящіх сателітів. Це забере у вас максимум дві доби часу.

Ну а ті хто ледачий, або якому не хочеться вивчати ці програми я можу запропонувати створення сайтів з онлайн фільмами. Як ви вже зрозуміли - я розумію що я роблю. Вартість сайту на новому контенті (я ніколи не використовую для різних клієнтів один і той же контент) на 3.000 статей коштує $ 30, а на 5.000 всього $ 40.

В цю ціну входить:

Установка зручного вам движка
Всі потрібні роботи по контенту (що я описував вище)
Підбір паблік шаблону і мінімальне приведення його в божеський вид, Унікалізація (мінімально)

Кому дуже треба - за додаткову плату я можу допомогти з дизайном і версткою вашого шаблону, а також допомогти з пошуковою оптимізацією.

Всі питання з роботою зеброїда і КонтентДаунлоадера можна задати у відповідних статтях, в коментарях до цього запису. а також будь-яким, зручним для вас способом зв'язку зі мною .