Меню сайта

На главную

Исходные коды
Программное обеспечение
Партнёрка
Разработка под заказ
Рекламные услуги
Остальные
Новости
Обновления у ботов
Команды у ботов
Super Petukh
Сергей Беляков ВК
Сергей Беляков Telegram
Павел Пазик
Леонид Белкин
Марина Маляева
Роман Шеннис
Павел Письков
Андрей Марков
Иван Единоросов
Александр Голенков
Другие
Партнёрские проекты
Railway Archive

- сайт от Студии.

All Stickers

- вся информация о стикерах в ВК.

News Transport

- новости с общественным транспортом.

Мухосранский вестник

- авторские истории относительно республики Мухосранции.

ID: 122
Запуск Архива о Железной Дороге
1664
Это картинка
Встречайте наш новый сайт, посвященный трудам Сергея Болашенко.
Теги:
news other
Дата редактирования:
2021-10-03 21:26:27
К созданию данного Архива подтолкнуло удаление автором со своего сайта большинства своих статей, которые по информативности зачастую не имели альтернатив.

Материалы сайта были восстановлены из веб архива размером около 40 Гб! Архив содержал более 10 тысяч html страниц! В ручную обрабатывать ушло бы очень много времени на муторную и рутинную работу.

Поэтому для их обработки и очистки нам пришлось на python3 с помощью библиотеки BeautifulSoup и внутренней функцией replace() написать специальный скрипт обработчик. В работу скрипта входило: усечка начала и конца html страниц, уборка и замена лишних тегов (автор не жалел ставить вложенные друг в друга теги (font), и другие устаревшие html теги), автоматическая замена внутренних ссылок под движок нового сайта, замена ссылок на материалы статей, удаление и замена внутренних свойств у тегов, прописывание им нужных классов, запись полученного результата в базу данных и многое другое.

В итоге из 10111 html страниц в базу данных было записано 7383 строки. Остальные страницы содержали всевозможные коды ошибок и не имели никакой информационной ценности.

Сам сайт Архива основан на движке сайта Студии, который был обновлён под особенности Архива. Поэтому Архив также имеет поиск по страницам, смену тем оформления и адаптивную вёрстку.

Во вложениях показано сравнение страницы в версии до обработки (оригинального сайта) и после (на движке сайта Студии).

Ссылка на сайт railway-archive.studio-petukh.ru

Рекомендации

Это картинка
ID: 78
658
Язык: Python, Метод подключения: Long poll, Библиотека: vk_api, Бот: Групповой
Цена: 800
Связаться с нами
Это картинка
ID: 44
1069
Описание команд и особенностей работы бота Super Petukh
Дата: 2022-05-28 22:52:31
Это картинка
ID: 162
1423
Вынужденная мера
Дата: 2022-01-31 16:12:23