ID: 122

Запуск Архива о Железной Дороге

2210
Это картинка
Встречайте наш новый сайт, посвященный трудам Сергея Болашенко.
Категории: news other
Дата редактирования: 2021-10-03 21:26:27
К созданию данного Архива подтолкнуло удаление автором со своего сайта большинства своих статей, которые по информативности зачастую не имели альтернатив.

Материалы сайта были восстановлены из веб архива размером около 40 Гб! Архив содержал более 10 тысяч html страниц! В ручную обрабатывать ушло бы очень много времени на муторную и рутинную работу.

Поэтому для их обработки и очистки нам пришлось на python3 с помощью библиотеки BeautifulSoup и внутренней функцией replace() написать специальный скрипт обработчик. В работу скрипта входило: усечка начала и конца html страниц, уборка и замена лишних тегов (автор не жалел ставить вложенные друг в друга теги (font), и другие устаревшие html теги), автоматическая замена внутренних ссылок под движок нового сайта, замена ссылок на материалы статей, удаление и замена внутренних свойств у тегов, прописывание им нужных классов, запись полученного результата в базу данных и многое другое.

В итоге из 10111 html страниц в базу данных было записано 7383 строки. Остальные страницы содержали всевозможные коды ошибок и не имели никакой информационной ценности.

Сам сайт Архива основан на движке сайта Студии, который был обновлён под особенности Архива. Поэтому Архив также имеет поиск по страницам, смену тем оформления и адаптивную вёрстку.

Во вложениях показано сравнение страницы в версии до обработки (оригинального сайта) и после (на движке сайта Студии).

Ссылка на сайт railway-archive.studio-petukh.ru