Программирование, радиоэлектроника,
саморазвитие и частичка из моей жизни здесь...

Поиск плохих ссылок и ресурсов на сайте (программа под Windows, Linux)

Рассмотрим работу простой и очень мощной программы для поиска битых ссылок и плохих ресурсов на сайте. Программа написана на языке Python и может работать на разных операционных системах. Простое использование, генерация удобных отчетов по всех ссылках на сайте в формате HTML.

Программа для поиска битых ссылок - это незаменимый инструмент для веб-мастеров и СЕО-специалистов (SEO, Search Engine Optimization).

Содержание:

  1. Что такое битые ссылки и как их обнаружить
  2. Универсальная программа под Windows, Linux, MacOS
  3. Запуск и использование программы
  4. Запуск программы на VPS
  5. Отчеты по ссылкам
  6. Заключение

Что такое битые ссылки и как их обнаружить

Что такое битые ссылки? - это ссылки, которые ведут на несуществующий ресурс или же на ресурс с запрещенным доступом. Каким образом на сайте могут появиться плохие (битые ссылки), ссылки на недоступные файлы и страницы:

  • страница, на которую ссылается ссылка больше не существует;
  • сайт, на который ссылаются перестал работать (домен не доступен);
  • ошибки при верстке шаблона сайта (CSS, HTML);
  • ошибки в работе движка CMS;
  • ошибки в работе сторонних плагинов для CMS;
  • после переноса сайта на другой сервер не установили верные права доступа к файлам;
  • и т.п.

Для поиска и обнаружения плохих ссылок существуют специальные программы, которые очень часто распространяются платно, а демо-версия содержит много ограничений, которые не позволяют провести полный аудит всех страниц, ресурсов сайта и буквально навязывают свою покупку. К тому же в своем большинстве они все заточены для работы исключительно под ОС Windows, запуск на других ОС может быть проблематичным или же не возможным вообще.

Раньше для подобной цели пользовался двумя утилитами, это Xenu и Квакающая СЕО-Лягушка:

Также существуют разнообразные онлайн-сервисы и сайты, где предоставляют вам возможность просканировать ваш сайт в онлайн-режиме, построить карту вашего сайта, получить отчет о плохих ссылках и другую информацию. Как правило такие сервисы имеют ограничения на количество отсканированных страниц и требуют денег за свою работу.

Универсальная программа под Windows, Linux, MacOS

Решил произвести поиск в списках OpenSource-программ на предмет простой и удобной программы поиска битых ссылок, в результате нашел программу WebCheck.

WebCheck - это программа, которая написана на языке программирования Питон(Python), имеет небольшой размер и способна генерировать удобные отчеты.

Автор этой чудесной программы - Arthur de Jong, программист из Нидерландов (Open Source/Free Software Developer), который также занимается разработкой Debian GNU Linux.

Основные возможности программы:

  • Поддержка схем - http, https, ftp, file;
  • Генерация карты сайта, просмотр стурктуры сайта;
  • Выявление проблемных и битых ссылок;
  • Поиск потенциально устаревших и новых страниц;
  • Поиск исходящих (внешних) ссылок;
  • Поиск битых ресурсов в файлах CSS, JS;
  • Поиск страниц с большим размером
  • Генерация удобного отчета по всем типам ссылок и проблем в формате HTML;
  • Нет никаких ограничений в функционале;
  • Открытый исходный код;
  • Возможность написать свой плагин к программе для расширения возможностей;
  • Работает везде где можно установить Python (Linux, Windows, MacOS, FreeBSD...).

Очень универсальная и свободная программа, которую можно запустить как на рабочей станции, так и на сервере. При своей работе умеренно нагружает веб-сервер вашего сайта, тем не менее скорость работы очень хорошая!

Запуск и использование программы

Скачать программу можно с сайта автора или же прямо здесь (версия 1.10.4, 87КБ): webcheck-1.10.4.tar.gz

Для использования программы нужен интерпретатор скриптов Питон (Python), если у вас операционная система Windows то качаем и устанавливаем вторую версию (2.7.7, 2.7.11 и т.п.) с сайта https://www.python.org/downloads/

Если вы планируете использовать программу под Linux, то скорее всего что Питон уже установлен, переходим к запуску и использованию программы.

Алгоритм использования:

  • Распаковываем архив с программой в пустую директорию;
  • Открываем командную строку и запускаем команду с параметрами.

Основные параметры программы WebCheck:

  • -i, --internal=PATTERN    отмечать ссылки URL, которые соответствуют шаблону PATTERN как ВНУТРЕННИЕ;
  • -x, --external=PATTERN   отмечать ссылки URL, которые соответствуют шаблону PATTERN как ВНЕШНИЕ;
  • -y, --yank=PATTERN     не проверять станицы для которых адреса URL соответствуют шаблону PATTERN;
  • -b, --base-only  base URLs only: рассматривать любые ссылки, которые не начинаются с любого базового URL как ВНЕШНИЕ;
  • -a, --avoid-external   не проверять внешние ссылки;
  • --ignore-robots         не запрашивать и не парсить файлы robots.txt;
  • -q, --quiet, --silent    тихий режим (без вывода сообщений);
  • -d, --debug              включить отладку уровня программиста;
  • -o, --output=DIRECTORY    имя директории и путь, по которому будет сохранен отчет;
  • -c, --continue       пробовать продолжить сбор информации после последнего запуска;
  • -f, --force            перезаписывать файлы без запроса;
  • -r, --redirects=N    максимальное количество редиректов для ссылки по которым можно следовать, 0 - следовать по всем (по умолчанию=5);
  • -u, --userpass=URL       указать URL где содержится имя пользователя и пароля user:pass , таким образом имя пользователя и пароль предоставляется для соответствующего сегмента сети, -u http://user:pass@example.com;
  • -w, --wait=SECONDS     задержка SECONDS секунд между запросами;
  • -V, --version   отобразить информацию о версии;
  • -h, --help       отобразить справку.

Пример использования программы в Linux:

cd /tmp
wget -c "https://ph0en1x.net/uploads/File/webcheck-1.10.4.tar.gz"
tar -xf webcheck-1.10.4.tar.gz && cd webcheck-1.10.4
python webcheck.py --help
python webcheck.py --output=/tmp/site.com_report http://site.com

Где "site.com" - это домен сайта, который нужно проверить на наличие проблем со ссылками и контентом.

Пример запуска программы WebCheck в консоли Linux

Рис. 1. Пример запуска программы WebCheck в консоли Linux.

В процессе своей работы программа выводит список проверенных ссылок и ресурсов (если для команды не указана опция -q, --quiet, --silent).

Запуск программы на VPS

Отличным вариантом генерации отчета при помощи программы WebCheck является ее запуск на выделенном виртуальном сервере. Плюсы такого решения очевидны:

  • Небольшой пинг, низкое время подключения
  • Большая скорость работы интернет-канала
  • Отказоустойчивость, надежная генерация отчетов для больших сайтов

Для данной цели отлично подойдут недорогие VPS, или же те, на которых у вас крутятся сайты. Хорошим решением может быть использование VPS от таких провайдеров как DigitalOcean.

Создаем дроплет(виртуальный сервер с внешним IP-адресом), выбрав его размещение (страну) как можно ближе к вашему сайту, качаем и запускаем программу на выполнение на данном сервере.

Запуск программы лучше всего выполнять в окружении screen (виртуальный терминал), для установки screen используем команду:

apt-get install screen

После завершения работы программы WebCheck упаковываем папку с файлами отчета архиватором и скачиваем его используя SFTP (Secure File Transfer Protocol, SSH):

tar -zcf /tmp/site.com_report.tgz /tmp/site.com_report
scp user@site.com:/tmp/site.com_report.tgz /home/

После скачивания архива уничтожаем дроплет и переходим к анализу отчета. Таким образом можно очень быстро сгенерировать отчет для большого сайта, заплатив за аренду сервера всего несколько центов. Просто и удобно!

Отчеты по ссылкам

После работы программы будет сформирован отчет в формате HTML. Отчет поделен на несколько разделов, каждый из которых доступен из правого меню.

Программа WebCheck для аудита ссылок на сайте, пример отчета

Рис. 2. Пример странички с отчетом программы WebCheck.

Для любой ссылки на странице можно узнать подробности, для этого достаточно навести мышку на ссылку и появится подсказка с информацией.

WebCheck - Подсказки для ссылок

Рис. 3. WebCheck - Подсказки для ссылок.

Заключение

Кроссплатформенная программа WebCheck - это мощный свободный инструмент, который поможет "отловить" битые ссылки, несуществующие или недоступные ресурсы, сгенерировать карту сайта и получить много другой полезной для веб-мастера и СЕОшник информации.

Если статья оказалась полезной - помочь проекту можно тут: 👍 ПОМОЩЬ, 🎁 DONATE