В данной статье мы рассмотрим такие вопросы, как парсинг на сервере разработчика и определение оптимальной скорости.

В связи с тем, что перед привязкой к основному домену желательно избавиться от всех ошибок на сайте, иногда парсинг может происходить на сервере разработчика. Тут возможно возникновение некоторых нюансов.

1. Получение доступа к сайту путем аутентификации. К счастью этой проблемы больше нет, поэтому можно спокойно анализировать сайт после ввода логина с паролем.

2. Обычно в роботс вводится полный запрет на индексацию со стороны поисковых систем, что может воспрепятствовать парсингу, потому что программа по умолчанию оттуда использует инструкции. Для решения проблемы в настройках должны быть выставлены все опции, которые позволяют не учитывать robots.txt в принудительном порядке. Благодаря этому уже на промежуточном этапе разработки будут выявлены основные ошибки. Однако после настройки всех инструкций в robots.txt и разрешения к индексации основной части контента сайт нужно будет проверить повторно с учетом обновлений в robots.txt.

Как определить нужную скорость парсинга

Одна из самых важных настроек – это скорость осуществления парсинга. Не так много есть сайтов, способных выдерживать большое количество одновременных обращений, поэтому лучше с самого начала в ConfigurationSpeed настроить такие параметры, как количество потоков, лимит урлов и максимальное их количество:

– Max Threads: 12;
– поставить флажок Limit URl/s;
– Max URl/s: 10.

2

Данная конфигурация должна позволить спарсить практически все сайты. Однако после 10-20 секунд парсинга все же убедитесь в самом низу, что нагрузка на сайт не является чрезмерной.