Если есть необходимость в сокрытии IP или присутствуют опасения, что он может быть забанен во время парсинга, то данное ограничение легко обмануть подключением к proxy.

Свои параметры текстового поиска на страницах

33Вкладка «Custom filter configuration» позволяет задать персонализированные настройки страниц, для которых нужно получить информацию. Например, можно создать 2 фильтра:

– contains текст;
– does not contain UA-13177605-1.
В результате получим страницы, содержащие «текст», и на которых не установлен Google Analytics.

Сохранение настроек пользователя

После завершения настройки в соответствии со своими параметрами, желательно сделать сохранение «По умолчанию» чтобы повторно каждый раз ничего не редактировать.
Вкладка Internal

На этой вкладке отображаются данные о результатах парсинга кроме значений пользователя и бэклинков.

Анализ страниц-пустышек и тех, которые не должны индексироваться

После завершения полного анализа можно также проанализировать те страницы, на которых практически отсутствует контент. Это позволит понять, какие страницы не нужно индексировать (авторизация, корзины и другие), и какие важные страницы нуждаются в добавлении контента.

Для быстрого анализа «пустышек» сперва нужно создать фильтр, пропускающий под анализ лишь htmlстраницы, после чего осуществить экспорт в Excel.

В Excel делаем перенос колонки WordCount ближе к урлам сайта и выполняем сортировку ее содержимого по возрастанию. Дальше на значения фильтруем Status Code, которая содержит ответы сервера.

В результате нами будет получен список страниц с гораздо меньшим содержанием контента по сравнению со средним показателем сайта. Причем на этих страницах пользователи не найдут для себя практически никакой полезной информации, поэтому они не должны индексироваться поисковиками. С этой целью robots.txt может быть дополнен соответствующими запрещающими инструкциями.

Выполняем анализ других страниц для формирования списка «пустышек», на которых должен быть контент, но его нет, после чего добавляем недостающую информацию.