Настройка программы Hrefer 4.9

парсер ПС Hrefer 4.9
парсер ПС Hrefer 4.9

За последнее время в выдаче поисковых систем произошло очень много изменений,
но одно из самых ключевых (в плане парсинга) — полный переход на обязательное подключение через HTTPS.

В Hrefer 4.9 в значительной степени эта проблема решена, но следует учесть,
что многие HTTP-прокси не поддерживают протокол HTTPS, поэтому наилучшим выходом будет
либо использование высококачественных SOCKS, либо парсинг таких поисковиков без прокси с большими задержками.

Рекомендации по настройке Hrefer 4.9

В ходе тестирования в 500 потоков за первые 10 минут был получен результат более 109.000 уникальных (по хостам) ссылок:

При этом использовались следующие настройки:

1. Включено распознавание капчи через AntiGate
— актуально только для Yandex и Google
— на данный момент уже готов модуль автоматического распознавания данных капч,
(распознаваемость капчи Google порядка 42%) и в ближайшей версии он будет подключен к программе

2. Используются быстрые, качественные SOCKS-ы от AWM Proxy

3. Включена задержка 7 секунд, НО — обратите внимание! — с опцией «For no-proxy threads only»,
таким образом она выдерживается только между запросами к Яндексу, который, как видно из скриншота,
парсится напрямую без прокси

4. Фильтр и Additive Words для наглядности были отключены

Если нет баланса на антикапча-сервисе, и нет покупных СОКС-ов, как быть?

В скриншоте специально показано окно «Search engines stats» (оно доступно через меню «Stats»),
в нём видно, что доля Гугла и Яндекса в собранных ссылках составляет 8% + 16% + 18% + 24%
(Yandex, Google Classic, Google Mobile и Blogsearch.Google соответственно). То есть наибольшая доля как
раз в тех поисковых системах, где используется капча. Именно поэтому мы сейчас активно работаем в
направлении автоматического распознавания капчи данных ПС.

Разумеется, их парсинг возможен и без распознавания капчи — но тогда он может быть существенно медленней.
Кроме того, потребуется больше SOCKS-ов, либо придётся ставить большую задежку + парсинг этих ПС напрямую, без прокси.

Что касается списков SOCKS, их можно собрать самостоятельно, но следует учитывать, что паблик-прокси, как правило, более загружены,
и с высокой долей вероятности будут забанены поисковыми системами ещё до использования вами.

Мы продолжаем активно работать над развитием софта, Hrefer 4.9 — это пред-релизный вариант перед более функциональной версией.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *