Прокси для парсинга

Прокси для парсинга (web scraping proxy) — сервер-посредник, через который направляются HTTP-запросы к целевым сайтам при автоматизированном сборе данных. Целевой сайт видит IP-адрес прокси, а не реальный адрес скрапера. Это позволяет обходить блокировки по IP, географические ограничения и Rate Limiting при массовом сборе данных.

Как работает

Базовая схема: парсер отправляет запрос на прокси-сервер → прокси перенаправляет запрос к целевому сайту → получает ответ → возвращает парсеру. Для сайта запрос выглядит как запрос от обычного пользователя с IP прокси-сервера.

Ротирующий прокси (rotating proxy) — автоматически меняет IP при каждом запросе или через заданный интервал. Пул из тысяч IP-адресов делает блокировку конкретного IP бессмысленной — следующий запрос придёт с другого адреса. Провайдеры ротирующих прокси (Bright Data, Oxylabs, Webshare) управляют пулами в миллионы IP.

Виды прокси по происхождению IP:

Датацентровые (datacenter): IP принадлежат облачным провайдерам (AWS, Hetzner, OVH). Быстрые (1–10 мс задержка), дешевые ($0,5–2 за 1000 запросов), но легко детектируются: ASN датацентра выдаёт автоматизированное происхождение. Сайты с bot-detection (Cloudflare, PerimeterX) блокируют их агрессивно.
Резидентские (residential): IP назначены реальным пользователям провайдерами (МТС, Ростелеком, Comcast). Сложнее отличить от реального пользователя. Дороже ($2–10 за 1 ГБ трафика), медленнее. Используются для сайтов с жёстким bot-detection.
Мобильные (mobile): IP мобильных операторов (3G/4G). Самые дорогие, минимальный процент блокировок — мобильные IP сайты почти не блокируют.

Для парсинга на VPS используют open-source решения: Squid Proxy (HTTP/HTTPS прокси с ротацией через несколько upstream), mitmproxy (для отладки), Playwright/Puppeteer с поддержкой прокси через параметр proxy.server.

История

Веб-парсинг появился с ростом WWW в 1990-х. Первые парсеры не нуждались в прокси — защиты от ботов почти не было. С 2010-х годов крупные сайты начали внедрять bot-detection. Cloudflare Bot Management (2019) сделал парсинг датацентровыми прокси существенно сложнее. Bright Data (ex-Luminati) основана в 2014 году и популяризировала рынок residential proxy. К 2024 году рынок web scraping и proxy оценивается в $5–7 млрд.

На что обращать внимание

Юридический аспект: парсинг публично доступных данных в большинстве юрисдикций легален, но нарушение robots.txt и Terms of Service сайта может стать основанием для блокировки и претензий. Проверяйте правила сайта перед началом сбора данных. Технически: ротируйте User-Agent вместе с IP, добавляйте случайные задержки между запросами, уважайте robots.txt. Для VPS-парсинга: хостинг не должен запрещать исходящий высокий трафик — читайте AUP (Acceptable Use Policy) провайдера.

Типы прокси для парсинга

Датацентровые прокси: IP дата-центров, дешевле ($0.2–1/IP), легко блокируются. Резидентные (ISP): реальные IP домашних пользователей, сложнее обнаружить ($2–5/IP). Мобильные: IP мобильных операторов, наименее блокируются ($5–20/IP). Ротационные: автосмена IP при каждом запросе.

Инструменты парсинга с прокси

Python: requests + proxy dict. Scrapy: PROXY_POOL_ENABLED, scrapy-rotating-proxies. Playwright: Browser.new_context(proxy={"server": "http://proxy:port"}). Puppeteer: --proxy-server. Для крупных задач: Apify, ScrapingBee — managed парсинг с прокси и CAPTCHA-решением.

Хостинг под парсинг

Парсинг-серверы: частая смена IP через VPS с разными провайдерами или прокси-пулы. Yandex и Google блокируют парсинг по поведенческим признакам, а не только по IP. Задержки между запросами (1–3 сек), случайный UA, cookies — снижают вероятность блокировки.

Прокси для парсинга работают с VPS или покупными пулами IP. Docker-контейнеры с браузером (Playwright) для обхода защиты. Redis хранит очередь задач парсинга. Мониторинг доступности прокси. Tor для экстремальной анонимности (медленно).