这篇文章主要介绍了Python 爬虫使用动态切换ip防止的相关资料,需要的朋友可以参考下

上次有说过,我在新公司有部分工作是负责爬虫业务的,爬虫机器有上百台,节点也要计划迁入了Docker平台上。 这两天遇到一个棘手的问题,就是因为我们为了追求数据量,在某些机房,用docker启动了不少爬虫节点,导致一些网站,开始封禁我们…. … (他们,哥们要是有资源,必须干掉ddos,让你防 ! 当然我也就装装逼,没这个资源)

如果某个网站他就是闲的蛋疼,他就是喜欢从log里面,一行行的分析出你的ip,然后统计处频率高的网站, 那这个时候咋办? 其实方法很草比,就是用大量的主机,但是大量的主机是有了,你如果没有那么爬虫的种子量,那属于浪费资源… … 其实一个主机,多个ip是可以的。。。这个时候是有两种方法可以解决的,第一个是用squid绑定多个ip地址,做正向代理…. 你的程序里面维持一组连接池,就是针对这几个正向proxy做的连接池。正向代理和反向代理最大的区别就是,反向代理很多时候域名是固定的,而正向代理是通过一个http的代理端口,随意访问,只是在proxy端会修改http协议,去帮你访问如果是python,其实单纯调用socket bind绑定某个ip就可以了,但是标题的轮训是个什么概念,就是维持不同的socket bind的对象,然后你就轮吧 ! 跟一些业界做专门做爬虫的人聊过,他们用的基本都是这样的技术。

# -*- coding=utf-8 -*- import socket import urllib2 import re true_socket = socket.socket ipbind='xx.xx.xxx.xx' def bound_socket(*a, **k): sock = true_socket(*a, **k) sock.bind((ipbind, 0)) return sock socket.socket = bound_socket response = urllib2.urlopen('http://www.ip.cn') html = response.read() ip=re.search(r'code.(.*?)..code',html) print ip.group(1) 在http://stackoverflow.com/ 上也找到一些个老外给与的解决方法的思路,他是借助于urllib2的HTTPHandler来构造的出口的ip地址。

import functoolsimport httplibimport urllib2

class BoundHTTPHandler(urllib2.HTTPHandler):

def __init__(self, source_address=None, debuglevel=0): urllib2.HTTPHandler.__init__(self, debuglevel) self.http_class = functools.partial(httplib.HTTPConnection, source_address=source_address)

def http_open(self, req): return self.do_open(self.http_class, req)

handler = BoundHTTPHandler(source_address=("192。168。1。10", 0))opener = urllib2。build_opener(handler)urllib2。install_opener(opener)

import functoolsimport httplibimport urllib2class BoundHTTPHandler(urllib2。HTTPHandler): def __init__(self, source_address=None, debuglevel=0): urllib2。HTTPHandler。__init__(self, debuglevel) self。http_class = functools。partial(httplib。HTTPConnection, source_address=source_address) def http_open(self, req): return self。do_open(self。http_class, req)handler = BoundHTTPHandler(source_address=("192。168。1。10", 0))opener = urllib2。build_opener(handler)urllib2。install_opener(opener)那么就有一个现成的模块 netifaces ,其实netifaces模块,就是刚才上面socket绑定ip的功能封装罢了地址: https://github。com/raphdg/netifaces

import netifacesnetifaces.interfaces()netifaces.ifaddresses('lo0')netifaces.AF_LINKaddrs = netifaces.ifaddresses('lo0')addrs[netifaces.AF_INET][{'peer': '127.0.0.1', 'netmask': '255.0.0.0', 'addr': '127.0.0.1'}]

import netifacesnetifaces.interfaces()netifaces.ifaddresses('lo0')netifaces.AF_LINKaddrs = netifaces.ifaddresses('lo0')addrs[netifaces.AF_INET][{'peer': '127.0.0.1', 'netmask': '255.0.0.0', 'addr': '127.0.0.1'}]感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

最新资讯
微信"一物一码"全面上线 商品成品牌小程序流量入口

微信"一物一码"全面

微信全面开放“一物一码”功能,借此,每件商品都变成品牌
风波未平 OYO放言砸重金力挽中国市场

风波未平 OYO放言砸重

经历了大规模裁员等一系列风波之后,OYO迫切的需要稳定
彭博:欧盟未来数日将对亚马逊展开正式反垄断调查

彭博:欧盟未来数日将对

欧盟反垄断专员去年9月曾表示,欧盟正在对亚马逊使用这
巨人变更重组方案:发行股份变为现金收购Playtika

巨人变更重组方案:发行

巨人网络今日发布公告,为加速交易进度、提高交易效率,公
长城汽车与华为阿里等战略合作 推智能网联汽车落地

长城汽车与华为阿里等

长城汽车近日宣布,与华为、高通以及BAT等八家企业签署
微信浮窗新增支持文件等形态 最多同时设置5个浮窗

微信浮窗新增支持文件

微信iOS7.0.5版本更新,此次更新对微信浮窗功能进行了升
最新文章
thinkphp代码执行getshell的漏洞解决

thinkphp代码执行gets

本文来介绍一下thinkphp官方修复的一个getshell漏洞,框
SQLMAP注入检查方法 11种常见SQLMAP使用方法详解

SQLMAP注入检查方法 1

sqlmap也是渗透中常用的一个注入工具,其实在注入工具方
Linux 下多种编程语言的反弹 shell 方法

Linux 下多种编程语言

这篇文章主要介绍了Linux 下多种反弹 shell 方法,需要
lcx端口转发详细介绍及使用方法(lcx内网转发姿势)

lcx端口转发详细介绍

这篇文章主要介绍了lcx端口转发详细介绍及使用方法(lc
lcx用法之心得总结(piracy)

lcx用法之心得总结(pi

这篇文章主要介绍了lcx用法之心得总结,需要的朋友可以
详解Filezilla server 提权

详解Filezilla server

这篇文章主要介绍了详解Filezilla server 提权,需要的
pk10开奖结果_QQ1zJC pk10开奖结果_QwaQv6 pk10开奖结果_tj4nMUt pk10开奖结果_TB9uf4 pk10开奖结果_i9Tm26g pk10开奖结果_4nZzgs7 pk10开奖结果_aGZ4A pk10开奖结果_C0Cjy pk10开奖结果_pb62W pk10开奖结果pk10开奖结果_ccZeBHV