多语言展示
当前在线:579今日阅读:26今日分享:39

爬虫爱好者给自己搭建一个简单的爬虫代理ip池

小编在这里浅谈一下自己的知识。
工具/原料

电脑/网络

方法/步骤
1

新型的代理ip池 aox_proxy_pool

3

之前看了下haipproxy的代码, 成功率高就得自己写验证, 说白了, 在爬虫使用之前, 先尝试访问下, 来提高成功率, 我觉得意义不大。上面都废话, 以下才是主要的其实免费代理ip中, 有极少数的一部分, 是非常稳定的代理服务器, 所以这些服务器就可以长期用来使用。我抓取到的免费的代理ip, 中, 过滤后剩下的ip的访问成功率基本在90%+

4

其实最简单的方式就是根据服务器开放的端口来判断, 如果服务器有开放80, 3389, 3306, 22之类的端口, 那么说明服务器还有别的服务在运行, 挂掉的几率很小, 如果是政府、学校的服务器, 那么更加稳定。当然也有可能开放别的端口

5

服务器的访问速度判断, 需要访问多个不同的网址, 来取平均数, 这样的访问速度才比较稳

6

代理ip的存活时间, 越长越稳定, 当然这个是在你搭建抓取后, 来进行计算。

7

代理类型的重新检测, 通过访问不同的http和https网站, 判断代理到底是http还是https, 并且进行划分, http的代理, 那就访问http网址的时候使用, https的代理给https访问提供服务, 这样访问的几率才能提高。

8

所以根据这几点, 我重新写了一套代理ip池的项目, 目前抓取ip 4500+, 长期稳定的ip在60+左右, 虽然少,但是相当稳定。

注意事项
1

简单分享

2

小编用的618IP

推荐信息