小编在这里浅谈一下自己的知识。
工具/原料
电脑/网络
方法/步骤
1
新型的代理ip池 aox_proxy_pool
3
之前看了下haipproxy的代码, 成功率高就得自己写验证, 说白了, 在爬虫使用之前, 先尝试访问下, 来提高成功率, 我觉得意义不大。上面都废话, 以下才是主要的其实免费代理ip中, 有极少数的一部分, 是非常稳定的代理服务器, 所以这些服务器就可以长期用来使用。我抓取到的免费的代理ip, 中, 过滤后剩下的ip的访问成功率基本在90%+
4
其实最简单的方式就是根据服务器开放的端口来判断, 如果服务器有开放80, 3389, 3306, 22之类的端口, 那么说明服务器还有别的服务在运行, 挂掉的几率很小, 如果是政府、学校的服务器, 那么更加稳定。当然也有可能开放别的端口
5
服务器的访问速度判断, 需要访问多个不同的网址, 来取平均数, 这样的访问速度才比较稳
6
代理ip的存活时间, 越长越稳定, 当然这个是在你搭建抓取后, 来进行计算。
7
代理类型的重新检测, 通过访问不同的http和https网站, 判断代理到底是http还是https, 并且进行划分, http的代理, 那就访问http网址的时候使用, https的代理给https访问提供服务, 这样访问的几率才能提高。
8
所以根据这几点, 我重新写了一套代理ip池的项目, 目前抓取ip 4500+, 长期稳定的ip在60+左右, 虽然少,但是相当稳定。
注意事项
1
简单分享
2
小编用的618IP
上一篇:怎么应用ai软件绘制拖鞋矢量图
下一篇:怎么样设计道岔控制电路图?