开源一款高可用的分布式代理 IP 池(附性能测试图)

2018-03-06 14:01:41 +08:00
 resolvewang

项目地址: https://github.com/SpiderClub/haipproxy

陆陆续续花了近六个月的时间实现了一款高可用的分布式代理 IP 池HAipproxy,它的主要用处是为各类被限制 IP 的爬虫提供基础的代理 IP 支撑。HAipproxy 的高可用有两层含义:(1)代理 IP 资源的高可用;(2)项目各个组件的高可用。HAipproxy 的代理 IP 源均来自互联网公开的资源,项目配置了总计 30+的墙内外代理资源提供网站,所以代理 IP 资源的数量并不是 HAipproxy 主要关心的。它主要关心的是如何从海量高度不可用的代理 IP 资源中提取出高质量低延迟的代理 IP 供爬虫使用。为此,HAipproxy 制定了一些列的校验和 IP 筛选策略。在实现 HAipproxy 之前,楼主也调研过现有的代理 IP 付费方案和开源的代理 IP 方案,付费方案中有一些质量较好的但是费用比较高,其它的和开源的项目的效果都差强人意。免费+高性能,这也是HAipproxy的核心竞争力。

Talk is cheap,我们来看点实际的东西。下面是楼主近日以知乎为测试对象,单机条件下对 HAipproxy 进行性能测试的测试结果

可以看到请求量最快可以达到 1w+/hour,楼主对一天的请求量进行了统计,有19w,效果还算令人满意。

V 友们路过的话不妨给个star吧,有使用这个项目的需求则更好了。

新年新气象,祝看了这篇广告贴和点了star的 V 友们今年升职加薪,技术精进一步。

19176 次点击
所在节点    分享创造
76 条回复
liuxu
2018-03-08 20:01:10 +08:00
@resolvewang 还没用,先收藏明天试试看
resolvewang
2018-03-08 20:21:41 +08:00
@liuxu #41 好的,欢迎反馈意见
BadReese
2018-03-09 19:10:44 +08:00
@resolvewang 用 docker 方式部署在 VPS 上,顺便修改了 setting 里的密码。本地连接的时候发现密码修改没有生效,用默认的 123456 可以连接上。这个是怎么回事呢?
另外,获取可用代理列表一直是空的,除了按照 WIKI 里的 docker-compose up 之外,还需要执行其他操作么?
resolvewang
2018-03-09 19:24:16 +08:00
@BadReese #43 github 上已经回复了。还望耐心阅读开发者文档
BadReese
2018-03-09 19:38:25 +08:00
@resolvewang 好的,谢谢你,这是个很棒的库
resolvewang
2018-03-09 20:25:11 +08:00
@BadReese #45 客气。好用给个 star 或者宣传一下就好了
Soar360
2018-03-10 15:01:50 +08:00
每到这个时候 我就会来搭一波车
https://proxy.coderbusy.com
Soar360
2018-03-10 15:15:27 +08:00
看到了 确实用到了我站的数据源 。。恭喜 你被投毒了……
resolvewang
2018-03-10 15:45:03 +08:00
@Soar360 #48 关系不大,就算 coderbusy 数据源全有问题,其它也够用了
resolvewang
2018-03-10 15:47:10 +08:00
@Soar360 #47 数据源墙内墙外都有很多,只不过需要体力和一些方法去搜集而已
gamecreating
2018-03-10 17:00:38 +08:00
这个必须赞一个
resolvewang
2018-03-10 17:15:49 +08:00
@gamecreating 感谢支持
xiaodaoi
2018-03-12 09:33:15 +08:00
好东西
resolvewang
2018-03-12 09:45:37 +08:00
@xiaodaoi #53 那快用用吧,期待宝贵的用户反馈
jitongxi
2018-03-13 13:26:03 +08:00
。。。。自己用用就行了, 直接开放出来,最后又要被老外骂作蝗虫了
resolvewang
2018-03-13 13:38:30 +08:00
@jitongxi #55 感谢提醒。老外也有用的。。。当初开源的一个原因是感觉这种验证和筛选策略很有意思,所以就 public 了
seancheer
2018-03-13 14:13:34 +08:00
@jitongxi 这么说就有些过分了,楼主开源这些东西是为了技术之间相互分享,相互学习。。什么叫害怕老外骂蝗虫?如果这是违法违反社区条例的,直接举报就行,搞的好像老外就很高尚,没有爬虫似得
jitongxi
2018-03-13 14:48:13 +08:00
@seancheer 可笑,你根本没听懂我在说什么。
Betsy
2018-03-16 00:21:09 +08:00
[并没有 IP]( )
Betsy
2018-03-16 00:22:15 +08:00
@resolvewang 如上图所示,所以是哪里错了吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/435313

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX