鸟巢网页数据采集系统 V2.2

2016-04-11 10:01:31 +08:00
 sohoer

做个简单易用通用型采集器不容易,这个项目已经花了 6 年时间,还没完还将继续。

3 年前第一次发布

http://v2ex.com/t/65371#reply149

第一次发布后有人说太复杂,有人说应该提供独立的 WEB 管理界面等等,花了 3 年时间在这个版本都有实现,并且做了很多的重构与功能完善。

三年前注册的用户,可以直接安装使用(鸟巢采集器个人用户终身免费使用),

项目地址

https://github.com/speed/newcrawler

目前还不打算开放注册,准备再测试一个月(请不要申请邀请码)

鸟巢采集器

http://www.newcrawler.com

测试帐号(请使用海外节点,因为 GAE,OpenShift 都已被墙)

username:test 
password:test

演示视频

http://video.newcrawler.com/newcrawler_v2.2.mp4

http://ww3.sinaimg.cn/large/5e24c9a7gw1f2sj1vgfx8j20zk0rhtg2.jpg

13796 次点击
所在节点    分享发现
103 条回复
branchzero
2016-04-12 01:52:35 +08:00
好强大啊,已 star ,佩服 LZ 的毅力!
konakona
2016-04-12 02:01:47 +08:00
看了介绍视频,很强大!
非常感谢楼主分享!
jacker
2016-04-12 08:38:47 +08:00
和国外的 kimono 太像啦
sohoer
2016-04-12 09:08:19 +08:00
@jacker 虽然 kimono 已死,但不否认有参考他的设计
cxshun
2016-04-12 09:26:19 +08:00
好强大,佩服楼主!
codeyung
2016-04-12 15:01:22 +08:00
支持楼主!
wq2016
2016-04-12 15:15:09 +08:00
支持一个!
myforgame
2016-04-12 15:52:48 +08:00
屌爆了
gutianyun
2016-04-12 20:17:57 +08:00
@sohoer 不是都说 python 开发爬虫不错嘛,为什么你选择 java ,谢谢回答
jacker
2016-04-12 21:17:35 +08:00
以前做过 SEO ,采集方面主要是采集后伪原创处理然后发布,现在主要做一些运营方面,会遇到需要采集一些数据做分析,根据这两方面我个人感觉可以加上的几个功能是
1.根据部分开源的程序有通用的规则,方便小白来采集(如 WordPress ,或者 magento );
2.对接一些 API ,如 copypass 等
如果能根据数据生成图就更好啦
kimono 可以生成自己的 API ,这个功能也是非常不错的
viosey
2016-04-13 00:21:57 +08:00
太强大了, 虽然说个人免费使用, 但是即使收费了也是毫不犹豫的买买买
sohoer
2016-04-13 09:24:06 +08:00
@gutianyun 简单的开发一个爬虫, python 是好原生 API 就很强大,复杂的熟悉哪个用哪个,用 JAVA 只因我能撑控他,为了优化性能,还需要对内存堆栈做分析


@jacker 数据导出 API 支持 JSON 、 RSS 格式,你看演示视频里不是可以将数据发布到 plot.ly (图表生成)
vvaaiinn
2016-04-13 11:26:21 +08:00
NB 啊。求个邀请码注册玩玩
wingyiu
2016-04-15 19:29:03 +08:00
NB
wingyiu
2016-04-15 19:36:31 +08:00
test 账号进去各种 error ,引导做得不好,居然不是开源,不过好像反编译就行了
quericy
2016-04-20 09:11:33 +08:00
看完 LZ 的项目,感觉自己写的爬虫的通用性就是个笑话
6 年....佩服 LZ 的毅力
mew7wo
2016-05-25 12:51:23 +08:00
个人安装之后,用什么帐号可以登录使用个人采集器
wujunze
2016-08-19 13:48:22 +08:00
佩服楼主的毅力
coolloves
2016-08-20 07:25:34 +08:00
膜拜!!!!
fanghui
2017-02-21 00:31:17 +08:00
@sohoer 主要问题是没有 xpath 表达式显示在页面的左上角,你可以看下截图,截图地址: https://pan.baidu.com/s/1ctf1Yu

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/270075

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX