鸟巢网页数据采集系统 V2.2

2016-04-11 10:01:31 +08:00
 sohoer

做个简单易用通用型采集器不容易,这个项目已经花了 6 年时间,还没完还将继续。

3 年前第一次发布

http://v2ex.com/t/65371#reply149

第一次发布后有人说太复杂,有人说应该提供独立的 WEB 管理界面等等,花了 3 年时间在这个版本都有实现,并且做了很多的重构与功能完善。

三年前注册的用户,可以直接安装使用(鸟巢采集器个人用户终身免费使用),

项目地址

https://github.com/speed/newcrawler

目前还不打算开放注册,准备再测试一个月(请不要申请邀请码)

鸟巢采集器

http://www.newcrawler.com

测试帐号(请使用海外节点,因为 GAE,OpenShift 都已被墙)

username:test 
password:test

演示视频

http://video.newcrawler.com/newcrawler_v2.2.mp4

http://ww3.sinaimg.cn/large/5e24c9a7gw1f2sj1vgfx8j20zk0rhtg2.jpg

13796 次点击
所在节点    分享发现
103 条回复
binux
2016-04-11 18:06:56 +08:00
@sohoer 最近更新了,现在是纯 web 的了,不知道你试过没有
import.io 给通用的解决方案是后处理
我给通用的解决方案是直接写脚本

与其在一大片菜单中学习一堆新的概念,还不如学几段脚本容易
ddter
2016-04-11 18:26:27 +08:00
不是泼冷水啊,这个跟八爪鱼比起来有啥明显的优势吗。。。
jiezhi
2016-04-11 18:41:14 +08:00
牛人,学习坚持精神!
sohoer
2016-04-11 18:50:17 +08:00
@ddter 八爪鱼带个浏览器跑耗资源,好处是真的通用,八爪鱼能在 gae,openshift 上跑吗?
sohoer
2016-04-11 19:08:35 +08:00
@binux

现在的可视化配置功能是没几个选项的, 保留原来的功能配置是对这个通用型采集器的强化,
我不想要这个能用那个用不了的采集器。

拿知乎的模拟登录来说, import.io 是绝对实现不了的
知乎的登录做了几次跳转,有一次是读取 cookie 的值做的跳转
HanSonJ
2016-04-11 19:08:38 +08:00
我吓尿了,好厉害!
sohoer
2016-04-11 19:12:23 +08:00
@binux 刚刚看到,应该是最近几天更新的,好好玩一下
leafof
2016-04-11 19:18:01 +08:00
很牛!可惜暂时用不到
ftp11yyy
2016-04-11 19:30:38 +08:00
点赞,好厉害!
lemayi
2016-04-11 19:37:01 +08:00
太 nb 了!
alocne
2016-04-11 19:37:43 +08:00
好厉害
isb
2016-04-11 20:06:33 +08:00
惊呆。~ 好厉害!!
yylzcom
2016-04-11 21:00:18 +08:00
我见过的收藏人数最多的一个帖子
imWBB
2016-04-11 21:26:46 +08:00
点赞
xiaocsl
2016-04-11 21:34:39 +08:00
在以前的公司,有过类似的.
我负责前端,开发一个 Chrome 插件,来让人选择爬取的内容.

楼主这个,看功能要完善好多.犀利啊~
huijian222
2016-04-11 22:05:49 +08:00
cool
jaylong
2016-04-11 22:38:14 +08:00
好棒!
hpeng
2016-04-11 23:03:33 +08:00
好牛逼。读书的时候就有这个想法,但是并没有做下去。实在佩服,佩服。
h4lt
2016-04-11 23:12:31 +08:00
叼炸了。正好有相关的需要,学习学习。
strwei
2016-04-12 00:03:14 +08:00
功能强大到爆,可惜不适合小白用

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/270075

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX