Node.js 实现的一个 Scrapy like 爬虫框架

2015-11-28 14:37:07 +08:00

SteveZhang1995

闲来无事想用 Node.js 写点东西练手，同时又想些爬虫，于是乎就有了这样一个爬虫项目。之前有过 Scrapy 的开发经验，于是乎就模仿 Scrpay 的 api 用 Node.js 实现了一套。
附上 github 地址： https://github.com/SteveZhangBit/leiobunum

名字取做 leiobunum 意思是长脚蜘蛛，感觉很形象啊～

本身 Node.js 就是异步 IO ，非常适合爬虫这种高 IO 的程序，并且本身 Scrapy 也是建立在 Twisted 上的，所以用 Node.js 实现起来简直爽歪歪。

自己还加上了一个 Redis 的支持，可以实现简单的分布式，实际测试原来要用数小时的爬去过程，缩短到了 10 来分钟，哈哈哈

欢迎大家 fork 和 star

8890 次点击

所在节点

Node.js

8 条回复

coolicer

2015-11-28 15:04:26 +08:00

什么文档都木有？

SteveZhang1995

2015-11-28 15:26:42 +08:00

@coolicer 呃，文档逐步完善。。。

jziwenchen

2015-11-28 15:48:07 +08:00

nodejs + jquery 来实现爬虫和数据分析感觉就像写前端一样呵呵.

carlhan

2015-11-28 15:59:26 +08:00

README 都没有？

SteveZhang1995

2015-11-28 21:55:59 +08:00

这几天我会尽快完善一下基本文档，给出一个最简单的例子

fishlee

2015-11-29 08:37:56 +08:00

不知道能不能搞 search 这种情况: 最终数据要 3 个级联页才能拿到。 get(获取参数)， post(中间页面，获取最终页地址及参数)， post(结果)

SteveZhang1995

2015-11-29 15:17:25 +08:00

@fishlee 目前爬虫只是最简单的形式，就是请求某个页面。对于这种情况，我觉得可能得用 phantomjs 才行

kan831019

2016-12-13 16:14:04 +08:00

@SteveZhang1995 casperjs

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/239624

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.