关于数据采集需求的讨论帖

2017-01-10 11:45:46 +08:00
 GrahamCloud

我们是马不停蹄不停迭代产品的小团队! 感谢大家的各种意见。 这个帖子里,我想跟大家认真讨论一下,大家平时写爬虫会是想采集什么数据,对一个通用爬虫,或者如果你们想定制爬虫,又会有什么要求。

另外,欢迎来看我们的新 ui :全新 ui 的造数页面在这里

论坛已经搭建好了,正在构思放什么资源上来方便大家,也欢迎意见。

7374 次点击
所在节点    程序员
62 条回复
bzzhou
2017-01-20 13:42:41 +08:00
太慢了
基于渲染的方式来抓取,玩玩小规模数据还可以,大规模抓取要消耗的资源可不是一般人可以承受的(当然,这种情况一般都可以定制了)。

从目前了解,如果纯粹是为了降低抓取门槛,八爪、火车头等一堆方案;如果是满足大规模的采集需求,这种一般都是定制开发。
GrahamCloud
2017-01-20 14:42:05 +08:00
@bzzhou 现在这版问题确实多,年后会进一步迭代。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/333557

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX