就 web 爬虫来说, scrapy, selenium 之类的爬虫框架和自己用 chrome 扩展做爬虫有啥区别?

2023-09-17 15:58:39 +08:00
Features  Features
就 web 爬虫来说,scrapy ,selenium 之类的爬虫框架和自己用 chrome 扩展做爬虫有啥区别?
大家平时用哪个呢?
4378 次点击
所在节点   程序员  程序员
29 条回复
streamrx
streamrx
2023-09-17 21:43:43 +08:00
churchill
churchill
2023-09-17 21:49:06 +08:00
2023 年了,忘掉 selenium 用 puppeteer 吧,
至于离开浏览器写代码爬,恕我直言,跟反爬网站斗智斗勇的时间成本足够你雇一打刚毕业的小姑娘人工爬了
chengxiao
chengxiao
2023-09-17 21:57:13 +08:00
反爬跟框架有啥关系......
框架纯粹就是工程管理而已 爬一个和爬十个的区别
自己爬 1-2 个站的 无所谓你用什么都能写
但是涉及的网站数十数百,不同网站不同规则不同频率
以及数据入库规则等 就要用框架来管理了
ch2
ch2
2023-09-17 22:36:36 +08:00
当你技术好到能够写很牛逼的爬虫的时候,法律风险就会驱使你去找一份正经的工作,毕竟干别的也不会少拿多少钱
cherryas
cherryas
2023-09-18 09:02:06 +08:00
@churchill 你简直是我的 v 站嘴替了
ohhal
ohhal
2023-09-18 11:17:20 +08:00
@ch2 老哥说的对
guch99999
guch99999
2023-09-18 14:44:42 +08:00
@ch2 太对了
locoz
locoz
2023-09-18 22:18:48 +08:00
@Features #15 不清楚,我一般不用浏览器渲染,直接调接口较多,用浏览器渲染的时候都是量不大偷懒的情况,用哪个无所谓。
locoz
locoz
2023-09-18 22:35:31 +08:00
@ch2 #22 有一说一,我认识的一些爬虫领域高水平从业者转方向(安全、架构、AI 、搜索引擎、算法、法务、自己开公司)的,核心原因都跟法律风险没太大关系,更多的还是觉得腻了或是累了,又或者是找到了新的兴趣点的。

而且觉得腻了和累了的这两种情况的差异还挺大,觉得腻了的是需要处理的东西基本没什么攻防对抗,大部分都可以套路化通杀,在框架早就搭好的情况下分分钟就能解决新需求或应对新改动,平时闲得都研究别的去了;觉得累了的是需要处理的东西几乎全都是各种高强度攻防对抗的,时不时就得加班研究对方又改了什么。

会因为法律风险驱使换工作或转方向的,更多是公司就是直接卖数据、自己不怎么加工数据的情况,这种本来就极其容易被找上门。但凡是基于采集到的数据做了处理,再作为产品对内外提供正经服务的,都没多大问题。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/974592

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX