1.我理解 爬虫主要的问题在于网络阻塞,所以使用多线程弥补 HTTP 异步等待。
那么使用了gevent
解决网络问阻塞题,就不需要使用多线程吗?
2.python 多线程运行时,使用的是单核心,还是多核心?在多核心机器上运行
如果是单核心,能否同时使用多线程
与多进程
?
3.在 4 核心 8 线程的电脑上,开启单个进程 32 线程 python 运行,这些线程是怎么分配的?
4.当网络阻塞不是瓶颈,如何才能最大化使用单台电脑 CPU ?应该使用多线程还是多进程增大爬取速率?
5.使用消息队列分布式爬虫,等待的消息过多会不会存在内存或 CPU 问题?
6.使用消息队列是如何增大爬取速率的?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.