拉勾网 python 相关职位爬取以及分析展示,希望各位批评指正

2016-07-07 22:31:28 +08:00
 namco1992

个人练手的小项目,主要逻辑如下: 利用 scrapy 框架对拉勾网上的职位进行抓取,数据存储至 mongodb 中,后续进行进一步分析导出 json 格式数据,利用 fabric + 定时任务上传更新数据至服务器,完成自动部署。目前仅做了对 python 相关职位的抓取。

至于抓取回来的数据,其实并没有做什么分析,只是归类展示。对于关键词的整理,算是用了比较 trick 的方法,通过正则匹配出所有英文单词,排除掉某些不需要的词组,然后进行词频的排序,得出了一个高频关键词的结果。但是这个不算是方法的方法,势必会遗漏掉某些可能是通过中文描述的关键词组,所以还望有经验的前辈指教。

数据展示网站示例:http://107.170.207.236/job_analysis/(就是台 DO 的 5 刀服务器,各位高抬贵手)

数据展示项目地址:https://github.com/namco1992/job_analysis

爬虫项目地址:https://github.com/namco1992/lagou_crawler

本人前端苦手,现在只是做了一个非常简陋的展示,没有做更进一步的分析。也希望感兴趣的朋友能提些不同维度分析的建议,当然也非常欢迎直接提 issue 或者 Pull Request 。

我个人想到的还有通过地域维度分析薪酬情况,或者增加更多类别的工作岗位抓取。也希望大家有其他想法的话能够不吝赐教。

最后,如果能给个 star ,那就是对我莫大的支持了。再次感谢!

6340 次点击
所在节点    Python
28 条回复
wslsq
2016-07-08 22:34:46 +08:00
楼主做的还不错!赞!期待能制作一个前端方面的,谢谢!
namco1992
2016-07-09 08:58:10 +08:00
@wslsq 可以啊,有时间就多做几种职位,你也可以 fork 回去自己做~
GeekGao
2016-07-09 23:41:19 +08:00
很酷的 idea
GeekGao
2016-07-09 23:44:58 +08:00
提个小建议哈,楼主可以基于招聘网站需求,搞个“技术雷达”,分析下,排除语言条件外,用啥具体的技术, offer 会更高
namco1992
2016-07-10 09:40:42 +08:00
@GeekGao 多谢建议~
heamon7
2016-07-10 11:45:03 +08:00
非常赞!
namco1992
2016-07-10 18:19:48 +08:00
@heamon7 谢谢鼓励~
Toddz
2016-07-19 17:04:39 +08:00
想问下有添加什么反反爬虫措施吗? 几个月前自己用 requests 写的爬虫现在又试了试差不多 20 页左右就被封了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/290997

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX