来一起造作吧!有一个爬虫小框架等你来!

2017-11-23 14:30:05 +08:00
 intohole

https://github.com/intohole/xspider 是再重复造轮子!但让我们一起熟悉

xspider 简单 python 抓取框架

xspider

main.py:

    from xspider.spider.spider import BaseSpider
    from xspider.filters import urlfilter
    from kuailiyu import KuaiLiYu

if __name__ == "__main__":
    spider = BaseSpider(name = "kuailiyu"  , page_processor = KuaiLiYu() , allow_site = ["kuailiyu.cyzone.cn"] , start_urls = ["http://kuailiyu.cyzone.cn/"])
    spider.url_filters.append(urlfilter.UrlRegxFilter(["kuailiyu.cyzone.cn/article/[0-9]*\.html$","kuailiyu.cyzone.cn/index_[0-9]+.html$"]))
    spider.start()

kuailiyu.py
    from xspider import processor 
    from xspider.selector import xpath_selector
    from xspider import model

    class KuaiLiYu(processor.PageProcessor.PageProcessor):

        def __init__(self):
            super(KuaiLiYu , self).__init__()
            self.title_extractor = xpath_selector.XpathSelector(path = "//title/text()")

        def process(self , page , spider):
            items = model.fileds.Fileds()
            items["title"] = self.title_extractor.find(page)
            items["url"] = page.url
            return items

抓取部分有以下工程代码

3611 次点击
所在节点    Python
10 条回复
xiaozizayang
2017-11-23 16:25:48 +08:00
tamlok
2017-11-23 16:49:58 +08:00
intohole
2017-11-23 19:52:24 +08:00
@xiaozizayang 学习一下
intohole
2017-11-23 19:52:42 +08:00
@tamlok 好屌~
j1wu
2017-11-23 20:00:21 +08:00
JavaScript 版本助攻,向大家学习 Orz https://github.com/j1wu/cli-scraper
zhangysh1995
2017-11-23 21:39:56 +08:00
最近正好在学爬虫,收藏一个,楼主加油!
intohole
2017-11-24 10:16:11 +08:00
@j1wu 屌屌的
intohole
2017-11-24 15:08:22 +08:00
@zhangysh1995 里面的 api 没有整理 , 这个爬虫专门为了机器不足 时间来换的开发
coolloves
2017-12-01 11:12:16 +08:00
马克,学习
intohole
2017-12-01 12:56:34 +08:00
@coolloves  感谢关注

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/408881

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX