Python 爬虫学到破解 js 卡了,知识储备不足。求接下来的学习指导。。

2018-04-04 21:11:27 +08:00
 dengshuang

已经会 requests,bs4,xpath,框架还不太熟,但 scrapy 也简单用过。 前几天爬了一个漫画站,http://www.shenmanhua.com/douluodalu/597.html 我需要的一段字符串,百度了下,说是没有解密的字符串。。 求接下来的学习路径,是学习 js 吗。(我现在连 python 都还是半吊子,也没有太多精力去学另一个编程语言啊。)

var mh_info = {imgpath: "J+8L+K<+?<+?=+K=+HJ+?=+K;+G:+G=+K?+??+><+K<+>H+><+K;+>>+><+K=+>?+>>+8L;?=+K>+GL+?J+8L"

8410 次点击
所在节点    Python
23 条回复
F1024
2018-04-04 21:48:51 +08:00
SingeeKing
2018-04-04 22:12:56 +08:00
request_html 然后让它渲染 js 解密
qsnow6
2018-04-04 22:16:21 +08:00
@F1024 瞬间终结
huluhulu
2018-04-04 22:45:29 +08:00
pyv8 直接运行 js 得到结果,看看变量是啥就行了。
之前爬 smzdm 跳转链接居然还是混淆的,也是直接算出来的。
wjm2038
2018-04-04 22:50:54 +08:00
找 js 里调用 mhinfo 的地方,一定有解密方法的,找到之后直接拷贝下来本地 nodejs 搞就行
qsnow6
2018-04-04 22:56:07 +08:00
常见的加密方法 RSA、MD5、BASE64、urlcode、urlencode 都可以 看看
manzhiyong
2018-04-04 23:05:06 +08:00
selenium 了解一下
lozzow
2018-04-05 00:42:33 +08:00
推荐使用 request_html,好用的一批
Trim21
2018-04-05 01:36:49 +08:00
原来还会慢慢找加密方式,现在懒了直接用 selenium 跑结果了
locoz
2018-04-05 04:12:34 +08:00
全局搜索是个好东西,pyexecjs 也是个好东西,两者结合起来就是找到解密部分直接用 python 调用。。
emric
2018-04-05 05:40:46 +08:00
sunwei0325
2018-04-05 09:09:17 +08:00
request_html 加载 js 底层是用 pyppeteer, 可以了解一下
azh7138m
2018-04-05 09:19:12 +08:00
@qsnow6 base64,urlencode 居然算作加密,可以可以
fiht
2018-04-05 09:26:31 +08:00
个人觉得,爬虫的发展方向应该是写越来越稳固,设计能够多机运行,部署简单,数据承载量大的爬虫。
死扣 JS 上升太慢了。MongoDB Hadoop Hbase Redis MQ 这种东西都可以了解了解。
DebugJS 真的费脑子,而且前景有限不方便以后转行。
dengshuang
2018-04-05 10:21:39 +08:00
@F1024 这只能遍历一种漫画,每一种漫画都是不一样的
dengshuang
2018-04-05 10:25:32 +08:00
@locoz 萌详细的说说吗?全局搜索
abcbuzhiming
2018-04-05 11:06:49 +08:00
说真的,除非你打算 JS 专精,否则真没必要去研究 JS 破解,这是一条逆向的道路,本身天赋和思路就和搞开发的不一样。再说了,再牛逼的 JS 加密你还不是要进浏览器,我上浏览器内核给你跑一遍,,什么结果不都出来了,无非就是慢一点,可能搜索引擎要求速度特快这个性能无法接受,但是我们自己的爬虫需要这么高的性能吗?
wizardforcel
2018-04-06 13:03:07 +08:00
@abcbuzhiming 爬虫不走逆向的道路就是等死,你连分内的事情都搞不定。
yamiedie
2018-04-06 23:56:02 +08:00
@F1024 每一章的图片个数有办法获取么,虽然不是事必要获取...
yamiedie
2018-04-06 23:57:01 +08:00
@wizardforcel 虽然爬虫不能做一辈子,但是也肯定要找好以后的出路...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/444401

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX