今天给你分享一下篇反反爬的实例。
一个思路,也许给你带来些许启发..
也许你会遇到这样的请款:
打开某个网站,可以看到页面是正常显示的,但是当你通过 Python
去请求的时候,你会得到一堆无厘头的 JS..
像这样的操作,应该怎么玩呢?接下来由【小帅b的朋友:lin】给大家演示一下。
当你使用 requests 请求的时候,得到的是这样的:
data:image/s3,"s3://crabby-images/e8c61/e8c61bfe54390d14245f34db8bbbfcbfd5ffd21a" alt="Python爬虫js逆向"
这时候就要看看是不是用啥了,是不是协议头问题呢?
data:image/s3,"s3://crabby-images/93236/932366701cf11c15e5cb5d113ecebfeca1aad3d4" alt="Python爬虫js逆向"
通过不断的测试 最终确定是 cookie 中 acw_sc__v2 的问题。
那不就好办了 我们使用一个hook:
1 | (function () { |
这段hook有俩种使用方式:一是油猴、二是fd插件。看各位的喜好啦!
打上 hook,打开 F12 调试器,刷新网页,先是遇到了无限debugger:
data:image/s3,"s3://crabby-images/9de0b/9de0bd1c7690855e87d97ac8d8579491826aca7b" alt="Python爬虫js逆向"
常规的做法是在 debugger 一行左边右键选择 never pause here:
data:image/s3,"s3://crabby-images/4ad6a/4ad6a2c3ed13eafd78071061c557549f61f529a0" alt="Python爬虫js逆向"
接着F8放行断点就行了
如果没有断下来 先清除cookie在刷新网页:
data:image/s3,"s3://crabby-images/5e657/5e65719c4b20fb35a00a5274c7851767fea1c85a" alt="Python爬虫js逆向"
很快就能看到cookie被hook下来了
接着在 call stack 往上找:
data:image/s3,"s3://crabby-images/9342c/9342ceb6516dad9bb47e053bdad81a81fa233c33" alt="Python爬虫js逆向"
到 reload 这里看到 x 是我们需要的值,然后再往上堆栈就进入了虚拟机:
data:image/s3,"s3://crabby-images/983c0/983c00633fdece7fb26af6ab387f7569c532915c" alt="Python爬虫js逆向"
通过观察原来是在settimeout里面做了操作:
data:image/s3,"s3://crabby-images/7e8ef/7e8efc01632669fa5890f240c67e3dd6b2f58190" alt="Python爬虫js逆向"
所以我们所需要分析的逻辑就变为了:
var _0x23a392 = arg1
_0x55f3(‘0x19’, ‘\x50\x67\x35\x34’);
arg2 = _0x23a392
_0x55f3(‘0x1b’, ‘\x7a\x35\x4f\x26’);
不懂的人会看不懂这种混淆代码,其实这是一种ob混淆,可以看到很多函数名变量名基本被混淆了的。
但是不用慌 我们可以通过 AST 的方法或者硬刚的方法来解决:
data:image/s3,"s3://crabby-images/7b21c/7b21cfd340e2479ef6bd807c496710a6167743fc" alt="Python爬虫js逆向"
可以看到只需要把解密函数的代码圈起来就能拿到解密后的值,我们就可以按照这个来分析改写了。
这里使用了arg1:
data:image/s3,"s3://crabby-images/74ae4/74ae42fea3e52053c0e323cd96f719c3c3bc326a" alt="Python爬虫js逆向"
arg1就在页面上层能找到:
data:image/s3,"s3://crabby-images/d6b96/d6b963e4f4bd2b9c7c13c11b2425dee0ca7de5b3" alt="Python爬虫js逆向"
然后整个圈起来:
data:image/s3,"s3://crabby-images/70150/70150a42b9b35fce82775acd3b7dfcd726e6469e" alt="Python爬虫js逆向"
扣和改就行了 工作量不会很大:
data:image/s3,"s3://crabby-images/220d3/220d36687f2181a6d52c25952d8ccbe9d0715957" alt="Python爬虫js逆向"
还原改写后运行试试看,会看到报一个错,缺少提示的变量,那我们就去 js 里面找这个值:
data:image/s3,"s3://crabby-images/1e5eb/1e5eb48f669ba3f5b30e2173b1d8e202862cccf2" alt="Python爬虫js逆向"
找到这一段值补上即可,通过几次刷新尝试,发现这段值是固定的,所以可以写死。
data:image/s3,"s3://crabby-images/dad16/dad167304402daf3aaa4155f9fa34337936fac1d" alt="Python爬虫js逆向"
补完后运行:
data:image/s3,"s3://crabby-images/68afd/68afd226a383aeba631a34a3943dd5e1ef3cd198" alt="Python爬虫js逆向"
发现和网页计算的一模一样,那我们这个值就正确啦。
data:image/s3,"s3://crabby-images/999ff/999ff799cdb65fbabe79ed7b11f1d7cfd4c7795a" alt="Python爬虫js逆向"
最后我们用python实现:
data:image/s3,"s3://crabby-images/cbf40/cbf400a6194fd182591e743879286a5bd27bc415" alt="Python爬虫js逆向"
完美!撒花~~