Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 3

验证码反爬的破解&安卓系统微博热搜爬取

一、打码平台

1. 验证码
类型:数字、算数、干扰、字母、滑块、汉字、图片
2. 使用场景:
注册、登录、频繁发送请求时,服务器会弹出验证码窗口进行验证。
3. 处理验证码
登录:手动登录
打码平台:超级鹰等
4. 打码平台 -- 超级鹰
步骤:
1. 对携带验证码的页面数据进行抓取。
2. 可以将页面数据中的验证码进行阶梯,把验证码图片下载到本地。
3. 将验证码图片提交给第三方平台进行识别,返回验证码图片上的数据值。
超级鹰官方网站:http://www.chaojiying.com
使用超级鹰步骤:
1. 访问超级鹰官方平台,注册账号,并向超级鹰官方充值。
2. 下载对应语言的 demo,修改 demo 中的账号密码,就可以使用超级鹰平台对各种验证码图片进行识别。

二、安卓系统微博热搜爬取

1. 抓包工具介绍

电脑浏览器抓包:F12--network
手机端 app 抓包工具:fiddler
(1) 移动设备
 手机:让电脑开热点,手机的网络请求,会经过电脑,经过电脑里面的 fiddler。
 手机模拟器(安卓模拟器):软件,安卓模拟器虚拟一台手机。
 手机设置:
① 手机连接电脑的 WiFi。
② 设置网络代理
找到自己电脑的 ip 地址。
端口号:8888
③ 抓包工具就可以获取到它的请求数据包
④ 设置完,到浏览器输入 IP 地址:端口号
下载 fiddler
 安卓模拟器的设置(需要打开 fiddler,否则无法连接网络)
进入设置,找到网络,点击修改网络
设置代理为 ip 地址 端口号是 8888
进入浏览器:ip 地址:8888
下载证书
设置证书名称
第一次安装证书,设置一个开机密码。

2. 数据包分析

通过 fiddler 找到关键数据包对应的 url

3. 代码示例

import requests
from jsonpath import jsonpath
# 加上
import urllib3
urllib3.disable_warnings()
url = ‘’
headers = {
‘User-Agent’:'Mozilla/5.0'
}
# verify 参数:是否信任证书
res = requests.get(url , headers = headers , verify = False)
res2 = res.json()
name = jsonpath (res2 , '$..desc')
print(name)

You might also like