Professional Documents
Culture Documents
全国城市名称爬取项目案例
全国城市名称爬取项目案例
全国城市名称爬取
多方式精确抓取网络数据
项目分析及展开流程
Chrome 作为目标网页元素分析工具 Xpath 作为目标网页元素定位方
法
两类城市分别爬取程序编 两类城市统一爬取程序编
环境准备 网站分析 项目总结
写 写
环境准备
1 、安装 Python3.9.5
2 、配置系统环境变量( Path ),添加
Python 程序目录和 Python 脚本目录到系统
环境变量中
采用 Vscode 作为代码编辑器, Vscode 具
有轻便,功能强大、插件丰富、文本编辑
智能化等特点,可以边写程序边运行调试。
1 、安装中文插件
2 、安装 Python 解释器插件
3 、安装 jupyter 文本编辑插件
4 、更新 Python pip 组件、安装必要的依赖
包
网站分析
1 、打开 Chrome 浏览器
2 、按 F12 打开网页调试工具
3 、按调试器左上角按钮定位网
页元素
4 、定位热门城市名称在‘ //
div[@class=“bottom”]/ul/
li‘ 标签下
4 、定位全部城市名称在 './/
div[@class="bottom"]/ul/
div[2]/li‘ 标签下
两类城市分别爬取程序编写
安装抓取必须的应用包,并导入程序
%pip install requests
%pip install lxml
import requests
from lxml import etree
伪装 http 请求头,用 requests 的 get 方法获取访问 url 的返回值并将之用 etree 对
象的 HTML 实例化储存在变量里,共下面程序调用
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
url = 'https://www.aqistudy.cn/historydata/'
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
两类城市分别爬取程序编写