全国城市名称爬取项目案例

Uploaded by

tommy.zhang9939

0% found this document useful (0 votes)

1 views9 pages

Copyright

Available Formats

PPTX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pptx, pdf, or txt

0% found this document useful (0 votes)

1 views9 pages

全国城市名称爬取项目案例

Uploaded by

tommy.zhang9939

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pptx, pdf, or txt

Jump to Page

You are on page 1of 9

Search inside document

项目案例

全国城市名称爬取

多方式精确抓取网络数据
项目分析及展开流程
Chrome 作为目标网页元素分析工具 Xpath 作为目标网页元素定位方
法

选择合适的编译器，并安装确定目标网站网址，浏览目按照热门城市和全国城市分按照热门城市和全国城市汇项目输出及要点总结

爬虫必须的编程语言环境，标网站，通过 F12 调试工具别爬取总解析统一爬取
配置系统环境、软件插件环定位热门城市和全国城市网
境页元素属性和层级结构

两类城市分别爬取程序编两类城市统一爬取程序编
环境准备网站分析项目总结
写写
环境准备
1 、安装 Python3.9.5
2 、配置系统环境变量（ Path ），添加
Python 程序目录和 Python 脚本目录到系统
环境变量中
采用 Vscode 作为代码编辑器， Vscode 具
有轻便，功能强大、插件丰富、文本编辑
智能化等特点，可以边写程序边运行调试。
1 、安装中文插件
2 、安装 Python 解释器插件
3 、安装 jupyter 文本编辑插件
4 、更新 Python pip 组件、安装必要的依赖
包
网站分析
1 、打开 Chrome 浏览器
2 、按 F12 打开网页调试工具
3 、按调试器左上角按钮定位网
页元素
4 、定位热门城市名称在‘ //
div[@class=“bottom”]/ul/
li‘ 标签下
4 、定位全部城市名称在 './/
div[@class="bottom"]/ul/
div[2]/li‘ 标签下
两类城市分别爬取程序编写

安装抓取必须的应用包，并导入程序
%pip install requests
%pip install lxml
import requests
from lxml import etree
伪装 http 请求头，用 requests 的 get 方法获取访问 url 的返回值并将之用 etree 对
象的 HTML 实例化储存在变量里，共下面程序调用

headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
url = 'https://www.aqistudy.cn/historydata/'
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
两类城市分别爬取程序编写

# 数据解析 - 用 xpath 方法对 get 到的 HTML 整个文档中属性为 bottom 的 div 标

签下的 ul 标签下的 li 标签进行解析定位
hot_li_list = tree.xpath('//div[@class="bottom"]/ul/li')
all_city_names = []
# 解析热门城市名字 - 用 li 标签的 xpath 方法对当前 li 标签下的 a 标签下的唯一
一个文本列表元素进行循环解析定位并通过 append 方法放入 all_city_names 中
for li in hot_li_list:
hot_city_names = li.xpath('./a/text()')[0]
all_city_names.append(hot_city_names)
# 解析全部城市名字：原理同上，只是改成了属性为 bottom 的 div 标签下 ul 标
签下第二个 div 标签下的 li 标签下的 a 标签的唯一一个文本列表元素放入
all_city_names 中
city_names_list = tree.xpath('.//div[@class="bottom"]/ul/div[2]/li')
for li in city_names_list:
city_name = li.xpath('./a/text()')[0]
all_city_names.append(city_name)
两类城市汇总爬取程序编写

# 数据解析 - 按照上述网页 xpath 解析方法，对热门城市和全部城市用 ‘ |’ 连接符号进行连

接与操作，减少代码量，增加可读性，提高代码效率
a_list = tree.xpath('//div[@class="bottom"]/ul/li/a | //div[@class="bottom"]/ul/div[2]/li/a ')
all_city_names = []
for a in a_list:
a_name = a.xpath('./text()')[0]
all_city_names.append(a_name)
两种编写方法均成功爬取了数据并输出了正确结果，但联合抓取
数据的代码更简洁更易读，运行输出结果更快。 VSCODE 运行
时间前者为 0.5 秒，后者为 0.4 秒（前者扣除包安装时间）
程序运行结果，输出了 399 个全国城市，输出结果前十个为热门城市
感谢老师的教授和辛勤付出

使用Python进行SCDM脚本建模攻略
Document30 pages
使用Python进行SCDM脚本建模攻略
ding liu
No ratings yet
03 ROS基础
Document55 pages
03 ROS基础
Hewei Gao
No ratings yet
Python与简单网络爬虫的编写 - Python开发技术文章 - 教程 - 红黑联盟
Document5 pages
Python与简单网络爬虫的编写 - Python开发技术文章 - 教程 - 红黑联盟
Cheng Lu
No ratings yet
大数据应用与服务赛项样题第04套
Document14 pages
大数据应用与服务赛项样题第04套
1048227540
No ratings yet
(New) 基于arcgis的python编程秘笈（第2版）
Document284 pages
(New) 基于arcgis的python编程秘笈（第2版）
bjfx88521
No ratings yet
CodeWarrior 基本使用教程
Document58 pages
CodeWarrior 基本使用教程
c790629782
No ratings yet
Python培训预备内容
Document63 pages
Python培训预备内容
geyunbo
No ratings yet
开发实训讲义1
Document27 pages
开发实训讲义1
Bukong Li
No ratings yet
尚硅谷大数据之flink教程 Java版
Document96 pages
尚硅谷大数据之flink教程 Java版
Yufei Amazon
No ratings yet
Linux操作系统下C语言编程入门
Document104 pages
Linux操作系统下C语言编程入门
Weiyi Lu
No ratings yet
Python網路爬蟲 PDF
Document111 pages
Python網路爬蟲 PDF
Kate Lin
No ratings yet
2 ROS系統通訊機制與文件組織架構
Document12 pages
2 ROS系統通訊機制與文件組織架構
楷祥廖
No ratings yet
第16章常用Web框架背记手册
Document3 pages
第16章常用Web框架背记手册
Liqun
No ratings yet
4. Python常用的50个第3方模块及说明
Document3 pages
4. Python常用的50个第3方模块及说明
atest0808qq
No ratings yet
HTML
Document18 pages
HTML
ddd
No ratings yet
PDF
Document179 pages
PDF
贝贝宋
No ratings yet
Csharp
Document166 pages
Csharp
Nicolas Yan
No ratings yet
超简单：用Python让Excel飞起来
Document360 pages
超简单：用Python让Excel飞起来
O Z
No ratings yet
Rmarkdown入门教程庄闪闪
Document30 pages
Rmarkdown入门教程庄闪闪
黑格尔法
No ratings yet
尚硅谷react全家桶
Document30 pages
尚硅谷react全家桶
Seraphina Christoph Liang
No ratings yet
Sword开发手册
Document170 pages
Sword开发手册
txzhou
No ratings yet
Jetpack架构组件从入门到精通
Document136 pages
Jetpack架构组件从入门到精通
gcy2014
No ratings yet
【不周山之读薄 CSAPP】贰机器指令与程序优化
Document39 pages
【不周山之读薄 CSAPP】贰机器指令与程序优化
刘岑岑
No ratings yet
小程序开发实践@
Document57 pages
小程序开发实践@
lucasllin
No ratings yet
01-全套Nuxt js服务端渲染完整教程
Document41 pages
01-全套Nuxt js服务端渲染完整教程
茗猫
No ratings yet
Lynx设计系统用户手册中文翻译
Document291 pages
Lynx设计系统用户手册中文翻译
hukuhei you
No ratings yet
G RPCå É Æ Ç
Document76 pages
G RPCå É Æ Ç
李朋洋
No ratings yet
尚硅谷react全家桶
Document26 pages
尚硅谷react全家桶
Seraphina Christoph Liang
No ratings yet
Python爬虫实战入门教程州的先生
Document51 pages
Python爬虫实战入门教程州的先生
lhz.macro
No ratings yet
编程环境和软件工具安装手册
Document75 pages
编程环境和软件工具安装手册
hope
No ratings yet
云打印C-Lodop技术手册6 5 7 1（20221115）
Document28 pages
云打印C-Lodop技术手册6 5 7 1（20221115）
是你呀馒头
No ratings yet
用Changedetection监控网页的变化杨浦老苏的博客-CSDN博客 PDF
Document21 pages
用Changedetection监控网页的变化杨浦老苏的博客-CSDN博客 PDF
Bob
No ratings yet
Patchwork APT组织针对某医疗卫生机构相关人员与巴基斯坦国防官员攻击活动分析
Document6 pages
Patchwork APT组织针对某医疗卫生机构相关人员与巴基斯坦国防官员攻击活动分析
Xia Tang
No ratings yet
iOS 自动化测试
Document7 pages
iOS 自动化测试
Sally green
No ratings yet
《Python脚本速查手册》
Document21 pages
《Python脚本速查手册》
hc1724623580
No ratings yet
02 尚硅谷大数据之实时数仓 DWD层数据准备 V2.0
Document28 pages
02 尚硅谷大数据之实时数仓 DWD层数据准备 V2.0
Yufei Amazon
No ratings yet
永安在线黑产大数据：黑产攻击流程自动化体系
Document27 pages
永安在线黑产大数据：黑产攻击流程自动化体系
Orange Little
No ratings yet
10大免費網路軟體工具
Document17 pages
10大免費網路軟體工具
nainzu
No ratings yet
第六天笔记
Document8 pages
第六天笔记
汪圣
No ratings yet
Safari - 2022年10月30日上午10:03
Document1 page
Safari - 2022年10月30日上午10:03
94pjnn9qxz
No ratings yet
Python自动化开发课程2 2版
Document24 pages
Python自动化开发课程2 2版
johnny zhou
No ratings yet
cobalt strike 快速上手 (一) - klion's blog
Document37 pages
cobalt strike 快速上手 (一) - klion's blog
mrzhmud
No ratings yet
龙芯 1B1C 驱动程序用户手册
Document38 pages
龙芯 1B1C 驱动程序用户手册
emily zhang
No ratings yet
Linux基础update
Document17 pages
Linux基础update
李平和
No ratings yet
zz 网络安全试题（8）
Document20 pages
zz 网络安全试题（8）
nihao
No ratings yet
Termux 高階終端安裝
Document5 pages
Termux 高階終端安裝
jet htc
No ratings yet
CTF编码课件
Document72 pages
CTF编码课件
Yue Pan
No ratings yet
go rpc 开发指南
Document112 pages
go rpc 开发指南
Alvin Zhang
No ratings yet
OS 网络编程杂谈-陈硕
Document14 pages
OS 网络编程杂谈-陈硕
Amal Pushp
No ratings yet
CPP Practice
Document171 pages
CPP Practice
quanxu88
No ratings yet
WinProladder初学指南
Document19 pages
WinProladder初学指南
david
No ratings yet
阿里巴巴安卓手册
Document68 pages
阿里巴巴安卓手册
pocket mo.
No ratings yet
Go 语言设计与实现
Document422 pages
Go 语言设计与实现
Alvin Zhang
No ratings yet
QGM.B010.E 2016数据要求说明书
Document8 pages
QGM.B010.E 2016数据要求说明书
yanrubin2010
No ratings yet
EdgeBoard Lite Ug
Document37 pages
EdgeBoard Lite Ug
Nicoli Lourenço
No ratings yet
《移动平台应用开发》实验指导书
Document22 pages
《移动平台应用开发》实验指导书
playeafootball
No ratings yet
前后端分离框架之API接口与分析 - 红色书籍抽奖系统 - 张许
Document2 pages
前后端分离框架之API接口与分析 - 红色书籍抽奖系统 - 张许
2783713236
No ratings yet
黑客最常用的10款黑客工具类似maltego 的软件-CSDN博客
Document1 page
黑客最常用的10款黑客工具类似maltego 的软件-CSDN博客
kevin161046
No ratings yet
Spring Boot
Document80 pages
Spring Boot
xunyiren0557864
No ratings yet
搭建自己的 VPN 服务器分步指南: 搭建 VPN
From Everand
搭建自己的 VPN 服务器分步指南: 搭建 VPN
Lin Song
No ratings yet
KDE 综览
Document136 pages
KDE 综览
zwl.zhcn
100% (3)
Abaqus二次开发专题
Document33 pages
Abaqus二次开发专题
Xinwei Fu
No ratings yet
download IntelliJ-IDEA13基础教程
Document71 pages
download IntelliJ-IDEA13基础教程
Linus Harri
No ratings yet
3 面向对象设计SOLID设计原则
Document1 page
3 面向对象设计SOLID设计原则
Criss Fu
No ratings yet
开源9 200809
Document126 pages
开源9 200809
Yongwei Bao
100% (1)
SAP CR500课程中文自学笔记
Document256 pages
SAP CR500课程中文自学笔记
sgct00454
No ratings yet
ArchiCAD 绿色节能分析BIM解决方案
Document33 pages
ArchiCAD 绿色节能分析BIM解决方案
uuo
No ratings yet
快速中文版 PDF
Document36 pages
快速中文版 PDF
se yooo
No ratings yet
Agreement
Document6 pages
Agreement
Aaa Bbb
No ratings yet
帮助
Document13 pages
帮助
哈啦網咖電競背包客棧
No ratings yet
Electron 跨平台开发实战
Document35 pages
Electron 跨平台开发实战
严状
No ratings yet
Taro 文档 - 其他
Document20 pages
Taro 文档 - 其他
刘勇俊
No ratings yet
OllyDBG 完美教程 (超强入门级)
Document58 pages
OllyDBG 完美教程 (超强入门级)
oks1998
No ratings yet
KOMPLETE KONTROL MK2+2.0+中文说明书
Document291 pages
KOMPLETE KONTROL MK2+2.0+中文说明书
fan
No ratings yet
SENTRY方案
Document24 pages
SENTRY方案
Ko Duan
No ratings yet
乐彼W系列ASIO驱动安装及foobar等配置和固件升级指引V1 05
Document14 pages
乐彼W系列ASIO驱动安装及foobar等配置和固件升级指引V1 05
1262777199
No ratings yet
News EPLAN ZH CN PDF
Document228 pages
News EPLAN ZH CN PDF
mjimenezg
No ratings yet
(B) QML葵花宝典
Document471 pages
(B) QML葵花宝典
Dongchi Yi
No ratings yet
Better Penetration Studio Instructions
Document7 pages
Better Penetration Studio Instructions
猫咕咕
No ratings yet
软件使用帮助
Document4 pages
软件使用帮助
赵继伟
No ratings yet
應用軟體服務注意事項及常見問題
Document14 pages
應用軟體服務注意事項及常見問題
van79711
No ratings yet
我和labview
Document215 pages
我和labview
RockyFu
No ratings yet
abb集成视觉应用手册
Document122 pages
abb集成视觉应用手册
xy
No ratings yet
Blur's good brush 6.0 Pro使用手册
Document16 pages
Blur's good brush 6.0 Pro使用手册
jihyae lim
No ratings yet
Web3.0 控件开发包编程指南 PDF
Document33 pages
Web3.0 控件开发包编程指南 PDF
Marcelo Contreras
No ratings yet
基于BIM-COBie技术的建筑设施信息化管理
Document7 pages
基于BIM-COBie技术的建筑设施信息化管理
John Pan
No ratings yet
Taro 文档 React
Document64 pages
Taro 文档 React
刘勇俊
No ratings yet
PyCharm 中文指南（Win版）v2.0
Document220 pages
PyCharm 中文指南（Win版）v2.0
zhiyang jia
No ratings yet