Welcome to Scribd!

Skip carousel

0% found this document useful (0 votes)

3 views

Report

Uploaded by

Eden

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

中间件漏洞 20220320193155
Document67 pages
中间件漏洞 20220320193155
hao hao
No ratings yet
Phithon CTF比赛总是输？你还差点Tricks!
Document49 pages
Phithon CTF比赛总是输？你还差点Tricks!
陳佳佑
No ratings yet
Linux内核与程序设计实验指导
Document27 pages
Linux内核与程序设计实验指导
闵和祥
No ratings yet
JDBC
Document46 pages
JDBC
chengkai yu
No ratings yet
php马-bypass - alin'Blog
Document15 pages
php马-bypass - alin'Blog
Jsjdjs Jsudjsja
No ratings yet
基于Tensorflow2.0和LSTM的文本多分类实战 - keras.preprocessing.text import tokenizer tensorfl - -派神-的博客-CSDN博客
Document16 pages
基于Tensorflow2.0和LSTM的文本多分类实战 - keras.preprocessing.text import tokenizer tensorfl - -派神-的博客-CSDN博客
joseph chen
No ratings yet
MATLAB程序设计及应用实例
Document60 pages
MATLAB程序设计及应用实例
dust Assassin
No ratings yet
AppCMS v2.0 代码审计
Document15 pages
AppCMS v2.0 代码审计
DWES
No ratings yet
那些年我们一起学XSS by It-eBooks
Document187 pages
那些年我们一起学XSS by It-eBooks
alimad0900
No ratings yet
Pythonç È È Æ
Document14 pages
Pythonç È È Æ
Blue Mount
No ratings yet
SpringMVC配合Fastjson的内存马利用与分析 PDF
Document7 pages
SpringMVC配合Fastjson的内存马利用与分析 PDF
DWES
No ratings yet
Echo框架 PDF
Document142 pages
Echo框架 PDF
Francis Chen
No ratings yet
PHP基礎資料整理
Document24 pages
PHP基礎資料整理
翟鴻榮
No ratings yet
React Note
Document4 pages
React Note
Jiaqi Wu
No ratings yet
Flac3d 实例分析教程
Document47 pages
Flac3d 实例分析教程
York
No ratings yet
GO专家编程
Document215 pages
GO专家编程
奉先
No ratings yet
laravel 9课件（php.cn）
Document31 pages
laravel 9课件（php.cn）
glacierchatgpt
No ratings yet
Python标准库
Document329 pages
Python标准库
suwei007
No ratings yet
元动力mybatis教程
Document134 pages
元动力mybatis教程
s't'range jake
No ratings yet
Python 入门网络爬虫之精华版
Document6 pages
Python 入门网络爬虫之精华版
frank
No ratings yet
Database Management Specification
Document25 pages
Database Management Specification
li hyperion
No ratings yet
郝斌Java笔记
Document113 pages
郝斌Java笔记
Adolph Churchill
No ratings yet
4、JS
Document20 pages
4、JS
2815138039
No ratings yet
Html&css&js
Document21 pages
Html&css&js
甘甘铠轩
No ratings yet
Python面试大全
Document59 pages
Python面试大全
ほう子じゃん
No ratings yet
16 尚硅谷 JSON、Aajx、i18n
Document23 pages
16 尚硅谷 JSON、Aajx、i18n
orangels19811023
No ratings yet
尚硅谷大数据之flink教程 Java版
Document96 pages
尚硅谷大数据之flink教程 Java版
Yufei Amazon
No ratings yet
01 JavaScript面向对象
Document29 pages
01 JavaScript面向对象
amy Yab
No ratings yet
3 域渗透
Document18 pages
3 域渗透
lizhi1231999
No ratings yet
AWD之赛前培训
Document64 pages
AWD之赛前培训
Yue Pan
No ratings yet
前端技术总结 07081756
Document525 pages
前端技术总结 07081756
Hello WEI
No ratings yet
(學號姓名) PHP存取資料庫實務測試 20210623 (範本)
Document53 pages
(學號姓名) PHP存取資料庫實務測試 20210623 (範本)
梁卓健
No ratings yet
20阿里字节一套高效的iOS面试题2020年2月
Document47 pages
20阿里字节一套高效的iOS面试题2020年2月
以少年之名
No ratings yet
11JDBC基础知识
Document35 pages
11JDBC基础知识
Nick Panli
No ratings yet
OAF笔记
Document22 pages
OAF笔记
Jun Zhu
No ratings yet
Buffer Overflow C
Document20 pages
Buffer Overflow C
chengugeself
No ratings yet
Go安全指南
Document21 pages
Go安全指南
aisha wen
No ratings yet
java编程规范（Adobe阅读无乱码）
Document72 pages
java编程规范（Adobe阅读无乱码）
fengkang chen
No ratings yet
15 - 尚硅谷 - Filter过滤器 - 王振国 - 课堂笔记
Document17 pages
15 - 尚硅谷 - Filter过滤器 - 王振国 - 课堂笔记
orangels19811023
No ratings yet
PHP網頁設計語法整理
Document10 pages
PHP網頁設計語法整理
ChiHua0826
100% (2)
【朝夕教育】2023Web前端进阶面试题 230130
Document28 pages
【朝夕教育】2023Web前端进阶面试题 230130
changxuanyuan
No ratings yet
Solaris 操作系统上的核心转储管理
Document13 pages
Solaris 操作系统上的核心转储管理
liang chen
No ratings yet
2 Python爬虫课件
Document41 pages
2 Python爬虫课件
brian
No ratings yet
(3 1 1) - 第三周数据获取与表示课件
Document55 pages
(3 1 1) - 第三周数据获取与表示课件
Pandeng Li
No ratings yet
Spring Boot
Document80 pages
Spring Boot
xunyiren0557864
No ratings yet
04 尚硅谷尚筹网后台管理员登录
Document15 pages
04 尚硅谷尚筹网后台管理员登录
kang.bo
No ratings yet
JDBC核心技术
Document47 pages
JDBC核心技术
linlin zhang
No ratings yet
Python 1
Document34 pages
Python 1
TONG Huang
No ratings yet
《Java面试手册》
Document165 pages
《Java面试手册》
tyfzpb
No ratings yet
1 决策树 live
Document16 pages
1 决策树 live
suzytang5544
No ratings yet
JVM性能优化相关问题
Document19 pages
JVM性能优化相关问题
gary hu
No ratings yet
Pytest官方文档翻译
Document150 pages
Pytest官方文档翻译
long wang
No ratings yet
爬虫
Document7 pages
爬虫
gaoyuanxia0415
No ratings yet
郝斌数据结构笔记
Document68 pages
郝斌数据结构笔记
Adolph Churchill
No ratings yet
2.第2部分软件测试与维护基础教程白盒测试 20221218 PDF
Document166 pages
2.第2部分软件测试与维护基础教程白盒测试 20221218 PDF
Gura Gawr
No ratings yet
Perl程式設計語法整理
Document9 pages
Perl程式設計語法整理
ChiHua0826
100% (1)
SGG Elasticsearch PDF
Document125 pages
SGG Elasticsearch PDF
cvkbhkfjg
No ratings yet
Cpe Guide
Document23 pages
Cpe Guide
Weng Yan
No ratings yet
永遠的依靠 PDF
Document1 page
永遠的依靠 PDF
Chea Ru Yen
No ratings yet
小程序开发实践@
Document57 pages
小程序开发实践@
lucasllin
No ratings yet
写字教学2
Document83 pages
写字教学2
Arene Yeu
No ratings yet
Unity Input System
Document9 pages
Unity Input System
cychiu1215
No ratings yet
Ict 精簡筆記：網頁編寫 (HTML)
Document3 pages
Ict 精簡筆記：網頁編寫 (HTML)
Aime Thome de Gamond
No ratings yet

Report

Uploaded by

Eden

0% found this document useful (0 votes)

3 views3 pages

Original Title

report

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

0% found this document useful (0 votes)

3 views3 pages

Report

Uploaded by

Eden

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

Jump to Page

You are on page 1of 3

Search inside document

爬取豆瓣图书Top250实验报告

实验目的

通过实验熟悉爬虫的基本步骤：载入、解析、存储
学习运用 scrapy 框架
了解html、css、json基础知识

实验过程

1. 设计爬虫步骤
检查豆瓣图书Top250 网页源代码，发现下一页链接结构如下

1 <span class="next">
2 <link rel="next" href="https://book.douban.com/top250?start=25"/>
3 <a href="https://book.douban.com/top250?start=25" >后页></a>
4 </span>

故可以利用 scrapy 文档给出的方法如下遍历所有页数

1 next_page = response.css('span.next a::attr(href)').get()

2 if next_page is not None:
3 yield response.follow(next_page, callback=self.parse)

检查每本书的网页结构，发现路径为 tr.item ，对应链接结构

1 <div class="pl2">
2 <a href="https://book.douban.com/subject/1007305/"
onclick="moreurl(this,{i:'0'})" title="红楼梦">
3 红楼梦
4 </a>
5 </div>

故可以如下进入每本书的链接

1 for book in response.css('tr.item'):

2 book_link = book.css('div.pl2 a::attr(href)').get()
3 yield scrapy.Request(url=book_link, callback=self.parse_book)

2. 提取书本信息
我们在Spider类下设计一个新方法 parse_book(self, response) 用于提取每本书的信息

检查发现每本书的信息(键值对)不尽相同，如《1984》中包含"译者"，"出品方"等键，但像《活着》中没
有。故如果采用提前设定好items.py中的键值对结构则需了解所有图书的键值对种类，不太方便。我采用
先将信息提取出来转换成字符串，然后再对该字符串操作转换成字典进行存储
首先书名和评分比较简单，检查源代码后发现可以通过 response.css('title::text').get() 和
response.css('strong::text').get() 得到

其余信息位于 <div id="info" class="">...<\div> 中，我们先设 response.css('div #info

::text') ，然后分奇偶将信息设置为键值对

1 for i in info:
2 j = i.get().strip().replace('\n','').replace(':','')
3 if j:
4 s = s + '"'+ j + '"'
5 if t % 2 == 0:
6 s += ':'
7 else:
8 s += ','
9 t += 1

其中 s 是储存信息的字符串， t 是计数器

3. 储存数据
利用 eval() 将字符串转换成字典，然后储存到JSON文件中

1 sample = eval(s)
2 file = open('result.json','a',encoding='utf8')
3 file.write(json.dumps(sample,ensure_ascii=False))
4 file.write('\n')
5 file.close

问题&解决

403 forbidden
response.status=403 ，爬虫被禁止访问

解决方案：在setting.py中修改user-agent

1 USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,

like Gecko) Chrome/111.0.0.0 Safari/537.36 Edg/111.0.1661.44"

上述USER_AGENT可在浏览器中"检查"-"网络"中找到。

另外可在setting.py中添加 LOG_LEVEL = "WARNING" ，使得在使用 scrapy shell 输出信息更简洁。

对于爬虫频繁导致IP请求异常的，可以通过设置代理或登录解决。

提取到的数据包含大量空格换行符
解决方案：使用 .strip() 、 .replace('\n','') 等方法

参考

1. Scrapy官方文档
2. 菜鸟教程: Scrapy 入门

中间件漏洞 20220320193155
Document67 pages
中间件漏洞 20220320193155
hao hao
No ratings yet
Phithon CTF比赛总是输？你还差点Tricks!
Document49 pages
Phithon CTF比赛总是输？你还差点Tricks!
陳佳佑
No ratings yet
Linux内核与程序设计实验指导
Document27 pages
Linux内核与程序设计实验指导
闵和祥
No ratings yet
JDBC
Document46 pages
JDBC
chengkai yu
No ratings yet
php马-bypass - alin'Blog
Document15 pages
php马-bypass - alin'Blog
Jsjdjs Jsudjsja
No ratings yet
基于Tensorflow2.0和LSTM的文本多分类实战 - keras.preprocessing.text import tokenizer tensorfl - -派神-的博客-CSDN博客
Document16 pages
基于Tensorflow2.0和LSTM的文本多分类实战 - keras.preprocessing.text import tokenizer tensorfl - -派神-的博客-CSDN博客
joseph chen
No ratings yet
MATLAB程序设计及应用实例
Document60 pages
MATLAB程序设计及应用实例
dust Assassin
No ratings yet
AppCMS v2.0 代码审计
Document15 pages
AppCMS v2.0 代码审计
DWES
No ratings yet
那些年我们一起学XSS by It-eBooks
Document187 pages
那些年我们一起学XSS by It-eBooks
alimad0900
No ratings yet
Pythonç È È Æ
Document14 pages
Pythonç È È Æ
Blue Mount
No ratings yet
SpringMVC配合Fastjson的内存马利用与分析 PDF
Document7 pages
SpringMVC配合Fastjson的内存马利用与分析 PDF
DWES
No ratings yet
Echo框架 PDF
Document142 pages
Echo框架 PDF
Francis Chen
No ratings yet
PHP基礎資料整理
Document24 pages
PHP基礎資料整理
翟鴻榮
No ratings yet
React Note
Document4 pages
React Note
Jiaqi Wu
No ratings yet
Flac3d 实例分析教程
Document47 pages
Flac3d 实例分析教程
York
No ratings yet
GO专家编程
Document215 pages
GO专家编程
奉先
No ratings yet
laravel 9课件（php.cn）
Document31 pages
laravel 9课件（php.cn）
glacierchatgpt
No ratings yet
Python标准库
Document329 pages
Python标准库
suwei007
No ratings yet
元动力mybatis教程
Document134 pages
元动力mybatis教程
s't'range jake
No ratings yet
Python 入门网络爬虫之精华版
Document6 pages
Python 入门网络爬虫之精华版
frank
No ratings yet
Database Management Specification
Document25 pages
Database Management Specification
li hyperion
No ratings yet
郝斌Java笔记
Document113 pages
郝斌Java笔记
Adolph Churchill
No ratings yet
4、JS
Document20 pages
4、JS
2815138039
No ratings yet
Html&css&js
Document21 pages
Html&css&js
甘甘铠轩
No ratings yet
Python面试大全
Document59 pages
Python面试大全
ほう子じゃん
No ratings yet
16 尚硅谷 JSON、Aajx、i18n
Document23 pages
16 尚硅谷 JSON、Aajx、i18n
orangels19811023
No ratings yet
尚硅谷大数据之flink教程 Java版
Document96 pages
尚硅谷大数据之flink教程 Java版
Yufei Amazon
No ratings yet
01 JavaScript面向对象
Document29 pages
01 JavaScript面向对象
amy Yab
No ratings yet
3 域渗透
Document18 pages
3 域渗透
lizhi1231999
No ratings yet
AWD之赛前培训
Document64 pages
AWD之赛前培训
Yue Pan
No ratings yet
前端技术总结 07081756
Document525 pages
前端技术总结 07081756
Hello WEI
No ratings yet
(學號姓名) PHP存取資料庫實務測試 20210623 (範本)
Document53 pages
(學號姓名) PHP存取資料庫實務測試 20210623 (範本)
梁卓健
No ratings yet
20阿里字节一套高效的iOS面试题2020年2月
Document47 pages
20阿里字节一套高效的iOS面试题2020年2月
以少年之名
No ratings yet
11JDBC基础知识
Document35 pages
11JDBC基础知识
Nick Panli
No ratings yet
OAF笔记
Document22 pages
OAF笔记
Jun Zhu
No ratings yet
Buffer Overflow C
Document20 pages
Buffer Overflow C
chengugeself
No ratings yet
Go安全指南
Document21 pages
Go安全指南
aisha wen
No ratings yet
java编程规范（Adobe阅读无乱码）
Document72 pages
java编程规范（Adobe阅读无乱码）
fengkang chen
No ratings yet
15 - 尚硅谷 - Filter过滤器 - 王振国 - 课堂笔记
Document17 pages
15 - 尚硅谷 - Filter过滤器 - 王振国 - 课堂笔记
orangels19811023
No ratings yet
PHP網頁設計語法整理
Document10 pages
PHP網頁設計語法整理
ChiHua0826
100% (2)
【朝夕教育】2023Web前端进阶面试题 230130
Document28 pages
【朝夕教育】2023Web前端进阶面试题 230130
changxuanyuan
No ratings yet
Solaris 操作系统上的核心转储管理
Document13 pages
Solaris 操作系统上的核心转储管理
liang chen
No ratings yet
2 Python爬虫课件
Document41 pages
2 Python爬虫课件
brian
No ratings yet
(3 1 1) - 第三周数据获取与表示课件
Document55 pages
(3 1 1) - 第三周数据获取与表示课件
Pandeng Li
No ratings yet
Spring Boot
Document80 pages
Spring Boot
xunyiren0557864
No ratings yet
04 尚硅谷尚筹网后台管理员登录
Document15 pages
04 尚硅谷尚筹网后台管理员登录
kang.bo
No ratings yet
JDBC核心技术
Document47 pages
JDBC核心技术
linlin zhang
No ratings yet
Python 1
Document34 pages
Python 1
TONG Huang
No ratings yet
《Java面试手册》
Document165 pages
《Java面试手册》
tyfzpb
No ratings yet
1 决策树 live
Document16 pages
1 决策树 live
suzytang5544
No ratings yet
JVM性能优化相关问题
Document19 pages
JVM性能优化相关问题
gary hu
No ratings yet
Pytest官方文档翻译
Document150 pages
Pytest官方文档翻译
long wang
No ratings yet
爬虫
Document7 pages
爬虫
gaoyuanxia0415
No ratings yet
郝斌数据结构笔记
Document68 pages
郝斌数据结构笔记
Adolph Churchill
No ratings yet
2.第2部分软件测试与维护基础教程白盒测试 20221218 PDF
Document166 pages
2.第2部分软件测试与维护基础教程白盒测试 20221218 PDF
Gura Gawr
No ratings yet
Perl程式設計語法整理
Document9 pages
Perl程式設計語法整理
ChiHua0826
100% (1)
SGG Elasticsearch PDF
Document125 pages
SGG Elasticsearch PDF
cvkbhkfjg
No ratings yet
Cpe Guide
Document23 pages
Cpe Guide
Weng Yan
No ratings yet
永遠的依靠 PDF
Document1 page
永遠的依靠 PDF
Chea Ru Yen
No ratings yet
小程序开发实践@
Document57 pages
小程序开发实践@
lucasllin
No ratings yet
写字教学2
Document83 pages
写字教学2
Arene Yeu
No ratings yet
Unity Input System
Document9 pages
Unity Input System
cychiu1215
No ratings yet
Ict 精簡筆記：網頁編寫 (HTML)
Document3 pages
Ict 精簡筆記：網頁編寫 (HTML)
Aime Thome de Gamond
No ratings yet

Report

Uploaded by

Copyright:

Available Formats

You might also like

Report

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Report

Uploaded by

Copyright:

Available Formats

爬取豆瓣图书Top250实验报告

故可以利用 scrapy 文档给出的方法如下遍历所有页数

1 next_page = response.css('span.next a::attr(href)').get()

检查每本书的网页结构，发现路径为 tr.item ，对应链接结构

1 for book in response.css('tr.item'):

其余信息位于 <div id="info" class="">...<\div> 中，我们先设 response.css('div #info

1 USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,

另外可在setting.py中添加 LOG_LEVEL = "WARNING" ，使得在使用 scrapy shell 输出信息更简洁。

You might also like