您现在的位置是：首页 » python编程资讯

资讯内容

python爬虫：随心所欲地爬取百度图片

极客小将2021-03-05-

简介文章目录一、前言二、需要导入的库三、实现过程1、下载链接分析2、代码分析3、完整代码四、Blogger'sspeech(免费学习推荐：python视频教程)一、前言之前爬取了很多静态网页的内容，包括：小说、图片等等，今天我来尝试一下动态网页的爬取。众所周知，百度图片就是一个动态网页。那么，冲

ZYn少儿编程网-https://www.pxcodes.com

文章目录ZYn少儿编程网-https://www.pxcodes.com

一、前言二、需要导入的库三、实现过程1、下载链接分析2、代码分析3、完整代码四、Blogger's speech

(免费学习推荐：python视频教程)ZYn少儿编程网-https://www.pxcodes.com

一、前言ZYn少儿编程网-https://www.pxcodes.com

之前爬取了很多静态网页的内容，包括：小说、图片等等，今天我来尝试一下动态网页的爬取。众所周知，百度图片就是一个动态网页。那么，冲！冲！！冲！！！ZYn少儿编程网-https://www.pxcodes.com

二、需要导入的库ZYn少儿编程网-https://www.pxcodes.com

import requestsimport jsonimport os

三、实现过程ZYn少儿编程网-https://www.pxcodes.com

1、下载链接分析

首先，打开百度，搜索一个内容，这里搜索的是男神（本人）——彭于晏

然后，打开抓包工具，选择XHR选项，按Ctrl+R，然后你会发现，随着你鼠标的滑动，右侧会出现一个又一个的数据包。

（这里没滑动太多，一开始因为滑动太多，录的GIF超5M了）ZYn少儿编程网-https://www.pxcodes.com

然后，选一个包，查看它的headers，如图：
ZYn少儿编程网-https://www.pxcodes.com

截取之后，粘贴在记事本上，作为一个URL，后文会用到。

这里有很多很多的参数，我也不知道具体哪些是可以忽略的，后文就索性全复制下来了，具体看后文。ZYn少儿编程网-https://www.pxcodes.com

到这里，能够直接观察到的内容就结束了，接下来，借助代码，帮我们打开另一个世界的大门ZYn少儿编程网-https://www.pxcodes.com

冲就完事了！ZYn少儿编程网-https://www.pxcodes.com

2、代码分析

首先：把上述中的“其它参数”组在一起。ZYn少儿编程网-https://www.pxcodes.com

自己做的话，**好复制自己的“其它参数”。ZYn少儿编程网-https://www.pxcodes.com

之后，我们可以先提取一下试试，并且把编码格式改成'utf-8'ZYn少儿编程网-https://www.pxcodes.com

url = 'https://image.baidu.com/search/acjson?' param = { 'tn': 'resultjson_com', 'logid': ' 7517080705015306512', 'ipn': 'rj', 'ct': '201326592', 'is': '', 'fp': 'result', 'queryWord': '彭于晏', 'cl': '2', 'lm': '-1', 'ie': 'utf-8', 'oe': 'utf-8', 'adpicid': '', 'st': '', 'z': '', 'ic': '', 'hd': '', 'latest': '', 'copyright': '', 'word': '彭于晏', 's': '', 'se': '', 'tab': '', 'width': '', 'height': '', 'face': '', 'istype': '', 'qc': '', 'nc': '1', 'fr': '', 'expermode': '', 'force': '', 'cg': 'star', 'pn': '30', 'rn': '30', 'gsm': '1e', } # 将编码形式转换为utf-8 response = requests.get(url=url, headers=header, params=param) response.encoding = 'utf-8' response = response.text print(response)

运行结果如下：

看上去挺乱的哈，没事，我们给包装一下！ZYn少儿编程网-https://www.pxcodes.com

在上面的基础上加上：ZYn少儿编程网-https://www.pxcodes.com

# 把字符串转换成json数据 data_s = json.loads(response) print(data_s)

运行结果如下：

和上面相比，已经明晰很多了，但依旧不够明确，为什么呢？因为它打印的格式不方便我们观看！ ZYn少儿编程网-https://www.pxcodes.com

对此，有两种解决办法。ZYn少儿编程网-https://www.pxcodes.com

①导入pprint库，接着输入pprint.pprint(data_s)，就能打印啦，如下图ZYn少儿编程网-https://www.pxcodes.com

ZYn少儿编程网-https://www.pxcodes.com

②使用json在线解析器（自行百度），结果如下：
ZYn少儿编程网-https://www.pxcodes.com

解决掉上一步，我们会发现，想要的数据都在data里面！ZYn少儿编程网-https://www.pxcodes.com

那么就提取吧！ZYn少儿编程网-https://www.pxcodes.com

a = data_s["data"] for i in range(len(a)-1): # -1是为了去掉上面那个空数据 data = a[i].get("thumbURL", "not exist") print(data)

结果如下：

到这里，已经成功90%啦，剩下的就是保存和优化代码了！ZYn少儿编程网-https://www.pxcodes.com

3、完整代码

这部分和上面有些许不同，仔细看看就会发现嗷！ZYn少儿编程网-https://www.pxcodes.com

# -*- coding: UTF-8 -*-""" @Author ：远方的星 @Time : 2021/2/27 17:49 @CSDN ：https://blog.csdn.net/qq_44921056 @腾讯云： https://cloud.tencent.com/developer/user/8320044 """import requestsimport jsonimport osimport pprint# 创建一个文件夹path = 'D:/百度图片'if not os.path.exists(path): os.mkdir(path)# 导入一个请求头header = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}# 用户（自己）输入信息指令keyword = input('请输入你想下载的内容：')page = input('请输入你想爬取的页数：')page = int(page) + 1n = 0pn = 1# pn代表从第几张图片开始获取，百度图片下滑时默认一次性显示30张for m in range(1, page): url = 'https://image.baidu.com/search/acjson?' param = { 'tn': 'resultjson_com', 'logid': ' 7517080705015306512', 'ipn': 'rj', 'ct': '201326592', 'is': '', 'fp': 'result', 'queryWord': keyword, 'cl': '2', 'lm': '-1', 'ie': 'utf-8', 'oe': 'utf-8', 'adpicid': '', 'st': '', 'z': '', 'ic': '', 'hd': '', 'latest': '', 'copyright': '', 'word': keyword, 's': '', 'se': '', 'tab': '', 'width': '', 'height': '', 'face': '', 'istype': '', 'qc': '', 'nc': '1', 'fr': '', 'expermode': '', 'force': '', 'cg': 'star', 'pn': pn, 'rn': '30', 'gsm': '1e', } # 定义一个空列表，用于存放图片的URL image_url = list() # 将编码形式转换为utf-8 response = requests.get(url=url, headers=header, params=param) response.encoding = 'utf-8' response = response.text # 把字符串转换成json数据 data_s = json.loads(response) a = data_s["data"] # 提取data里的数据 for i in range(len(a)-1): # 去掉**后一个空数据 data = a[i].get("thumbURL", "not exist") # 防止报错key error image_url.append(data) for image_src in image_url: image_data = requests.get(url=image_src, headers=header).content # 提取图片内容数据 image_name = '{}'.format(n+1) + '.jpg' # 图片名 image_path = path + '/' + image_name # 图片保存路径 with open(image_path, 'wb') as f: # 保存数据 f.write(image_data) print(image_name, '下载成功啦！！！') f.close() n += 1 pn += 29

运行结果如下：

友情提示：
①：一页是30张
②：输入的内容可以很多变：比如桥、月亮、太阳、胡歌、赵丽颖等等。 ZYn少儿编程网-https://www.pxcodes.com

四、Blogger’s speechZYn少儿编程网-https://www.pxcodes.com

希望大家可以，点赞、关注、收藏，三连支持一下！ZYn少儿编程网-https://www.pxcodes.com

大量免费学习推荐，敬请访问python教程(视频)ZYn少儿编程网-https://www.pxcodes.com

以上就是python爬虫：随心所欲地爬取百度图片的详细内容，更多请关注少儿编程网其它相关文章！ZYn少儿编程网-https://www.pxcodes.com

上一篇
Python怎么排序列表

简介Python排序列表的方法：1、调用列表的sort方法，输出原列表，发现原列表变化了；2、使用sorted方法对列表排序，发现直接输出的时候，输出的列表为排序好的列表。本教程操作环境：windows7系统、python3.9版，DELLG3电脑。Python排序列表的方法：1、首先我们得知道pyth

下一篇
python字体大小如何设置

简介python字体大小设置的方法：首先打开Python，在工具栏中单击“Options”选项；然后选择下拉列表中的“ConfigureIDLE”；最后在“FontFace”中可选择字体类型，在“Size”中可选择字体大小。本教程操作环境：windows7系统、python3.9版，DELLG3电脑。p

相关资讯

预约试听课

已有385人预约都是免费的，你也试试吧...

家长交流群

精品课程

Scratch自学精品课程(45节课)目...

官方教程 10、录制声音

官方教程 9、制作音乐

官方教程 8、创作故事

官方教程 7、角色动画

推荐下载

Scratch 3.29.1 Windows版 Mac...

Scratch 3.26.0 Setup Windows...

Scratch 3.26 Mac版本官方下载...

scratchlink 下载

Scratch 3.23.1 Mac版本官方下...

Scratch 3.23.1 Setup Windows...

Scratch 3.22.0 Mac版本官方下...

Scratch 3.22.0 Setup Windows...

标签云

Scratch(112) python(56) 少儿编程(44) 蓝桥杯(32) 小升初(20) Scratch教材(19) 清华大学出版社(19) 电子学会(17) 等级考试(15) scratch作品(13) 真题(11) 数学(10) 人工智能(10) 算法(9) scratch等级(9) 四级考试(9) 三级考试(9) 电子协会(9) Scratch下载(9) 字典(6)

猜你喜欢

2026信息素养大赛复赛到底考什...

2026信息素养大赛(信息素养类)...

2026世界机器人大会青少年机器...

2026 全国青少年信息素养大赛算...

用 Scratch 复刻《蛋仔派对》：...

认识Scratch的舞台

Scratch电子学会等级考试时间和...

Scratch考试将会在近期进行全面...

Scratch编程：培养孩子创新思维...

学Scratch编程的费用一般是多少

Scratch教程：进阶课程-打地鼠