您现在的位置是：首页 » python编程资讯

资讯内容

介绍python 数据抓取三种方法

极客小将2021-02-20-

简介免费学习推荐：python视频教程三种数据抓取的方法正则表达式（re库）BeautifulSoup（bs4）lxml*利用之前构建的下载网页函数，获取目标网页的html，我们以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/为例，获取html。fromge

u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

免费学习推荐：python视频教程u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

三种数据抓取的方法u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

正则表达式（re库）BeautifulSoup（bs4）lxml

*利用之前构建的下载网页函数，获取目标网页的html，我们以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/为例，获取html。u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

from get_html import download url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'page_content = download(url)

*假设我们需要爬取该网页中的国家名称和概况，我们依次使用这三种数据抓取的方法实现数据抓取。
1.正则表达式u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

from get_html import downloadimport re url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'page_content = download(url)country = re.findall('class="h2dabiaoti">(.*?)</h2>', page_content) #注意返回的是listsurvey_data = re.findall('<tr><td bgcolor="#FFFFFF" id="wzneirong">(.*?)</td></tr>', page_content)survey_info_list = re.findall('<p>　　(.*?)</p>', survey_data[0])survey_info = ''.join(survey_info_list)print(country[0],survey_info)

2.BeautifulSoup（bs4）u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

from get_html import downloadfrom bs4 import BeautifulSoup url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'html = download(url)#创建 beautifulsoup 对象soup = BeautifulSoup(html,"html.parser")#搜索country = soup.find(attrs={'class':'h2dabiaoti'}).text survey_info = soup.find(attrs={'id':'wzneirong'}).textprint(country,survey_info)

3.lxmlu9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

from get_html import downloadfrom lxml import etree #解析树url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'page_content = download(url)selector = etree.HTML(page_content)#可进行xpath解析country_select = selector.xpath('//*[@id="main_content"]/h2') #返回列表for country in country_select: print(country.text)survey_select = selector.xpath('//*[@id="wzneirong"]/p')for survey_content in survey_select: print(survey_content.text,end='')

运行结果：

**后，引用《用python写网络爬虫》中对三种方法的性能对比，如下图：

仅供参考。u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

相关免费学习推荐：python教程（视频）u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

以上就是介绍python 数据抓取三种方法的详细内容，更多请关注少儿编程网其它相关文章！u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

上一篇
pycharm怎么设置背景颜色

简介pycharm设置背景颜色的方法：1、打开pycharm，点击【file】、【settings】；2、找到【editor】，选择【colorscheme】；3、根据需要选择合适的背景颜色即可。本文操作环境：windows10系统、pycharmcommunity2020.3、宏基S40-51电脑。具

下一篇
Python简单地实现一键提取阴阳师原画方法

简介免费学习推荐：python视频教程xpath–简单的爬虫实例–提取阴阳师原画壁纸文章目录一、前言二、需要用到的库三、实现过程1、分析网页2、完整代码实现四、合成视频一、前言很多人都玩过阴阳师吧，别的不谈，阴阳师的原画制作的那是相当地精细，闲暇之余，用几行简单的代码爬取下来，岂不美哉？二、需要用到的库

相关资讯

预约试听课

已有385人预约都是免费的，你也试试吧...

精品课程

Scratch自学精品课程(45节课)目...

官方教程 10、录制声音

官方教程 9、制作音乐

官方教程 8、创作故事

官方教程 7、角色动画

推荐下载

Scratch 3.29.1 Windows版 Mac...

Scratch 3.26.0 Setup Windows...

Scratch 3.26 Mac版本官方下载...

scratchlink 下载

Scratch 3.23.1 Mac版本官方下...

Scratch 3.23.1 Setup Windows...

Scratch 3.22.0 Mac版本官方下...

Scratch 3.22.0 Setup Windows...

标签云

Scratch(112) python(56) 少儿编程(44) 蓝桥杯(32) 小升初(20) Scratch教材(19) 清华大学出版社(19) 电子学会(17) 等级考试(15) scratch作品(13) 真题(11) 数学(10) 人工智能(10) 算法(9) scratch等级(9) 四级考试(9) 三级考试(9) 电子协会(9) Scratch下载(9) 字典(6)

猜你喜欢

认识Scratch的舞台

Scratch电子学会等级考试时间和...

Scratch考试将会在近期进行全面...

Scratch编程：培养孩子创新思维...

学Scratch编程的费用一般是多少

Scratch教程：进阶课程-打地鼠

Scratch教程：进阶课程-打蝙蝠...

scratch教程判断 if then

Scratch计算三角形面积

Scratch会飞的巫婆

Scratch迷宫游戏设计