资讯内容
介绍python 数据抓取三种方法

免费学习推荐:python视频教程u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台
三种数据抓取的方法u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台
正则表达式(re库)BeautifulSoup(bs4)lxml*利用之前构建的下载网页函数,获取目标网页的html,我们以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/为例,获取html。u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台
u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台
*假设我们需要爬取该网页中的国家名称和概况,我们依次使用这三种数据抓取的方法实现数据抓取。
1.正则表达式u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台
2.BeautifulSoup(bs4)u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台
from get_html import downloadfrom bs4 import BeautifulSoup url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'html = download(url)#创建 beautifulsoup 对象soup = BeautifulSoup(html,"html.parser")#搜索country = soup.find(attrs={'class':'h2dabiaoti'}).text survey_info = soup.find(attrs={'id':'wzneirong'}).textprint(country,survey_info)3.lxmlu9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台
from get_html import downloadfrom lxml import etree #解析树url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'page_content = download(url)selector = etree.HTML(page_content)#可进行xpath解析country_select = selector.xpath('//*[@id="main_content"]/h2') #返回列表for country in country_select: print(country.text)survey_select = selector.xpath('//*[@id="wzneirong"]/p')for survey_content in survey_select: print(survey_content.text,end='')运行结果:
**后,引用《用python写网络爬虫》中对三种方法的性能对比,如下图:
仅供参考。u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台
相关免费学习推荐:python教程(视频)u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台
以上就是介绍python 数据抓取三种方法的详细内容,更多请关注少儿编程网其它相关文章!u9d少儿编程网-Scratch_Python_教程_免费儿童编程学习平台
- 上一篇
pycharm怎么设置背景颜色
简介pycharm设置背景颜色的方法:1、打开pycharm,点击【file】、【settings】;2、找到【editor】,选择【colorscheme】;3、根据需要选择合适的背景颜色即可。本文操作环境:windows10系统、pycharmcommunity2020.3、宏基S40-51电脑。具
- 下一篇
Python简单地实现一键提取阴阳师原画方法
简介免费学习推荐:python视频教程xpath–简单的爬虫实例–提取阴阳师原画壁纸文章目录一、前言二、需要用到的库三、实现过程1、分析网页2、完整代码实现四、合成视频一、前言很多人都玩过阴阳师吧,别的不谈,阴阳师的原画制作的那是相当地精细,闲暇之余,用几行简单的代码爬取下来,岂不美哉?二、需要用到的库