
python爬虫
lemonl1
不断学习,向优秀的方向前进
展开
-
Python爬虫之旅_高性能异步爬虫
0x00:异步爬虫概述目的:在爬虫中使用异步实现高性能的数据爬取操作。先来看一个单线程、串行方式的爬虫:import requestsheaders = { 'User-Agent':'xxx'}urls = { 'xxxx' 'xxxx' 'xxxx'}def get_content(url): print("正在爬取:",url) #get方法是一个阻塞的方法 reponse = requests.get(url=url,he原创 2020-06-03 11:44:23 · 711 阅读 · 0 评论 -
Python爬虫之旅_(数据解析)_正则
前言:正则表达式有时在写脚本很方便,记录一下自己的学习过程!正则练习import re# key = 'shy lemon'#输出lemon# test = re.findall('lemon',key)[0]# print(test)# lemon# 利用正则提取出整个内容# key = "hello world"# test = re.findall('(.*)',key)[0]# print(test)# hello world# 提取出数字# string = '原创 2020-05-27 00:16:30 · 437 阅读 · 0 评论 -
Python爬虫之旅_(数据解析)_Xpath
前言:上次学习过了BeautifulSoup进行解析的,这次就来学习一下Xpath进行解析0x00:了解XpathXpath解析:最常用且最高效的一种解析方式Xpath解析原理: ——1.实例化一个etree对象,且需要将解析的页面源码数据加载到该数据中。 ——2.调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容的捕获如何实例化一个etree对象 ——1...原创 2020-03-10 21:26:51 · 485 阅读 · 0 评论 -
Python爬虫之旅_(数据解析)_bs4
前言:这次来学习数据解析这方面的知识!0x00:了解数据解析在ONE那一篇中,就提到过聚焦爬虫(爬取页面中指定内容),大部分的爬虫都是聚焦爬虫,但我们刚开始爬取的肯定都是整个页面的数据,如何定位到我们想要的那一部分数据,就用到了数据解析...原创 2020-02-20 21:57:17 · 858 阅读 · 0 评论 -
Python爬虫之旅_TWO
前言:ONE中了解了爬虫和requests模块的基本使用,这次就来跟着老师来做一个综合性的案例0x00:案例说明这次要爬取的是化妆品企业具体的生产许可信息0x01:进行分析首先要判断这个页面出现的企业的信息是否是动态加载出来的还是随着该url直接出现的可以F12查看一下也可以写一个py脚本爬取一下捕获到了该页面的数据,可以查询一下企业名称是否在该数据中即可验证信息是通过何种方式...原创 2020-02-15 22:06:20 · 290 阅读 · 0 评论 -
Python爬虫之旅_ONE
前面:最近学习了pytho原创 2020-02-14 15:34:20 · 421 阅读 · 0 评论