
Python爬虫
python爬虫实践
Behersve
这个作者很懒,什么都没留下…
展开
-
Python版本3.7.3 pip安装scrapy1.6.0
①安装过python3.7.3后,并配置好pip的环境变量,以下需要使用pip进行安装②windows命令行中输入pip install scrapy,然后会报错:(错误很长)③不用管这个错误,继续安装 wheelpip install wheel④wheel安装好之后,在安装一个非常重要的文件!https://pan.baidu.com/s/1RwQcFxRDvwhF6E...原创 2019-07-17 19:15:35 · 3600 阅读 · 2 评论 -
Python:如何显示实时爬取速度和进度条?
当爬取一些视频或者大文件的时候,不知道需要等多久才能爬取完成,这时候就需要一个进度条和速度来告诉我们已经爬取多少了。这次主要通过python的requests库来实现这个小功能。示例链接: "https://dldir1.qq.com/qqtv/TencentVideo10.14.3360.0.exe"import requests#引入requests库impo...原创 2019-01-31 19:23:52 · 8083 阅读 · 2 评论 -
Python + Selenium(知乎50条热榜以及热榜内答案信息存储)
import reimport timeimport pymysqlimport requestsfrom bs4 import BeautifulSoup# 获取热榜的HTMLdef GetContends(url): cookie = '这里填写你的cookie' headers = { 'User-Agent': 'Mozilla/5.0', 'Cookie': cookie } html = requests.get.原创 2021-07-18 21:49:53 · 226 阅读 · 0 评论 -
Python + selenium爬取B站用户信息(iP池+pymsql存储)
import bs4import jsonimport timeimport pymysqlimport requestsfrom bs4 import BeautifulSoupfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsdef getPage(mid, n, href): headers = { 'User-Agent': 'Mozil.原创 2021-07-18 21:45:17 · 2266 阅读 · 3 评论 -
Python + selenium 爬取淘宝网(销量,店铺名,价格等)
import timefrom selenium import webdriverfrom lxml import etreedef Run(keywords, numPage): # 构造无头的ChromeDriver option = webdriver.ChromeOptions() option.add_argument('headless') driver = webdriver.Chrome(executable_path='D:\\Project\\.原创 2021-07-18 21:31:31 · 1617 阅读 · 0 评论 -
python爬取知乎话题:"日常穿jk制服是怎样一种体验?"下的所有图片
'''第一次尝试python爬取图片,请多指正回答者的答案单独存放一个文件夹'''from urllib import requestimport mathimport requestsimport jsonimport reimport osdef getPicture(): count = 0#记录照片总数 filcount = 0#文件夹个数 ...原创 2019-01-26 11:39:46 · 836 阅读 · 0 评论 -
Python:如何通过selenium模拟登陆知乎并爬取实时热榜排名?
之前通过python爬取了知乎的一下话题下的图片、视频等等内容,但是这些都不需要登录知乎就可以得到,只需要简单的设置好爬虫的请求头,然后分析构造url就OK了,但是想要得到知乎首页的内容,不登录就获取是比较困难的(博主不会啊) 博主我已经提前登录了知乎:直接来爬取首页urlimport requestsfrom bs4 import Beauti...原创 2019-02-03 11:21:43 · 1236 阅读 · 0 评论 -
Python:如何获取知乎用户信息并且存储在本地的Excel中?
刚开始比较发愁的问题是如何去获得那么多用户的信息,而且不能全部是行业相近的用户,这样统计出来的信息都是相近的行业,就失去了统计的意义,于是乎,找到一个用户的关注者列表,关注者肯定有若干关注者,这样就可以获取大量的用户信息。并且也保证了用户的分散性。但是遇到一个问题,如何处理互关!!在递归中,如果遇到互关的两个用户,递归就出不来,很是令人苦恼。①导入各种库from bs4 import B...原创 2019-02-08 20:11:37 · 380 阅读 · 0 评论 -
Python:Pycharm如何使用scrapy框架做爬虫?
因为入门python以来一直使用pycharm,所以对着黑白的DOS不习惯,所以此次来实现使用pycharm进行实现使用scrapy框架①pip install scrapy(首先安装scrapy第三方包) 不会安装的:参考本人另一篇博文:https://blog.youkuaiyun.com/YiXiao1997/article/details/96345737②新建第一个scrapy项目,先cd到...原创 2019-02-21 00:35:39 · 10158 阅读 · 2 评论 -
Python使用multiprocessing模块实现多进程(demo)
from multiprocessing import Processimport timedef run(str): for i in range(100): #os.getpid获取进程号 print("当前进程"+str(os.getpid())+time.ctime()) time.sleep(1)if __name__ ==...原创 2019-05-03 23:05:54 · 785 阅读 · 0 评论 -
Python爬取MZT网站:多进程处理
from multiprocessing import Processimport requestsfrom urllib import requestfrom bs4 import BeautifulSoupimport reimport osimport timedef run(name): print(">>>启动子进程:" + str(os.ge...原创 2020-07-12 15:58:11 · 2391 阅读 · 1 评论 -
python爬取知乎话题:"你见过最搞笑的视频有哪些?"下的所有视频
①打开知乎话题https://www.zhihu.com/question/21086211②打开开发者工具,构造Request url,和上次的爬取照片思路一样(https://blog.youkuaiyun.com/YiXiao1997/article/details/86655584)'''requests.get()返回的是json对它进行字典化,好提取键值'''from ...原创 2019-01-27 11:37:05 · 941 阅读 · 0 评论 -
python:简单的使用scrapy框架进行爬取和下载
我将使用scrapy框架进行爬取 http://www.imooc.com/course/list 这个网站的 第一页的封面图片 ①首先使用命令行生成一个scrapy模板,要提前cd到需要存放的路径 (我这里放的是E盘,sc...原创 2019-05-29 22:12:55 · 1101 阅读 · 0 评论