Python爬虫
指尖魔法师
指尖魔法师,瞬发一个初级魔法
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫学习之05-request模块获取某百科下的全部糗图
""" 获取某百科下的全部糗图:https://www.***baike.com/imgrank/ 代码仅供学习,请勿作其他用途 date:2020-05-25 """ import requests import re import os if __name__ == '__main__': requests.packages.urllib3.disable_warnings() # UA伪装 headers = { 'User-Agen.原创 2020-06-01 20:46:18 · 329 阅读 · 1 评论 -
爬虫学习之04-request模块获取糗事百科一张热图
""" 获取糗事百科一张热图:https://pic.qiushibaike.com/system/pictures/12311/123110600/medium/3ZOJEG74FO8RH0QY.jpg date:2020-05-25 """ import requests if __name__ == '__main__': url = 'https://pic.qiushibaike.com/system/pictures/12311/123110600/medium/3Z.原创 2020-06-01 20:41:32 · 227 阅读 · 1 评论 -
爬虫学习之02-request模块爬取KFC餐厅
""" 获取KFC餐厅:http://www.kfc.com.cn/kfccda/index.aspx 代码仅供学习 date:2020-05-23 """ import requests import json if __name__ == '__main__': keyword = input('查询城市:') pageSize = input('一页获取几条:') # 1.指定URL url = 'http://www.kfc.com.cn.原创 2020-05-27 23:01:19 · 401 阅读 · 0 评论 -
爬虫学习之01-request模块爬取豆瓣电影
""" 获取豆ban电影中的电影:https://movie.****.com/ 代码仅供学习 date:2020-05-23 """ import requests if __name__ == '__main__': start = input('输入数字(从第几部电影开始取,0开始):') limit = input('输入数字(一次获取几部电影):') # 1.指定URL url = 'https://movie.****.com/j.原创 2020-05-27 22:58:19 · 647 阅读 · 0 评论 -
小说爬虫
爬一本小说的代码操作: import requests from pyquery import PyQuery # 目标地址 chapter1_url = 'http://www.biquyun.com/14_14055/9194140.html' def get_one_chapter(chapter_url): # 获取一章内容 # 使用requests工具 发送请...原创 2019-01-14 19:38:04 · 255 阅读 · 0 评论 -
图片爬虫
参考视频学习,堆糖网图片爬虫 """ 1.URL 2.模拟浏览器请求资源 3.解析网页 4.保存数据到本地 """ import requests #第三方库 import urllib.parse import json import jsonpath url ='https://www.duitang.com/napi/blog/list/by_search/?kw={}&s...原创 2019-01-14 19:40:14 · 2291 阅读 · 1 评论 -
lxml包没有etree模块和parse报错处理
lxml包没有etree模块的解决方法: 环境:python3.7+ lxml4.4.4 因为etree是C语言写的,所以在import时,不会有提示,直接输入即可 from lxml import etree 在使用etree.parse时报错,原因:该方法默认使用的是“XML”解析器,所以如果碰到不规范的html文件时就会解析错误 htmlElement = e...原创 2019-08-15 20:01:13 · 12555 阅读 · 5 评论
分享