
爬虫
文章平均质量分 75
落春只在无意间
不能打败我的只会让我更强大
展开
-
python中解决中文乱码
解决中文乱码什么是字符编码python 的字符编码encode和decodeunicode还可以decode吗?UTF-8还可以encode吗?解决中文编码问题问题1:使用requests获取网站内容后,出现中文乱码问题2:非法字符抛出异常问题3:网页可能使用了gzip压缩问题4:读取文件的中文乱码原创 2021-09-02 19:14:49 · 3873 阅读 · 0 评论 -
多线程与多进程爬虫
多线程与多进程爬虫threadingThread类与线程函数Thread 类与线程对象从Tread 类继承线程锁信号量信号量与锁结合生产者--消费者问题与queue模块爬取豆瓣电影详情网页分析原创 2021-08-24 15:43:32 · 461 阅读 · 0 评论 -
抓取异步数据(AJAX)笔记
抓取异步数据(AJAX)数据在XHR中提取结果完整代码注意事项原创 2021-08-24 01:17:44 · 542 阅读 · 0 评论 -
还不知道要看什么小说嘛?爬取小说网站前10页的小说数据分析一波
爬取小说数据效果网页分析网页网址分析书内容位置分析不同书内容位置分析将内容存到Excel完整代码原创 2021-08-22 17:13:44 · 506 阅读 · 0 评论 -
lxml 和 XPah (爬虫)
lxml 和 XPah (爬虫)XPath 的基本语法规则获取内容集合的概念属性匹配与获取按序选择节点原创 2021-08-22 15:23:19 · 227 阅读 · 1 评论 -
看小说有广告?不可能的,分分钟教你爬取小说
爬取小说效果分析网页正则表达式分析请求头分析完整代码可能出现的错误原创 2021-08-22 14:01:42 · 828 阅读 · 0 评论 -
Python requests 笔记(一)
Python requests添加 HTTP请求头抓取二进制文件上传文件设置Cookie设置同一个会话(Session)使用代理原创 2021-08-22 01:15:46 · 362 阅读 · 0 评论 -
网络库urillib3
urillib3发送HTTP GET请求上传文件原创 2021-08-21 20:36:54 · 283 阅读 · 0 评论 -
网络爬虫(urllib超详细使用指南)
urlliburllib简介发送请求与获得响应urlopen 函数发送HTTP POST 请求设置请求头设置中文名请求头使用代理异常处理URL ErrorHTTPEror原创 2021-08-21 19:34:50 · 780 阅读 · 0 评论 -
利用urllib3 抓取博客列表
利用urllib3 抓取博客列表分析页面代码分析正则表达式完整代码原创 2021-08-21 16:06:49 · 216 阅读 · 1 评论 -
爬虫笔记三
爬虫实战分析网页找到定制请求头的信息user-agent Host愉快的写原创 2021-08-08 11:22:04 · 640 阅读 · 1 评论 -
爬虫笔记(二)
python 爬虫的流程三个流程:三个流程的技术实现:1.获取网页获取网页基础技术:requestsurllibselenium(模拟浏览器)进阶技术:多进程多线程抓取登录抓取突破IP封禁服务器抓取2.解析网页基础:re 正则表达式BeautifulSouplxml进阶:解决中文乱码3.存储数据基础:txt 文件csv 文件进阶:MySQL数据库MongoDB数据库传递URL参数简单来说就是网址,一般有关联原创 2021-08-07 16:55:18 · 151 阅读 · 0 评论 -
爬虫笔记(一)
1.安装 bs4pip install bs42.安装Seleniumpip install Selenium3.安装浏览器驱动Chrome驱动文件下载:ChromeFirefox驱动文件下载:Firefox下载后将其中的执行程序放到python的script文件夹中,就可以了。4.使用Seleniumfrom selenium import webdriverfrom time import sleep#executable_path 不能少,后边就是上面安装的驱动的位置dri原创 2021-08-06 16:40:19 · 164 阅读 · 0 评论