
爬虫
文章平均质量分 52
S1901
山东这块大数据找不到啥理想工作,转测试啦
展开
-
爬虫学习日记:爬取京东网站商品评论的实例代码
爬取JD网站商品评论的实例代码以爬取糗事百科为例,并将实例代码附在下面,对于代码文末有逐行解释。代码:from selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byimp原创 2021-05-31 14:32:41 · 1862 阅读 · 3 评论 -
怎么查看自己浏览器的User-Agent
怎么查看自己浏览器的User-Agent:F12打开开发者工具,在Network选项中选择JS选项,打开左边任意一个文件,拉到最下面,可以看到User-Agent。原创 2021-05-24 20:54:07 · 19170 阅读 · 0 评论 -
项目代码:爬取糗事百科,并生成相应的csv文件
import csvimport requestsfrom lxml import etreeimport codecsHeaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36 Edg/89.0.774.48"}Base_url = "https://www.q.原创 2021-05-23 15:05:04 · 193 阅读 · 0 评论 -
2021-05-16 爬虫 代码报错utf-8 gdk 【爬虫笔记】
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xed in position 15338: invalid continuation byte 或 ‘gbk’ codec can’t decode byte 0xd6 in position 4814: illegal multibyte sequence 的解决方法一、如果返回值没问题,可以直接在爬虫代码后面加 ignore,忽略掉错误。text = resp.content.decode(“原创 2021-05-16 01:29:59 · 454 阅读 · 0 评论 -
2021-05-15 爬虫 爬取返回值为[]的解决方法:采取正确的文字解码【爬虫笔记】
爬取网页,返回值为【】空列表不同于之前的异步加载ajax导致的返回值为空列表的情况,这次返回值为空列表,是由于没证对网页使用正确的文字编码分析导致的。我们可以通过查看网页的源代码,决定使用什么格式的解码。查看方法右键网页空白处,点击查看网页源代码,此处以百度为例。找到源代码中的charset的格式,可以看到对于内容,采用了utf-8的文字编码格式。因此,我们在爬取时,同样使用的utf-8来解码。 resp = requests.get(url, headers=Headers) t原创 2021-05-16 01:27:33 · 3910 阅读 · 3 评论 -
2021-5-15 爬虫学习 list index out of range
爬取网页时,IndexError: list index out of range的错误原因及解决方案(针对上一篇博客遇到的问题进行总结。)在爬取糗事百科时,遇到了这个问题。研究后发现是使用Xpath定位目标内容时,框架定义错了。# 解析详情页的内容def parse_detail(url): qiushi = {} resp = requests.get(url, headers=Headers) text = resp.content.decode("utf-8", "ig原创 2021-05-15 08:00:57 · 444 阅读 · 1 评论 -
爬虫学习2021-5-14项目实例代码
爬取糗事百科实例代码代码import requestsfrom lxml import etreeHeaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36 Edg/89.0.774.48"}Base_url = "https://www.qiushibaike.c原创 2021-05-14 21:33:36 · 265 阅读 · 0 评论 -
2021-5-13 爬虫之Xpath的下载与安装,简单教学!
5-13爬取糗事百科学习日记你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增加了 图片拖原创 2021-05-13 00:45:28 · 4446 阅读 · 0 评论 -
2021-5-01 爬虫:异步加载导致的爬取结果为:[‘‘]
5.1日记录异步加载问题:提示:这里可以添加学习目标例如:一周掌握 Java 入门知识异步加载:提示:这里可以添加要学的内容例如:1、 搭建 Java 开发环境2、 掌握 Java 基本语法3、 掌握条件语句4、 掌握循环语句学习时间:提示:这里可以添加计划学习的时间例如:1、 周一至周五晚上 7 点—晚上9点2、 周六上午 9 点-上午 11 点3、 周日下午 3 点-下午 6 点学习产出:提示:这里统计学习计划的总量例如:1、 技术笔记 2 遍2、优快云原创 2021-05-01 22:37:10 · 900 阅读 · 1 评论 -
2021-04-29 爬虫学习 BS4爬取双色球
今日目标:提示:这里可以添加学习目标例如:一周掌握 Java 入门知识学习内容:提示:这里可以添加要学的内容例如:1、 搭建 Java 开发环境2、 掌握 Java 基本语法3、 掌握条件语句4、 掌握循环语句学习时间:提示:这里可以添加计划学习的时间例如:1、 周一至周五晚上 7 点—晚上9点2、 周六上午 9 点-上午 11 点3、 周日下午 3 点-下午 6 点学习产出:提示:这里统计学习计划的总量例如:1、 技术笔记 2 遍2、优快云 技术博客 3 篇原创 2021-04-29 21:33:05 · 340 阅读 · 0 评论 -
2021-4-28 爬虫学习 Beautiful Soup 、 Urllib
4.28日记录第一天学习爬虫使用大数据实验室平台进行练习(学习日记)大二在校生,根据指导老师的意见,使用学校搭建的平台练习爬虫。针对第一天学习过程中遇到的问题进行上网查阅并总结,遇到的是一些比较基础的知识。知识参考的来源已给出,侵权删。记录学习过程中遇到的新知识(应该是常用的工具)什么是Beautiful Soup: 是 python 的一个库,最主要的功能是从网页抓取数据。 Beautiful Soup 提供一些简单的函数用来处理导航、搜索、修改分析树等功能。因为简单,所以不需要多少代码原创 2021-04-29 00:27:13 · 286 阅读 · 0 评论