数据采集
文章平均质量分 54
饭饭童鞋
菜鸟一个,若有问题,请多包涵
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
TypeError: Request url must be str or unicode, got Selector
使用scrapy进行爬虫时出现如下报错:TypeError: Request url must be str or unicode, got Selector的解决方法原创 2023-04-13 22:26:21 · 663 阅读 · 1 评论 -
python爬虫报错‘gbk‘ codec can‘t encode character ‘\u202c‘ in position 1: illegal multibyte sequence
最近在网上爬取一些自己毕业设计需要用的数据,但是一直报这样的错误:主要是将爬取的数据写入到新的文件中,我们需要指定新文件的编码格式,因此将保存内容文件的代码修改如下:def save(item, path): # path文件保存路径,item数据列表 with open(path, "w+", newline='',encoding='utf-8') as f: write = csv.writer(f) write.writerows(item)OK原创 2021-12-17 21:04:48 · 1495 阅读 · 4 评论 -
InvalidSessionIdException: Message: invalid session id
在使用selenium进行自动获取信息时,报错:InvalidSessionIdException: Message: invalid session id因为我需要获取多个页面的数据,让他自动进入下一页获取信息,但是我却在让他在第一页完了后就关闭了,因此会报错去掉关闭就行了...原创 2021-12-10 19:36:32 · 3155 阅读 · 0 评论 -
如何在scrapy框架里进行调试嘞
今天在使用scrapy框架写爬虫代码时,运行爬虫文件后既不输出内容也不报错,然后就试着调试一下:scrapy.cfg的同级目录下创建main.py,里面写如下代码#调试from scrapy import cmdlinecmdline.execute('scrapy crawl foodKnowledge'.split())#foodKnowledge代表爬虫文件名在爬虫文件你想调试的地方打上断点,回到main.py文件,右键点击调试,则可以了...原创 2021-10-31 00:09:54 · 875 阅读 · 1 评论 -
使用scrapy爬取豆瓣电影top 250
首先是创建我们的项目,在终端输入以下命令scrapy startproject doubanmovie#doubanmovie为所创建项目名然后得到下面的目录结构创建爬虫文件:首先进入到创建爬虫项目目录下cd doubanMoviescrapy genspider douban douban.com...原创 2021-10-06 14:26:50 · 1084 阅读 · 0 评论 -
如何将爬取的数据存入数据库中
这里我就将自己前面爬取的豆瓣电影top 250的数据存入数据库中吧,爬数据的代码我就不再写了,如果有需要可以参考我这篇文章原创 2021-10-05 21:13:17 · 4596 阅读 · 2 评论 -
scrapy爬虫时遇到这个问题:ValueError: Missing scheme in request url
看了下自己的网址,发现原来是url不完整,那我就直接在前面的补充完整item[‘url’]=“https:www.***.com/”+row.xpath(‘a/@href’).get()原创 2021-10-05 14:44:32 · 401 阅读 · 0 评论 -
使用scrapy框架爬取最好大学排名
爬取链接:https://www.shanghairanking.cn/rankings/bcur/2021这里偷个懒,直接在之前创建好的项目文件里创建爬虫文件,创建命令“scrapy genspider daxue daxue.com”,创建了daxue.py文件如果不知道如何创建项目文件的话,可以参考这篇文章Scrapy爬虫框架爬虫文件的代码如下:import scrapyfrom baiduSpider.items import BaiduspiderItemclass DaxueSp原创 2021-10-03 13:46:36 · 748 阅读 · 1 评论 -
Scrapy爬虫框架
一、Scrapy安装1、命令行安装可以直接在命令行输入以下命令pip install scrapy由于 pip 安装会自动安装 scrapy 爬虫框架依赖的各种包,安装速度较慢,出错概率较 大,建议增加-i 参数,使用清华镜像安装。pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple/安装成功后在命令行输入scrapy,出现下图中的提示则代表Scrapy安装成功了2.Pycharm下安装打开pycharm,在菜单.原创 2021-10-02 14:27:46 · 841 阅读 · 0 评论 -
Selenium的使用
一、Selenium的安装1.Selenium模块安装输入以下命令pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple/2.浏览器驱动的下载安装在下载浏览器驱动时,要看好浏览器的版本,浏览器不同,则驱动程序也就不同,这里我就拿我常用的Google Chrome举例吧,打开设置,然后点击关于Chrome,就可以看到自己的版本为多少了下载跟版本差不多的驱动,圈起来的这两个都可下载下载链接:下载Chrome驱动下载完后原创 2021-09-21 15:57:40 · 280 阅读 · 0 评论 -
动态网页爬虫
动态网页的爬取相比静态网页来说困难一些,主要由于很多网站采用Ajax和动态Html相关技术进行页面交互,导致使用request或urlib是无法获取完整的页面html 内容。下面主要介绍两种抓取动态网页的方法,基本上都是有利有弊。逆向分析法,使用浏览器开发者工具分析爬取数据的来源,有时需要理解JavaScript脚本,需要一定的分析能力和综合能力。Selenium,自动化测试框架,可以获取加载后的页面html,需要专门学习。一、Ajax和动态HtmlAjax 的全称是Asynchronous原创 2021-09-20 22:15:56 · 1681 阅读 · 3 评论 -
selenium基础练习
#4.32selenium基本使用from selenium import webdriver #导入webdriverimport timewd=webdriver.Chrome("D:/chromedriver.exe")#获取Chrome驱动实例,Webdriver 后的方法名是浏览器的名称,# 参数可以省略,但是需要将驱动的路径放入到系统的环境变量中wd.get("http://www.baidu.com") #打开百度,wd.get(url)可以打开指定的网页。time.sle原创 2021-09-20 18:46:55 · 592 阅读 · 0 评论 -
使用Xpath爬取人邮教育社区的书籍信息
爬取链接:https://www.ryjiaoyu.com/tag/details/7我们只需要获取书名、作者、价格、详情链接的信息代码如下:import requests #调用requests库import csv #调用csv模块from lxml import etree #调用lxml库def get_html(url): #建立get_html函数,实现网页内容获取 try: headers={"User-Agent":"Mozilla/5.0原创 2021-09-19 23:25:38 · 2894 阅读 · 0 评论 -
静态网络爬虫之Xpath学习
一、XPath简介XPath即为XML路径语言(XMLPathLanguage),它是一种用来确定XML文档中某部分位置的语言。XPath被开发者用来当作小型查询语言,基于XML的树状结构,用于定位元素节点、属性节点、文本节点,提供在数据结构树中找寻节点的能力。二、安装lxml库直接输入以下命令进行安装pip install lxml但是一般这样安装可能会出现很多问题,可以采用以下的方法进行解决:1.下载并安装whl安装包从http://www.lfd.uci.edu/~gohlke/pyt原创 2021-09-19 12:15:55 · 322 阅读 · 0 评论 -
python静态网络爬虫
1.安装Beautiful Soup库pip install beautifulsoup4注:包名是beautifulsoup4,如果不加上 4,会是老版本也就是 bs3,它是为了兼容性而存在,目前已不推荐from bs4 import BeautifulSouphtml='''<ul class="clearfix lavalamp"> <div class="lavalamp-object" id="nav"></div> <li原创 2021-08-17 15:57:30 · 305 阅读 · 0 评论 -
python爬虫入门
1.爬虫的主要类型网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的。(1)通用网络爬虫通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 Web,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。(2)聚焦网络爬虫聚焦网络爬虫,又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫原创 2021-08-16 19:27:47 · 266 阅读 · 0 评论 -
python数据采集概述
1.数据:“所有的数字都是数据”,“图片、字母、文字等都是数据”,只要承载了一定的信息,这些数字、图片、文本、声音等都可以认为是数据。没有承载信息的数字是不能作为数据的,认识清楚这个问题,是踏入大数据之门的第一步。2.常用的数据格式:HTML、Json、XML、txt、csv、doc、XLS、PDF3.大数据生命周期:数据采集–>数据存储–>数据处理–>数据展现(可视化,报表和监控)4.数据采集方法:大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对原创 2021-08-16 16:02:05 · 2249 阅读 · 0 评论
分享