自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 RuntimeError: The Session graph is empty. Add operations to the graph before calling run().

**RuntimeError: The Session graph is empty. Add operations to the graph before calling run().**代码:import tensorflow as tssess=ts.Session()a=ts.constant(10)print(sess.run(a))报错:一想版本问题改成了ts.compat.v1.Session(),又是这个问题了这个应该也是版本问题吧,然后添加这句话:ts.com

2020-08-27 22:35:39 299 1

原创 win10安装TensorFlow

win10安装TensorFlow由于正在学习时运行发现了这个错ImportError: Keras requires TensorFlow 2.2 or higher. Install TensorFlow via pip install tensorflow,百度一下大致明白了意思后就是没有安装TensorFlow直接pip看了一下,300多m而且最快达到了50k,我就明白一定会有捷径。首先先安装anaconda直接下滑就能安装了。安装完了后就准备安装TensorFlow安装这个东西需要

2020-08-27 21:14:50 683

原创 python xls文件转为csv

python xls文件转为csv使用pandas模块可以快速将xls文件转换为.csvimport pandas as pdaex=pda.read_excel("k.xls")ex.to_csv("k.csv",encoding="gbk")很多文件转为csv文件时,encoding="utf-8"时会出现乱码,所以我才会选择使用gbk。同理,csv转为xls也是一样的。import pandas as pdacs=pda.read_csv("C:/Users/HP/Desktop/k

2020-08-19 13:47:10 4717

原创 爬虫学习笔记(十): Scrapy之CrawlSpiders

爬虫学习笔记(十)Scrapy之CrawlSpiders首先说Spider,它是所有爬虫的基类,而CrawSpiders就是Spider的派生类。原理start_urls --> 调度器 --> 下载器 -->rules--> 数据提取 --> 调度器作用:在rules到中提取到的数据获得新的url,直接返回给调度器进行继续爬取,并创建方法:scrapy genspider -t crawl xxx xxx.com LinkExtractors提取新

2020-08-06 11:19:59 198

原创 爬虫学习笔记(九):Scrapy中settings&pipeline的常用设置

爬虫学习笔记(九)scrapy中settings&pipeline的常用设置settings我们应该注意的是setting中User-Agent,他一般都是默认的 ‘文件名+ (+http://www.yourdomain.com)’,在我们访问一些网站时明明代码没有问题可是就是没有结果,看看自己改ua了没。然后呢就是ROBOTSTXT_OBEY,这是看你是否遵循robots协议,因为有些东西是网站不想让你爬取的信息,所以该怎么样就自己想想吧。DOWNLOAD_DELAY ,可以限制爬

2020-08-05 20:30:55 615

原创 爬虫学习笔记(八):Scrapy数据提取及保存

爬虫学习笔记(八)Scrapy数据提取及保存数据提取了解数据提取之前我们应该先去了解xpath的一些路径表达式符号意思nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点。…选取当前节点的父节点。@选取属性。下面举个简单的例子<li id="brand-14026" data-initial="A" style="display:block;

2020-08-02 14:38:25 308

原创 爬虫学习笔记(七):Scrapy的使用

爬虫学习笔记(七)Scrapy的使用创建项目scrapy startproject name(自己定义名字) #定义项目名创建爬虫scrapy genspider xxx(爬虫名称) 域名 #定义爬虫名运行爬虫scrapy crawl xxx(爬虫名)创建一个.py文件,在文件中从scrapy.cmdline中导入execute,写入如下:from scrapy.cmdline import execute# execute("scrapy crawl xxx

2020-08-02 11:19:00 151

原创 爬虫学习笔记(六):Scrapy框架

爬虫学习笔记(六)Scrapy框架:Scrapy 框架介绍为了爬取网站数据而编写的一款应用框架,所谓的框架其实就是一个集成了相应的功能且具有很强通用性的项目模板该框架提供了高性能的异步下载,解析和持久化等功能为什么要使用Scrapy?它更容易大规模的抓取项目它可以同时进行处理请求,速度十分快Scrapy的特点Scrapy是一个免费开源使用的网络爬虫框架Scrapy能生成JSON,CSV和XML(代码在下端)Scrapy使用xpath,简单明了Scrapy允许以自动方式

2020-08-02 10:22:11 116

原创 爬虫学习笔记(五):selenium

爬虫学习笔记(五)selenium:Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。 例如:from selenium import webdriverfirefox= webdriver.Firefox()chrome

2020-08-01 16:20:40 187

原创 爬虫学习笔记(四):数据提取

爬虫学习笔记(四)数据提取:正则表达式正则表达式是用来匹配字符串非常好用的方法,看看规则模式描述a单个字符。a这里只是个代表,可以是任意非特殊字符[abc]匹配a或b或c。a、b和c只是个代表,a、b和c可以是任意非特殊字符[^abc]匹配不是a或b或c以外的所有字符。[a-z]匹配a到z的任意一个字符\d匹配一个数字字符。等价于 [0-9]。\D匹配一个非数字字符。等价于 [^0-9]。\w匹配字母、数字、下划线。等价于’[

2020-08-01 15:03:14 180

原创 爬虫学习笔记(三):urllib库

爬虫学习笔记(三)urllib库:学会伪装现在有很多网站不让程序直接对上面的内容进行访问,如果发现是程序,站点就不会产生响应设置请求头User-Agent代表用的哪个请求的浏览器就访问的页面那么怎么找呢(以我用的火狐为例)首先对网页按下F12,出现点击网络(network),随便点一个链接,在将旁边的滑块滑到最底就会发现ua了。例子第一天有写。还有referer,服务器会识别headers中的referer是不是它自己,如果不是,有的服务器不会响应。所以我们可以这样写:head

2020-08-01 13:06:00 184

原创 爬虫学习笔记(二):数据爬取

爬虫笔记学习(二)数据爬取:什么是数据爬取就是根据url来获取它的网页信息,很多时候我们在浏览器里面看到的是各种各样的页面,其实是由浏览器解释才呈现出来的,实质它是一段html代码,加 js、css,最重要的部分是存在于html中的,举个简单地例子:from urllib.request import urlopenresponse = urlopen("http://www.baidu.com")print(response.read().decode())这样就得到了百度页面的信息了

2020-08-01 11:25:35 678

原创 爬虫学习笔记(一):爬虫介绍

爬虫学习(一)爬虫介绍:什么是爬虫网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么爬虫就是在网上爬来爬去的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据。作用通过有效的爬虫手段批量采集数据,可以降低人工成本,提高有效数据量,给予运营/销售的数据支撑,加快产品发展。就业情况目前互联网产品竞争激烈,业界大部分都会使用爬虫技术对竞品产品的数据进行挖掘、采集、大数据分析,这是必备手段,并且很多公司都设立了爬虫工程师的岗位。那么爬虫工程师是干什么的呢?(可以点来看看)合法性

2020-07-31 23:04:50 227

原创 关于ModuleNotFoundError: No module named ‘PIL‘

ModuleNotFoundError: No module named 'PIL’很多情况写你的site-package里面是有pillow的,就例如我就有。没有就可以直接pip install pillow然后在将它导入进pycharm。有的话就需要先删除,然后再重新下载。pip uninstall pillow然后再pip,导入就OK了。一般情况都没有导入导致文件无法发现。...

2020-07-27 23:58:18 608

原创 ModuleNotFoundError: No module named ‘scrapy.contrib‘

ModuleNotFoundError: No module named 'scrapy.contrib’scrapy图片爬取的时候遇到了这样的错误,一开始是在setting中这样写的:'scrapy.contrib.pipeline.images.ImagesPipeline':300后来出现了这样的问题想想会不会是因为版本过高而没有contrib这个文件了。18年的时候的下载的是可以的。解决方法:'scrapy.pipelines.images.ImagesPipeline':300

2020-07-27 23:47:46 266

原创 selenium.common.exceptions.StaleElementReferenceException: Message: The element reference of xxx

selenium.common.exceptions.StaleElementReferenceException: Message: The element reference of is stale; either the element is no longer attached to the DOM, it is not in the current frame context, or the document has been refreshed今天突然遇到了这个问题,百度看了一看,没整明白。

2020-07-15 21:29:39 1653 1

原创 使用多个User-agent

上次我说用随机数字的方法显得有些笨拙,今天突然想到了另外的方法(本人小白请见谅)方法1:将user-agent写成一个列表的形式,使用random模块下的choise()方法进行多次调用。例如:ua=["Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1" ,"Mozilla/5.0 (Windows NT 10.0; Win64

2020-07-08 18:08:38 1576 2

原创 pymql.err.ProgrammingError:(1064, “You have an error in your SQL syntax; check XXX

我尝试了将我爬取京东的数据写进数据库,使用往常的方法,最后遇到了这样的错误:pymql.err.ProgrammingError:(1064,“You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near ‘1399.00’],[‘96’]’)’ at line 1”)我在网上找了各种各样的方法,有改成

2020-07-06 14:48:46 1612 3

原创 数据集成

数据集成概述:一般是把不同来源的数据放在一起,但是数据来的地方有很多,所以一定要分别开,把相同属性的数据放在一起,不同属性的分开。避免数据整合出现错误和数据产生重复,还要做好冗余属性的识别。数据集成过程:1、观察数据源,发现关系,看看数据来源中有没有相同的名字但是含义不同的,或者是含义不同意义相同的情况,简称同名不同意,同意不同命。2、数据读取和数据整理。3、清楚重复的数据。举一个简单地例子import numpya=numpy.array([[1,2,3,4]])b=numpy.arra

2020-07-05 11:08:30 272

原创 python爬取京东手机信息

python爬取京东手机信息众所周知,手机对我们现在来说是特别重要的。几乎算的上是人均一部啦,所以我就想看看下一个手机应该换成什么好呢,于是就对京东的手机数据进行了查询。我在这里看了手机的性能,价格和好评百分比进行了查看。代码自提:链接:https://pan.baidu.com/s/1AQrHqcnoSRapYRqBzxNAAw提取码:ufzp想用来写进数据库,写成xlsx文件都可以,自己慢慢摸索吧...

2020-07-04 19:27:47 1240

原创 matplotlib之折线图,散点图

matplotlib之折线图,散点图当我们有很多数据时,选择转化成图无疑不是最好的办法那就来看看折线图和散点图吧首先导入matplotlib下的pylab输入X轴和y轴的数字。调用plot()方法,方法中有三个参数,第一个是横轴的数据,第二个是纵轴的数据,第三个则是控制输出的颜色样式等。一般默认折线图。结果如下:这个是散点图的样式输出结果如下:当然我们也可以对颜色和点线样式进行修改。有兴趣的话可以一个一个去试一试奥。同时还可以使用title()方法为图加标题;左边竖轴

2020-06-30 17:54:24 441

原创 python爬虫之urllib.error.HTTPError: HTTP Error 418:

python爬虫之urllib.error.HTTPError: HTTP Error 418:在家做爬虫的表格爬取,没想到就遇到了以前都没见到过的418错误.仔细一想豆瓣网应该是有反爬机制的吧,干脆伪装成浏览器看看,然后就可以啦.伪装代码如下:很多小伙伴每次做一个爬虫项目就去找user-agent,其实没有必要,就用以前的都是可以的。当被检测到时可以试着改一改最后面的数字,大多数时候都是可以的昂(大多数)。然后呢这是我得出的结果:希望对你们有帮助。...

2020-06-29 15:22:15 3766

原创 当当网书籍数据爬进数据库

当当网书籍数据爬取首先我们要考虑到当当网有没有反爬机制,几次后发现是没有的。一开始我们要考虑我们要爬取的信息是哪些,然后在items.py下面全部写出来。然后就写爬虫文件从核心文件开始定位导入items里面的类。(一定不要导入错了)对应的爬取地址写好就用yield返回。然后肯定不想只爬取一页的书籍吧,那就一定要加循环了。仔细观察后发现又100页。所以循环如下:在我们写pipelines文件时候一定要去setting文件里去将pipeline的注释解除,并且还要将类名与之相对应。pipeline

2020-06-16 16:53:30 643 5

原创 %d format: a number is required, not str

%d format: a number is required, not str在爬虫中有可能会遇到的错误仔细看我写的端口经常在写的时候很容易顺手就在port加" "改正:把3306的双引号去掉就好啦。

2020-06-15 00:25:15 682 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除