自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 scrapy爬虫基础

一、安装所需包1、首先安装scrapy包:pip install scrapy2、在windows系统下,还需安装pypiwin32这个包:pip install pypiwin32二、创建项目1、命令行操作进入指定盘:比如要进入D盘:在命令行输入: d: 或 D: 即可 进入指定文件夹:cd+文件名 查看指定文件夹下的子文件目录:cd+文件名+dir 在某文件下创建文件...

2019-02-23 21:31:27 406

原创 在anaconda中新建环境,并在jupyter notebook添加kernel

1、创建环境:打开anaconda prompt上输入代码创建:比如创建一个python3.5的环境:conda create -n tensorflow python=3.5 (tensorflow这个表示环境的名称,可更改为其他的名称)2、激活当前创建的环境:activate tensorflow3、安装tensorflow:pip install tensorflow...

2019-02-23 17:47:18 6457 3

原创 GraphViz's executables not found报错解决方案

通过pip安装graphviz模块后,进行sklearn的决策树文档操作输出决策树模型结果时报错,报错内容为:GraphViz’s executables not found。通过了解得知:graphviz是属于一个独立的软件,需要到官网下载安装包解压,将bin的路径添加到环境变量。下载网址链接:https://graphviz.gitlab.io/_pages/Download/Down...

2019-02-23 11:47:04 29344 16

原创 代理设置ProxyHandler处理器

在进行爬虫的时候,很多网站会检测某一段时间内同一个ip的访问次数,如果访问的次数异常多,就会禁止这个ip的访问,可以通过设置一些代理服务器,通过每隔一段时间换一个代理进行爬取。通过urllib中的ProxyHandler来设置代理服务器。常用的代理有:西刺免费代理IP:http://www.xicidaili.com/ 快代理:http://www.kuaidaili.com/ 代理云...

2018-12-08 14:28:34 534

原创 正则表达式2

search()函数,在整个文本中查找匹配1、^(脱字号):表示以……开始,如果在中括号表示取反操作text='hello'ret=re.match('^h',text)print(ret.group())>>h2、$:表示以……结束text='xxx@163.com'ret=re.search('\w+@163.com$',text)print(ret...

2018-11-01 22:36:09 179

原创 正则表达式1

group()函数:group()函数可以将匹配到的字符串打印出来match()函数 :match()函数只能从文本的开始部分匹配。1、匹配单个字符1.1、匹配某个字符串:text='hello'ret=re.match('he',text)print(ret.group())1.2、点(.)匹配任意字符,不能匹配换行符text = "ab"ret = r...

2018-10-30 23:46:32 217

原创 BeautifulSoup4库

1、BeautifulSoup4库介绍:和lxml一样,BeautifulSoup4也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据。2、BeautifulSoup4与lxml的区别:lxml只会局部遍历,而BeautifulSoup4是基于HTML DOM(Document Object Model)的,会载入整个文档,解析整个DOM树,因此时间和内...

2018-10-28 16:56:41 632

原创 lxml模块

1、lxml介绍lxml是一个HTML/XML的解析器,主要的功能是如何解析和提取HTML/XML数据。2、lxml解析HTML代码:可以用来解析HTML代码,并且在解析HTML代码的时候,如果代码不规范,会自动进行补全。#导入包form lxml import etreetext='''<div> <ul> <li c...

2018-10-27 23:48:28 662

原创 XPath 语法

1、XPathxpath(XML Path Language)是一门在XML和HTML文档中差值信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 2、XPath语法    2.1选取节点表达式 描述 示例 结果 nodename 选取此节点的所有子节点 .xpath('bookstore') 选取bookstore下所有的子节...

2018-10-27 22:52:39 458 1

原创 requests库

1、安装和文档地址pip install requests中文文档:http://docs.python-requests.org/zh_CN/latest/index.htmlgithub地址:https://github.com/requests/requests2、发送get请求import requestsresponse=requests.get('http://...

2018-10-27 00:17:36 155

原创 urllib 网页爬虫

urllib库urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据1、urlopen函数:from urllib import requestresp=request.urlopen('http://www.baidu.com')text=resp.read()#读取网页代码text=resp.rea...

2018-10-25 23:49:12 509

原创 统计基础之假设检验

原假设:,定义与备择假设完全相反的内容称为原假设。备择假设:,将试图建立的结果设为备择假设。第一类错误:当为真时,做出拒绝的结论第二类错误:当为真时,却接受了。1、总体均值的检验:已知  下侧检验 上侧检验 双侧检验 假设 :u>= :u< :u<= :u> ...

2018-08-23 23:30:13 1292

原创 统计基础之区间估计

最近在学《商务与经济统计》基础知识,为进一步把所学的知识点理顺,通过写文章的形式进行总结,一方面加深对知识点的理解,另一方面提高自己的文字表述能力。一、总体总体常见的几种分布1、分布:又称卡方分布,是标准正态的平方和。2、t分布:是标准正态除以卡方比上其自由度的平方根。3、F分布:两个卡方比上各自自由度的比。4、Z分布:标准正态分布。二、总体均值区间估计:总体分布 ...

2018-08-23 00:19:03 1556

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除