- 博客(13)
- 收藏
- 关注
原创 scrapy爬虫基础
一、安装所需包1、首先安装scrapy包:pip install scrapy2、在windows系统下,还需安装pypiwin32这个包:pip install pypiwin32二、创建项目1、命令行操作进入指定盘:比如要进入D盘:在命令行输入: d: 或 D: 即可 进入指定文件夹:cd+文件名 查看指定文件夹下的子文件目录:cd+文件名+dir 在某文件下创建文件...
2019-02-23 21:31:27
406
原创 在anaconda中新建环境,并在jupyter notebook添加kernel
1、创建环境:打开anaconda prompt上输入代码创建:比如创建一个python3.5的环境:conda create -n tensorflow python=3.5 (tensorflow这个表示环境的名称,可更改为其他的名称)2、激活当前创建的环境:activate tensorflow3、安装tensorflow:pip install tensorflow...
2019-02-23 17:47:18
6457
3
原创 GraphViz's executables not found报错解决方案
通过pip安装graphviz模块后,进行sklearn的决策树文档操作输出决策树模型结果时报错,报错内容为:GraphViz’s executables not found。通过了解得知:graphviz是属于一个独立的软件,需要到官网下载安装包解压,将bin的路径添加到环境变量。下载网址链接:https://graphviz.gitlab.io/_pages/Download/Down...
2019-02-23 11:47:04
29344
16
原创 代理设置ProxyHandler处理器
在进行爬虫的时候,很多网站会检测某一段时间内同一个ip的访问次数,如果访问的次数异常多,就会禁止这个ip的访问,可以通过设置一些代理服务器,通过每隔一段时间换一个代理进行爬取。通过urllib中的ProxyHandler来设置代理服务器。常用的代理有:西刺免费代理IP:http://www.xicidaili.com/ 快代理:http://www.kuaidaili.com/ 代理云...
2018-12-08 14:28:34
534
原创 正则表达式2
search()函数,在整个文本中查找匹配1、^(脱字号):表示以……开始,如果在中括号表示取反操作text='hello'ret=re.match('^h',text)print(ret.group())>>h2、$:表示以……结束text='xxx@163.com'ret=re.search('\w+@163.com$',text)print(ret...
2018-11-01 22:36:09
179
原创 正则表达式1
group()函数:group()函数可以将匹配到的字符串打印出来match()函数 :match()函数只能从文本的开始部分匹配。1、匹配单个字符1.1、匹配某个字符串:text='hello'ret=re.match('he',text)print(ret.group())1.2、点(.)匹配任意字符,不能匹配换行符text = "ab"ret = r...
2018-10-30 23:46:32
217
原创 BeautifulSoup4库
1、BeautifulSoup4库介绍:和lxml一样,BeautifulSoup4也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据。2、BeautifulSoup4与lxml的区别:lxml只会局部遍历,而BeautifulSoup4是基于HTML DOM(Document Object Model)的,会载入整个文档,解析整个DOM树,因此时间和内...
2018-10-28 16:56:41
632
原创 lxml模块
1、lxml介绍lxml是一个HTML/XML的解析器,主要的功能是如何解析和提取HTML/XML数据。2、lxml解析HTML代码:可以用来解析HTML代码,并且在解析HTML代码的时候,如果代码不规范,会自动进行补全。#导入包form lxml import etreetext='''<div> <ul> <li c...
2018-10-27 23:48:28
662
原创 XPath 语法
1、XPathxpath(XML Path Language)是一门在XML和HTML文档中差值信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 2、XPath语法 2.1选取节点表达式 描述 示例 结果 nodename 选取此节点的所有子节点 .xpath('bookstore') 选取bookstore下所有的子节...
2018-10-27 22:52:39
458
1
原创 requests库
1、安装和文档地址pip install requests中文文档:http://docs.python-requests.org/zh_CN/latest/index.htmlgithub地址:https://github.com/requests/requests2、发送get请求import requestsresponse=requests.get('http://...
2018-10-27 00:17:36
155
原创 urllib 网页爬虫
urllib库urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据1、urlopen函数:from urllib import requestresp=request.urlopen('http://www.baidu.com')text=resp.read()#读取网页代码text=resp.rea...
2018-10-25 23:49:12
509
原创 统计基础之假设检验
原假设:,定义与备择假设完全相反的内容称为原假设。备择假设:,将试图建立的结果设为备择假设。第一类错误:当为真时,做出拒绝的结论第二类错误:当为真时,却接受了。1、总体均值的检验:已知 下侧检验 上侧检验 双侧检验 假设 :u>= :u< :u<= :u> ...
2018-08-23 23:30:13
1292
原创 统计基础之区间估计
最近在学《商务与经济统计》基础知识,为进一步把所学的知识点理顺,通过写文章的形式进行总结,一方面加深对知识点的理解,另一方面提高自己的文字表述能力。一、总体总体常见的几种分布1、分布:又称卡方分布,是标准正态的平方和。2、t分布:是标准正态除以卡方比上其自由度的平方根。3、F分布:两个卡方比上各自自由度的比。4、Z分布:标准正态分布。二、总体均值区间估计:总体分布 ...
2018-08-23 00:19:03
1556
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅