- 博客(13)
- 收藏
- 关注
原创 web_day7
这次爬丁香园还是优点爬不出来,我明天再爬一下import requests,refrom lxml import etreefrom bs4 import BeautifulSouptemp_cookie = ('DXY_USER_GROUP=94; _ga=GA1.2.1871919213.1551584788; __auc=b9e4194916942b5c086bda9844a; _g...
2019-03-08 01:29:47
172
原创 day_6_ip
这次写的是有关ip的内容学习什么是IP,为什么会出现IP被封,如何应对IP被封的问题。抓取西刺代理,并构建自己的代理池。ip就当我没需要访问一个网站是便会向DNS服务器查询域名的ip,从而向ip指定服务器发送请求,返回回来的html便是我们现在所看到的网页。出现的被封就是经过频繁访问后受到了限制。应对ip被封的问题可以使用模拟浏览器,或者用代理ip...
2019-03-06 21:42:54
162
原创 web_sarpy_day4_selenium
今天来讲讲这个selenium模块吧1.安装selenium的方法pip install selenium2、模拟登陆163邮箱import timefrom selenium import webdriver#启动chromebr = webdriver.Chrome()#打开163网站br.get(“https://mail.163.com”)time.sleep(1)#...
2019-03-05 21:58:06
239
原创 高级算法梳理第三天
CART树Classification And Regression Tree(CART)是决策树的一种,,CART算法既可以创建分类树,也可以用于创建回归树、模型树,两者在建树的过程中稍有偏差CART算法流程:若满足停止分裂条件(样本个数小于预定阈值,或Gini指数小于预定阈值(样本基本属于同一类,或没有特征可供分裂),则停止分裂;否则,选择最小Gini指数进行分裂;递归执行1-2步...
2019-03-05 21:47:58
311
原创 第三次机器学习
s信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)熵表示随机变量不确定的度量,熵越大,随机变量的不确定性就越大。条件熵是随机变量X的条件下随机变量y的不确定性。称为H(Y|X)联合熵就是度量一个联合分布的随即系统造成的不确定度,这个与信息熵一样是一个数学期望决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景算法原理:决策树需要做出决策也就是对数据进...
2019-03-05 21:08:39
138
原创 web_lxml_scarpy_day4
这次使用的是lxml和requests库爬取的网站还是http://www.dxy.cn/bbs/thread/626626#626626刚刚搞了好长时间,才知道不要cookie还是一样可以返回正常输出页面,cookie还没琢磨出来,不知道是失效还是干嘛,还是报错。import requestsfrom lxml import etreeheader = {'User-Agent':...
2019-03-04 21:35:40
163
原创 web_scarpy_day3
1.进入一个丁香园的论坛,通过谷歌开发者工具查看头部信息2.复制粘贴相关的头部信息,这里的cookie为登陆之后的cookie,所以需要注册一个丁香园的账号以后会跟新相关的通过requests携带cookie的方式进行爬去,因为这样就不用每次都要去粘贴cookie的相关信息:3.找到相关的js请求,分析和查看对应的返回结果...
2019-03-03 21:25:39
161
原创 GBDT算法梳理
1.向前分布算法每次只学习一次经验,通过经验累加经验,一步步逼近最优解。最终的分布算法为fm(xi)=fm-1(xi)+Bb(xi;r) ;; fm-1(xi)是已知的,通过一步步逼近最优解2.负梯度拟合提升树利用向前分布算法与加法模型进行学习实现优化过程,由于一步步的优化,每下一步难度便会增加,针对这个问题就出现了梯度提升算法,这个方法也是利用最速下降方法原理。3.损失函数方误差...
2019-03-03 16:28:10
382
原创 回归原理第二天
逻辑回归与线性回归的联系与区别逻辑回归和线性回归都是属于广义上的回归模型,线性回归是属于监督学习的其中一种方法,就是预测具有一串具有连续变量的数据。而逻辑回归呢,就是比较偏向于分类,但它也是属于回归,所以本质还是线性回归,可以对数据预测进行概率计算,但最主要还是偏向于分类逻辑回归的原理运用回归方程来近可能的接近真实值,通过二类线性对数据进行分类,可以直接用在sigmoid函数上的映射。来更容...
2019-03-03 13:43:06
190
原创 web_scapy_day2
这个第二天呢,没怎么爬好,也是时间不够充裕吧,我就暂时先随便写一下。既然要用正则和requests请求,那就肯定先要导入这两个库,由于这个正则我也没怎么学好,所以总是匹配的不准,我又加入了一个BeautifulSoup解析库。import reimport requestsfrom bs4 import BeautifulSoupname_list = []country_list ...
2019-03-02 20:54:06
160
原创 高级算法梳理
集成学习概念:(同一种类的)机器学习过程中有监督学习算法,而集成学习就是由多个弱监督模式的学习器集合起来得到一个更全面的强监督模型,这种预测模型的元算法,以达到减少方差、偏差或改进预测效果集成学习在各个规模的数据集上都起到了很好的策略个体学习的概念:(不是同一个种类的)就是通过不同策略的模型进行训练从而确定最终的分类强的学习器Boosting:在训练的过程中,先使用初始权限对学习器进行学习,...
2019-02-28 23:07:18
2517
原创 学习get与post请求
一、使用requests或urllib用get方法进行请求http://www.baidu.com这个就是使用requests使用get方法进行请求输出的结果这个就是请求后得到的网页html源码2.使用urllib.request.open获得的response2.如果是断开网络了,就是无效请求,则会返回4043.什么是请求头,如何添加请求头,我已经用代码演示过了import reque...
2019-02-28 21:35:35
394
原创 机器学习基础
一、机器学习的一些概念:有监督:探索X中的自变量之间的关系无监督:估计y和X之间的关系f(.)(建模目标)泛化能力:经过多组数据进行训练而出现一组规律可循的数据进行对下组的数据进行预测分析过拟合欠拟合(方差和偏差以及各自解决办法):极力拟合当前观察的数据,(黑箱中过度的参数造成不可控因素)因此有可能过度拟合,,解决办法:在黑箱模型在训练的过程中使用“袋外数据”(Out of Bag [O...
2019-02-28 20:36:49
200
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人