- 博客(7)
- 收藏
- 关注
原创 Datawhale|第八期 爬虫4
任务预览模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。(丁香园:http://www.dxy.cn/bbs/thread/626626#626626 )代码:# -*- coding:utf-8 -*-import requests, json, re, random,timefrom bs4 import BeautifulSoupfrom selenium imp...
2019-08-12 20:49:04
197
原创 Datawhale|第八期 爬虫3
任务预览1.安装selenium并学习,使用selenium模拟登陆163邮箱。(163邮箱:https://mail.163.com)2.学习IP相关知识:1)学习什么是IP,为什么会出现IP被封,如何应对IP被封的问题。2) 抓取西刺代理,并构建自己的代理池。(西刺:https://blog.youkuaiyun.com/weixin_43720396/article/details/882182...
2019-08-10 20:35:58
133
原创 Datawhale|第八期 爬虫2
任务预览学习beautifulsoup,并使用beautifulsoup提取内容;使用beautifulsoup提取丁香园论坛的回复内容。(丁香园:http://www.dxy.cn/bbs/thread/626626#626626 )学习xpath,使用lxml+xpath提取内容;使用xpath提取丁香园论坛的回复内容。(http://www.dxy.cn/bbs/thread/62662...
2019-08-08 20:52:46
185
原创 Datawhale|第八期 爬虫1
任务预览1.学习get与post请求,尝试使用requests或者是urllib用get方法向https://www.baidu.com/发出一个请求,并将其返回结果输出。2.如果是断开了网络,再发出申请,结果又是什么。了解申请返回的状态码。3.了解什么是请求头,如何添加请求头。4.学习什么是正则表达式并尝试一些正则表达式并进行匹配。5.结合requests、re两者的内容爬取https...
2019-08-06 20:14:37
140
原创 DataWhale基础算法作业三:决策树相关
DataWhale基础算法作业三:决策树相关学习任务1.信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景3.回归树原理4. 决策树防止过拟合手段1.基础概念(熵 联合熵 条件熵 信息增益 基尼不纯度)在信息论与概率统计中,熵是表示随机变量不确定性的度量。1)熵(entropy)2)条件熵(co...
2019-02-01 10:31:47
396
原创 DataWhale基础算法作业二(对数回归/逻辑回归相关)
DataWhale基础算法作业二:对数回归(逻辑回归)相关学习任务1.Logistic回归损失函数的极大似然推导。(西瓜书公式3.27怎么推来的)2.Logistic回归损失函数的最优化算法:什么是牛顿法、似牛顿法?3.为什么不用线性回归做分类?4.Logistic回归为什么不像线性回归那样用平方损失函数?5.Logistic回归的参数为什么不像线性回归那样直接公式求解?6.Logi...
2019-01-29 20:46:02
258
原创 DataWhale基础算法作业一(线性回归相关)
DataWhale基础算法作业一:线性回归学习任务1.线性回归损失函数的极大似然推导:西瓜书公式3.4除了用最小二乘法以外,怎么用极大似然推得?2.一元线性回归的参数求解公式推导:西瓜书公式3.7和3.8怎么推来的?3.多元线性回归的参数求解公式推导:西瓜书公式3.10和3.11怎么推来的?4.线性回归损失函数的最优化算法:什么是批量梯度下降、随机梯度下降、小批量梯度下降?线性回归损失...
2019-01-27 14:51:09
176
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅