python-mod 记录
https://github.com/zjh199585/Python3/tree/master/mod GitHub自保存记录
已完成的相关程序段
Python有无代理的简单爬虫程序
https://blog.youkuaiyun.com/zhuJH_csdn/article/details/84261876
Python基于已有爬虫数据的数据处理程序
https://blog.youkuaiyun.com/zhuJH_csdn/article/details/84257902
基于 linear model 的口袋妖怪cp值预测(课堂作业练习)
https://blog.youkuaiyun.com/zhuJH_csdn/article/details/84389612
机械学习与深度学习课程
机械学习课程链接(台湾大学-李宏毅版本)
https://www.bilibili.com/video/av10590361/
学习进度——周(12号)
学习笔记:
mod建立
根据已经接触的代码程序,def相关常用函数,为之后变成建立相对方便查找与使用的代码库。同时熟悉各个函数的使用细节。
完成无代理无随机暂停无headers伪装的爬虫软件,并运行获取信息。
毫无伪装的代码在数据爬去进行到2/3左右时被发现并403查封。
尝试对爬虫进行伪装,在其中加入hearders伪装,加入随机0到1的时间暂停,同时引入代理服务器。由于免费代理服务器极度不稳定,所以循环调用所有爬去到的代理地址,对所需打开的网站进行尝试,知道成功打开并爬去到相关信息。
运行已完成伪装的爬虫软件,由于代理服务器的不固定,需要循环验证,爬去速度降低到接近1分钟一个网页的速度,对于整体2600多页的网页内容,速度过于缓慢,所以在权衡后,删除了代理的使用,仅以随机暂停,与随机hearders进行伪装。
成功爬去到所有信息。(期间由于关闭过一次,忘记清楚原有信息,所以总数据为5000多条)
对爬取到的信息进行整理(主要是对一些列表数据进行重新划分,去除\s的无用信息,并通过一定的加权方法,最终计算得到用户在所有种类的电影中最喜欢的一类。)
ps:完成代理与非代理爬虫程序和其数据处理程序。
学习进度——周(19号)
学习笔记:
了解现代机械学习的基本分类:
supervised learning (最高效的学习方法,但需要的数据量极大) #之后的的机械学习方法数据使用量逐渐降低,学习效率逐渐下降
semi-supervised learning
transfor learning
unsupervised learning
reinforcement learning
Linear Model:
f(x)=b+w1*x+w2*x2+… …+wn*xn
——基础的线性回归公式
L(f)=
∑
i
=
0
n
(
y
n
−
f
(
x
n
)
2
)
\sum_{i=0}^n (yn-f(xn)^2)
∑i=0n(yn−f(xn)2)
——基础的误差分析公式
Gradient Descent——以种随机过程,存在global minimun 不等于logical minimum的可能性
过程:
(Randomly)pick an initial value
Compute
d
L
d
w
∣
w
=
w
n
\frac{dL}{dw}\mid{w=wn}
dwdL∣w=wn
w1=wb-
η
d
L
d
w
∣
w
=
w
n
\eta\frac{dL}{dw}\mid{w=wn}
ηdwdL∣w=wn
Regularization 一种使拟合曲线平滑化的处理方法
定义: L(f)=
∑
i
=
0
n
(
y
n
−
f
(
x
n
)
2
)
+
λ
∑
i
=
0
n
w
i
\sum_{i=0}^n (yn-f(xn)^2)+\lambda\sum_{i=0}^nwi
∑i=0n(yn−f(xn)2)+λ∑i=0nwi
Linear Model 作业