机械学习——学习进度记录

最新推荐文章于 2021-10-21 21:15:09 发布

原创最新推荐文章于 2021-10-21 21:15:09 发布 · 587 阅读

2 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

5 篇文章

订阅专栏

python-mod 记录

https://github.com/zjh199585/Python3/tree/master/mod GitHub自保存记录

已完成的相关程序段

机械学习与深度学习课程

机械学习课程链接（台湾大学-李宏毅版本）

https://www.bilibili.com/video/av10590361/

学习进度——周（12号）

学习笔记：

mod建立
根据已经接触的代码程序，def相关常用函数，为之后变成建立相对方便查找与使用的代码库。同时熟悉各个函数的使用细节。

完成无代理无随机暂停无headers伪装的爬虫软件，并运行获取信息。

毫无伪装的代码在数据爬去进行到2/3左右时被发现并403查封。

尝试对爬虫进行伪装，在其中加入hearders伪装，加入随机0到1的时间暂停，同时引入代理服务器。由于免费代理服务器极度不稳定，所以循环调用所有爬去到的代理地址，对所需打开的网站进行尝试，知道成功打开并爬去到相关信息。

运行已完成伪装的爬虫软件，由于代理服务器的不固定，需要循环验证，爬去速度降低到接近1分钟一个网页的速度，对于整体2600多页的网页内容，速度过于缓慢，所以在权衡后，删除了代理的使用，仅以随机暂停，与随机hearders进行伪装。

成功爬去到所有信息。（期间由于关闭过一次，忘记清楚原有信息，所以总数据为5000多条）

对爬取到的信息进行整理（主要是对一些列表数据进行重新划分，去除\s的无用信息，并通过一定的加权方法，最终计算得到用户在所有种类的电影中最喜欢的一类。）
ps：完成代理与非代理爬虫程序和其数据处理程序。

学习进度——周（19号）

学习笔记:

了解现代机械学习的基本分类：
supervised learning （最高效的学习方法，但需要的数据量极大） #之后的的机械学习方法数据使用量逐渐降低，学习效率逐渐下降
semi-supervised learning
transfor learning
unsupervised learning
reinforcement learning

Linear Model:
f(x)=b+w₁*x+w₂*x²+… …+w_n*xⁿ
——基础的线性回归公式
L(f)= $\sum_{i=0}^n (yn-f(xn)^2)$
——基础的误差分析公式

Gradient Descent——以种随机过程，存在global minimun 不等于logical minimum的可能性
过程：
(Randomly)pick an initial value
Compute $\frac{dL}{dw}\mid{w=wn}$
w1=wb- $\eta\frac{dL}{dw}\mid{w=wn}$