- 博客(13)
- 收藏
- 关注
原创 sklearn文档-第一次笔记
1.1.1 Ordinary Least Squares(普通最小二乘法)LinearRegression(线性回归)是一个线性模型,其具有系数 s=(w1…wp)s=(w1…wp) s=(w_1\ldots w_p) ,这个线性回归函数最小化了数据集中真实数据的最小残差平方和,也就是通过线性估计进行了预测。在数学上解决了 minw||Xw−y||minw||Xw−y||\min_w||Xw-...
2018-04-24 12:01:42
635
原创 机器学习(MDS,ISOMAP)
一、 问题高维数据一直是数据挖掘领域一个比较棘手的问题,尤其是在文本挖掘、图像处理以及基因信息处理等领域,在数据维度比较高的情况下,我们训练所得到的学习器通常就会无法工作,或者变得效率很低。那么为了更好的分析利用数据,我们就不得不把数据集从高维空间降到低维空间。如何实现利用MDS和isomap算法进行降维?二、 数据简介广泛应用的Iris数据集,数据量小,计算方便。150个样本,3
2017-11-25 09:58:18
3326
1
原创 数值计算与优化(共轭梯度法和QR)
# -*- coding: utf-8 -*-import numpy as npimport time #calculate time of diffient methodnp.random.seed(2) #set seed to make x0 unchangeddef Create_Tridiagonal_Matrices(a,b,c,n):#创建一种特殊的三对角矩阵,主对角线元
2017-11-25 09:25:27
753
原创 数值计算(迭代法解方程组)
1.主要思想:AX=bAX=b 经过一定的变换成X=BX+fX=BX+f,然后从初始向量出发,计算Xk+1=BXk+fX^{k+1}=BX^{k}+f,经过一定的次数后得到Xk+1X^{k+1}会收敛于真正的值。问题来了?如何得到X=BX+f这种形式?如何证明收敛?接下来的几个算法都是围绕这个问题。2.雅可比迭代法
2017-11-25 09:24:18
3516
原创 深度学习(参数选择)
参数处理 各种参数之间的重要性是有差别的。Alpha1,beta,beta1,beta2,epsilon.(0.9,0.999,10^-8.)hidden units, layers, learning-rate decay3, mini-batch2 网格法一ban不太好,try random values ,(我们探究了更多的值) Coarse to fine (从粗糙到精细)为超参数选
2017-10-05 14:25:24
2159
原创 深度学习(batch,mini-batch,其它算法)
batch vs mini-batch 2.理解mini-batch 分成几份,,,遍历做回归与反省回归。 若size=m,才相当于batch。 若size=1 ,随机梯度下降法(stochastic gradient descent)每个样本样本都是独立Mini_batch. 随机梯度下降法有很多的 噪声。指错方向。往往不会到达最小值,而是在附近波动.很显然,一个样本求一次梯度,没有
2017-10-05 14:04:03
5325
原创 深度学习(数据集划分偏差方差)
Mathematical expression of gaussian eliminationelimination-step and get a upper triangular matrixfor k=0 to n-1 mki=a(k)ika(k)kk(i=k+1,…,n−1) m_i^k= \frac {a_{ik}^{(k)}} {a_{kk}^{(k)}} (i=k+
2017-10-05 13:29:46
1358
原创 数值计算方法(高斯消元以及LU分解)
Mathematical expression of gaussian eliminationelimination-step and get a upper triangular matrixfor k=0 to n-1 mki=a(k)ika(k)kk(i=k+1,…,n−1) m_i^k= \frac {a_{ik}^{(k)}} {a_{kk}^{(k)}} (i=k+
2017-10-03 17:57:59
4925
原创 爬虫入门五(Phantomjs和selenium)
1.Phantomjs1.简介:PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引擎。它原生支持多种web 标准:DOM 操作,CSS选择器,JSON,Canvas 以及SVG。2.必须掌握的操作:官方文档:http://phantomjs.org/quick-start.htmlconsole.log('输出');#显示phantom.quit();#停止#页面加载并下载这个图
2017-09-12 15:36:29
447
原创 爬虫入门四(多线程爬虫)
1.单线程实现网页下载#coding=utf-8import datetimeimport csvfrom day3 import link_crawler #略有改动。same_domain修改一下。html编码改一下。from mongoDB import MongoCache#前面实现的def getUrl(number): urls=[] path='D:/top-
2017-09-10 16:32:08
369
原创 爬虫入门三(获取各国网址,三种网页抓取方法,下载缓存)
对《用Python写网络爬虫》进行了总结归纳。1.爬相关地址#coding=utf-8import robotparserimport urlparseimport urllib2import urllibimport reimport datetimeimport timeimport Queue#初始化robotparserdef get_robots(url):
2017-09-09 22:38:42
2673
原创 爬虫入门二(urllib,urllib2)
看了下网上的概念,比较模糊不知道作用。利用例子总结了一下。1.爬虫网站有各种数据,获得自己感兴趣的数据并保存的一种脚本。2.通信基础1.post和get:(1)get是从服务器上获取数据,post是向服务器传送数据。 (2) 在客户端,Get方式在通过URL提交数据,数据在URL中可以看到;POST方式,数据包装后提交。 (3) GET方式提交的数据最多只能有1024字节,而POST则没
2017-09-08 13:39:15
376
原创 西瓜书机器学习总结(一)
1.基本概念1.数据集,特征属性,属性值,训练集,样本,标记,独立同分布的假设balabala….简单易懂 2.归纳学习与归纳偏好:广义从样例学习,狭义是学习概念。西瓜模型的学习可以理解为从假设空间中搜索匹配,剔除不符合,最终会有多个模型,这个集合也可以叫做版本空间。然后我们必须根据规则选择一个,设计occam’s razor原理,选择最简单的。 3.NFL:所有模型的期望性能相同。(假设各个机
2017-09-06 16:23:33
1953
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人