- 博客(5)
- 收藏
- 关注
原创 sklearn 回归分析
机器学习的基本问题1.有监督学习:通过已知的输入和输出,寻找它们之间的关系,对未知输出的输入预测其输出。1)回归问题:对连续形式的输出进行预测2)分类问题:对离散形式的输出进行预测2.无监督学习:在未知输出的前提下,根据输入数据内部的规则进行类别划分。1)聚类问题2)成分分析:降低维度,从多个特征中筛选部分最重要的特征1.线性回归介绍略,线性回归大家学过一点统计学的应该都知道吧可能要导入的包imp...
2018-06-04 19:31:27
1639
原创 机器学习-数据预处理
sklearn.preprocssing机器学习-数据预处理数据标准化:当单个特征的样本取值相差甚大或明显不遵从高斯正态分布时,标准化表现的效果较差。实际操作中,经常忽略特征数据的分布形状,移除每个特征均值,划分离散特征的标准差,从而等级化,进而实现数据中心化。1.标准化将样本中各个列的平均值和标准差处理为0和1。这是归一化中最常见的方法并被广泛地使用(例如,在使用支持向量机(SVM)时,特征标准...
2018-06-04 16:18:19
393
转载 机器学习 知识框架
机器学习分为四大块: classification (分类), clustering (聚类), regression (回归), dimensionality reduction (降维)classification & regression:举一个简单的例子:给定一个样本特征 x, 我们希望预测其对应的属性值 y, 如果 y 是离散的, 那么这就是一个分类问题,反之,如果 y 是连续的...
2018-06-04 11:37:34
856
原创 写个小爬虫,爬爬百度招聘
百度招聘用的是ajax来动态加载不同页面,需要我们去查找消息头来找到其实际发起请求的url# -*- coding: utf-8 -*-"""Created on Wed May 30 17:35:31 2018@author: phl"""import requestsimport jsondef crawl_one_page(url, headers, f): res...
2018-05-30 20:10:27
574
原创 豆瓣爬虫-多线程BFS爬虫
用宽度优先搜索对豆瓣【2016年国内公映电影排期】https://www.douban.com/doulist/3516235/?start=0&sort=seq&sub_type=进行爬取,总体没太大难度,需要注意的是对重复链接的去重第一次的程序# -*- coding: utf-8 -*-"""Created on Tue May 29 10:38:47 2018@au...
2018-05-29 20:43:10
680
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人