机器学习
杜凯杰
杜凯杰个人空间http://www.dukaijie.com
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
简单线性回归-轻松入门人工智能
什么是回归算法 • 回归算法是一种有监督算法 • 回归算法是一种比较常用的机器学习算法,用于构建一个模型来做特征向量到标签的映射。在 算法的学习过程中,试图寻找一个模型,最大程度拟合训练数据。 • 回归算法在使用时,接收一个n维度特征向量,输出一个连续的数据值 简单小案例 输入:x 特征向量 输出:h θ (x)即预测值 在这里我们需要用到一个方法来计算出它的预估值 最小二乘法(又称最小平方法)...原创 2019-01-15 07:38:39 · 11384 阅读 · 0 评论 -
杜凯杰教学数据分析:python pandas 添加、汇总、分类、条件判断、显示满足指定条件数据、操作集锦
** python pandas 操作集锦 ** 载入数据集 df = pd.DataFrame({ '学生姓名':['小红','小花','小明','小军','小雷'], '性别':['女','女','男','男','男'], '语文成绩':[58,78,96,64,85], '数学成绩':[90,69,45,35,57], '英语成绩':[68,80,46...原创 2019-06-14 23:53:06 · 16155 阅读 · 0 评论 -
杜凯杰教学数据分析:python 数据提取及拆分
K线数据提取 依据原有数据集格式,按要求生成新表: 1、每分钟的close数据的第一条、最后一条、最大值及最小值, 2、每分钟vol数据的增长量(每分钟vol的最后一条数据减第一条数据) 3、汇总这些信息生成一个新表 (字段名:[‘time’,‘open’,‘close’,‘high’,‘low’,‘vol’]) import pandas as pd import time start=...原创 2019-06-15 00:16:27 · 23518 阅读 · 0 评论 -
杜凯杰教学数据分析:python 图片爬取 爬取各校校花图片
python 图片爬取 爬取各校校花图片 爬取十页校花图片(可按需求更改页数,爬取更多图片) #爬取各高校校花图片 import requests import time from lxml import etree import pandas as pd startUrl='http://www.xiaohuar.com/list-1-'#定义初始链接地址 headers={ 'User...原创 2019-06-15 00:22:45 · 36397 阅读 · 24 评论 -
杜凯杰教学数据分析:Logistic(逻辑回归)算法完整实例数据集建模处理,缺省值处理、类型转换、建模预测
基于病理数据集使用Logistic算法构建模型进行乳腺癌预测(良性2/恶性4)—杜凯杰 数据来源:http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Original%29 实验采用 UCI 数据集中的 Wisconsin 医学院的 William H.Wolberg 博士提供的乳腺 癌 的 数 据 样 本 。所有数...原创 2019-08-24 15:52:04 · 17198 阅读 · 1 评论 -
杜凯杰教学数据分析:python百万级数据集中异常值、离群值查找及替换,快捷实用!
杜凯杰教学数据分析:python百万级数据集中异常值、离群值查找及替换,快捷实用! >点击下数据集<< 之前有教过空值的处理方法,根据以往的经验,一般我们在处理小规模数据时都是用肉眼扫描的方式去查看数据中的异常值,即不科学,鲁棒性也不强,不适于中大规模数据集,本次着重介绍一下异常数据的查找及处理操作。 第一步:打开数据集,查看文档内容信息 import pandas as pd...原创 2019-08-26 16:49:48 · 17296 阅读 · 0 评论
分享