- 博客(11)
- 收藏
- 关注
原创 李宏毅机器学习——1.Regression
1.定义:找到一个函数function,通过输入特征X,输出一个数值Scaler。2.应用举例:股市预测输入:过去十年股票的变动、新闻资讯等输出:预测股市明天的平均值Pokemon(宝可梦)精灵攻击力预测输入:进化前的CP值、物种、血量(HP)、重量(weight)、高度(height)输出:进化后的CP值3.模型步骤Step1:模型假设,选择模型框架(线性模型)Ste...
2020-02-12 09:45:04
287
原创 李宏毅机器学习——0.Introduction
一.机器学习介绍目标:人工智慧(Artificial Intelligence)手段:机器学习(Machine Learning)深度学习是机器学习中的一种方法Machine Learning≈Looking for a Functioneg:语音辨识中:找一个function,输入的是声音讯号,输出语言辨识的文字。如何找到这个function呢?以影像辨识为例,找个functio...
2020-02-10 09:12:16
223
原创 kaggle竞赛-Instacart Market Basket Analysis(推荐)-特征工程
紧接上次的分析初探,进行进一步特征工程的详细分析。1.数据准备1.1导入工具包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport lightgbm as lgbimport gc%matplotlib inline 1.2导入数据pat...
2020-01-31 17:59:57
1482
原创 kaggle竞赛-Instacart Market Basket Analysis(推荐)-初探
竞赛网址参考代码1.1赛题背景:1.2数据集详情:aisle.csv 产品摆放位置说明 - 包含了aisle_id和aisle两列数据departments.csv 产品所属类别 - 包含了department_id和department两列数据products.csv 产品详情说明 - 包含product_id、product_name、aisle_id、department...
2019-12-25 16:04:33
2485
原创 四、挖掘建模——分类
训练集、验证集和测试集训练集:用于训练和拟合模型验证集:通过训练集训练出多个模型后,使用验证集数据来寻找模型得最佳参数测试集:模型泛化能力的考量(泛化指的是对未知数据的预测能力)#划分训练集、验证集和测试集from sklearn.model_selection import train_test_splitf_v=features.valuesl_v=label.values...
2019-09-17 19:19:40
270
原创 三、预处理理论
特征工程:1.特征使用(数据的选择、数据的可用性)2.特征获取(特征来源、特征存储)3.特征处理(数据清洗、特征预处理)4.特征监控(现有特征、新特征)下面重点介绍一下特征处理1.数据清洗1)数据样本采集(抽样)2)异常值(空值)处理import pandas as pddf=pd.DataFrame({'A':['a0','a1','a1','a2','a3','a4'],'...
2019-08-24 19:59:16
237
原创 二、多因子探索分析与可视化
一、假设检验与方差检验import numpy as npimport scipy.stats as ss1.正态检验norm_dist=ss.norm.rvs(size=20) #符合标准正态分布的20个数ss.normaltest(norm_dist) #检验是否为正态分布,p>0.05符合正态分布,基于偏度和峰度的一种检验法2.卡方检验ss.chi2_contingenc...
2019-08-12 19:32:57
2535
原创 爬虫初学1
一、读懂网页结构1.什么是HTML (标记语言)html是用来描述网页的一种语言html指超文本标记语言html使用标记标签来描述网页html文档=网页2.标签、元素、属性1)标签:HTML标签由尖括号包围的关键字 eg:< html> 通常成对出现 eg:< b> 和< ...
2019-07-23 10:03:29
212
原创 一、单因子探索分析与可视化
1.读取csv文件,查看基本信息import pandas as pddf=pd.read_csv('HR.csv')df.head() #查看前五行数据type(df) #查看数据类型df.mean() #平均值df.median() #中值df.quantile(q=0.25) #四分位数df.mode() #众数df.std() #标准差df.var(...
2019-06-23 21:50:30
330
原创 OS模块下的关于文件的操作
1、os.listdir(path)列出指定路径下的所有文件2、os.listdir(os.getcwd())列出当前路径下的所有文件3、os.mkdir(path)在指定路径下创建指定文件夹4、os.rmdir(path)删除指定路径下的指定文件夹...
2019-04-08 08:45:07
283
原创 数据预处理
1.导入python中的三个库(Numpy、Matplotlib、Pandas)import numpy as apimport matplotlib.pyplot as pltimport pandas as pd读入数据集dataset=pd.read_csv(data.csv)创建矩阵保存自变量X=dataset.iloc[:,:-1].values#第一个:表示提取...
2019-04-04 15:09:56
1107
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人