
机器学习进阶
sklearn学习笔记
弎见
这个作者很懒,什么都没留下…
展开
-
EDA探索性数据分析-- 共享单车数据
EDA探索性数据分析(共享单车数据): 特征组合; 变量的类型; 观察变量并剔除离群点; 变量间相关系数; 标签与特征变化可视化原创 2020-03-29 13:06:00 · 462 阅读 · 0 评论 -
EDA探索性数据分析 -- 联合国粮农组织: 水资源
EDA探索性数据分析: 切片分析; 缺失值; 单特征; 数据对数变换; 数据分析维度; 变量关系可视化展示原创 2020-03-28 01:09:18 · 996 阅读 · 6 评论 -
EDA探索性数据分析 -- 足球赛事红牌数据分析
数据读取与预处理, 数据板块切分, 缺失值, 特征可视化展示, 多特征关系, 可视化报表, 特征组合与选择原创 2020-03-18 12:22:22 · 1474 阅读 · 3 评论 -
机器学习项目实战-能源利用率3-分析
机器学习模型解释: 特征重要性; Locally Interpretable Model-agnostic Explainer (LIME); 树模型画图展示原创 2020-03-06 21:55:59 · 848 阅读 · 0 评论 -
机器学习项目实战-能源利用率2-建模
机器学习项目实战-能源利用率2-建模: 建立基础模型, 尝试多种算法; 模型调参; 评估与测试原创 2020-03-06 17:39:23 · 993 阅读 · 0 评论 -
机器学习项目实战-能源利用率1-数据预处理
机器学习基本套路: 1.数据清洗与格式转换; 2.探索性数据分析; 3.特征工程建立基础模型,尝试多种算法; 4.模型调参; 5.评估与测试; 6.解释我们的模型原创 2020-03-06 01:14:27 · 1527 阅读 · 2 评论 -
实战: 对GBDT(lightGBM)分类任务进行贝叶斯优化, 并与随机方法对比
目录:一. 数据预处理1.1 读取&清理&切割数据1.2 标签的分布二. 基础模型建立2.1 LightGBM建模2.2 默认参数的效果三. 设置参数空间3.* 参数空间采样四. 随机优化4.1 交叉验证LightGBM4.2 Objective Function4.3 执行随机调参4.4 Random Search 结果五. 贝叶斯优化5.1 Objective Function...原创 2020-02-28 00:35:56 · 6231 阅读 · 2 评论 -
Hyperopt工具包 贝叶斯优化
Hyperopt工具包一. Bayesian Optimization 贝叶斯优化四大步骤Objective 目标函数Domain space 指定参数空间Hyperparameter optimizationfunction 可选择的采样算法,随机或者贝叶斯优化Trials 记录结果的保存1. Objective 自定义目标, 这里得有一个最小值import pandas as...原创 2020-02-22 15:11:14 · 1875 阅读 · 0 评论 -
推荐系统实例之surprise库
surprise官方网址:http://surprise.readthedocs.io/en/stable/index.htmlfrom surprise import KNNBasicfrom surprise import Datasetfrom surprise.model_selection import cross_validatedata = Dataset.load_bui...原创 2020-02-18 21:05:07 · 1265 阅读 · 0 评论 -
协同过滤与隐语义模型推荐系统实例3: 基于矩阵分解(SVD)的推荐
[ 协同过滤与隐语义模型推荐系统实例1: 数据处理 ][ 协同过滤与隐语义模型推荐系统实例2: 基于相似度的推荐 ]隐语义模型推荐基于矩阵分解(SVD)的推荐# 先计算歌曲被当前用户播放量/用户播放总量 当做分值triplet_dataset_sub_song_merged_sum_df = triplet_dataset_sub_song_merged[['user', 'listen...原创 2020-02-16 00:55:54 · 786 阅读 · 0 评论 -
协同过滤与隐语义模型推荐系统实例2: 基于相似度的推荐
[ 协同过滤与隐语义模型推荐系统实例1: 数据处理 ]基于相似度的推荐系统一. 排行榜单推荐from sklearn.model_selection import train_test_splittriplet_dataset_sub_song_merged_set = triplet_dataset_sub_song_mergedtrain_data, test_data = tra...原创 2020-02-16 00:02:10 · 618 阅读 · 0 评论 -
协同过滤与隐语义模型推荐系统实例1: 数据处理
构建一个音乐推荐系统import pandas as pdimport numpy as npimport timeimport sqlite3data_home = 'F:/51学习/study/机器学习进阶/第14章Python从零开始构建音乐推荐系统/Python实现音乐推荐系统/'triplet_dataset = pd.read_csv(filepath_or_buffe...原创 2020-02-15 18:13:36 · 671 阅读 · 1 评论 -
ARIMA 时间序列5: 维基百科词条EDA
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport re%matplotlib inlinetrain = pd.read_csv('train_1.csv').fillna(0)print(train.shape)train.head()打印info信息看到数据大小 609.8...原创 2020-01-14 21:52:15 · 457 阅读 · 2 评论 -
ARIMA 时间序列4: 预测股票趋势
import pandas as pdimport numpy as npimport datetimeimport matplotlib.pyplot as pltimport seaborn as snsfrom statsmodels.tsa.arima_model import ARIMAfrom statsmodels.graphics.tsaplots import pl...原创 2020-01-12 21:36:45 · 1152 阅读 · 0 评论 -
ARIMA 时间序列3: 使用tsfresh库进行分类任务
文章目录1. 查看数据2. 时间序列特征提取3. 用决策树训练,预测和评估模型tsfresh是开源的提取时序数据特征的python包,能够提取出超过4000种特征 .1. 查看数据import matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlinefrom tsfresh.example.robot_executi...原创 2020-01-12 21:11:24 · 1778 阅读 · 0 评论 -
ARIMA 时间序列2: 评估和参数选择
ARIMA -> SARIMA -> SARIMAX:S是Seasonal,就是季节性、周期性的意思X是eXogenous,外部信息的意思季节性参数:P:季节性自回归阶数。D:季节性差分阶数。Q:季节性移动平均阶数。m:单个季节期间的时间步数。import numpy as npimport pandas as pdimport matplotlib.p...原创 2020-01-12 11:57:29 · 4131 阅读 · 0 评论 -
ARIMA 时间序列1: 差分, ACF, PACF
ARIMAARIMA(p,d,q)模型全称为差分自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA).自回归(AR),差分(I),移动平均(MA)趋势参数:p:趋势自回归阶数。d:趋势差分阶数。q:趋势移动平均阶数。ACF 与 PACF自相关函数 ACF (autocorrelation funct...原创 2020-01-11 21:11:13 · 10046 阅读 · 0 评论 -
时间处理date_range,truncate,Timestamp,Period,Timedelta,resample,rolling
文章目录1. date_range2. truncate 过滤3. Timestamp, Period, Timedelta3.1 Timestamp 时间戳3.2 Period 时间区间3.3 Timedelta 时间差3.4 时间转换4. period_range5. 时间索引6. 时间戳Timestamp 和时间周期period 转换7. 重采样 resample8. 插值方法 fill9....原创 2020-01-11 12:11:51 · 728 阅读 · 0 评论 -
HMM隐马尔科夫模型与实例3: 中文分词
import jsonimport loggingimport numpy as npimport pandas as pddata = [{'我要吃饭': 'SSBE'}, {'天气不错': 'BEBE'}, {'谢天谢地': 'BMME'}]{B(词开头),M(词中),E(词尾),S(独字词)} {0,1,2,3}O:观察对象的集合, 这里是字的集合,{我要吃饭天气不错谢天地...原创 2019-12-27 20:21:18 · 606 阅读 · 1 评论 -
HMM隐马尔科夫模型与实例2: 预测股票走势
from __future__ import print_function #python2.X,使用print就得像python3.X那样加括号使用import datetimeimport numpy as npimport pandas as pdfrom matplotlib import cm, pyplot as pltimport mpl_finance as mpffr...原创 2019-12-27 17:12:56 · 7186 阅读 · 3 评论 -
HMM隐马尔科夫模型与实例1
隐马尔可夫模型 Hidden Markov Model (HMM)以下三个问题,人们提出了相应的算法1 评估问题: 前向算法2 解码问题: Viterbi算法 (维特比算法)3 学习问题: Baum-Welch算法(向前向后算法)import numpy as npfrom hmmlearn import hmm# 隐藏状态:3个盒子states = ['box1', 'bo...原创 2019-12-26 23:06:48 · 692 阅读 · 0 评论 -
LightGBM预测饭店流量2: lightgbm建模与预测
接上一篇:<LightGBM预测饭店流量1: 数据处理>LIghtGBM建模model_selection.KFold()K折交叉验证, 将训练/测试数据集划分n_splits个互斥子集,每次用其中一个子集当作验证集,剩下的n_splits-1个作为训练集,进行n_splits次训练和测试,得到n_splits个结果import numpy as npimport pa...原创 2019-12-23 00:17:04 · 1421 阅读 · 2 评论 -
LightGBM预测饭店流量1: 数据处理
饭店流量数据import pandas as pdair_visit = pd.read_csv('air_visit_data.csv')air_visit.index = pd.to_datetime(air_visit['visit_date'])air_visit.head()# 按天来算air_visit = air_visit.groupby('air_store_...原创 2019-12-22 23:21:33 · 1106 阅读 · 2 评论 -
GMM(高斯混合模型)与KMean聚类
最大期望算法EMEM (Expectation Maximization)算法是一种求参数的极大似然估计方法,可以广泛地应用于处理缺损数据、截尾数据等带有噪声的不完整数据。最大期望算法经过两个步骤交替进行计算:– 第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;– 第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下...原创 2019-12-21 21:47:37 · 1415 阅读 · 0 评论 -
机器学习GBDT, XGBoost, LightGBM对比
一. 梯度提升决策树GBDTGBDT(Gradient Boosting Decision Tree)的核心在于: 每一棵树学的是之前所有树结论和的残差(负梯度),这个残差就是一个加预测值后能得真实值的累加量。在分类问题中,GBDT的损失函数跟逻辑回归一样,采用的对数似然函数。在回归问题中,GBDT采用最小化误差平方(ls)。在每一个叶子节点都会得到一个预测值,该预测值等于属于这个节点的所有...原创 2019-12-17 00:30:11 · 2365 阅读 · 0 评论 -
Anaconda安装和使用XGBoost遇到各种问题
花了大半天时间解决了XGBoost问题, 在此分享一下:1. pip install xgboost最开始我想偷懒, 直接在Anaconda Prompt上直接输入pip install xgboost, 似乎是安装成功了, 但是运行代码时弹出窗口"python已停止工作".因此这条捷径走不得啊~~2. 手动下载文件安装时出现is not a supported wheel on this...原创 2019-12-15 20:39:36 · 1305 阅读 · 0 评论 -
sklearn支持向量机(SVM) support vector machines: SVC(linear, rbf)
随机数据import numpy as npimport matplotlib.pyplot as pltfrom scipy import statsimport seaborn as snssns.set()# sns.set(style = 'whitegrid')# sns.set_style('whitegrid')% matplotlib inlinefrom...原创 2019-12-14 12:16:08 · 1248 阅读 · 0 评论