- 博客(80)
- 收藏
- 关注
原创 Win7环境下基于Anaconda安装tensorflow(CPU)的版本问题
1. 在Anaconda下安装, 千万不要另外去安装CUDA和cudnn2. Numpy版本一定要与tensorflow版本匹配3. 安装完tensorflow后不能直接使用Jupyter notebook, 需要用Anaconda再安装一个tensorflow版本的Jupyter notebook才能正常运行
2020-07-14 19:42:34
433
原创 数据挖掘之用户画像
目录:一. 构造词向量特征1.1 原始数据编码转换1.2 生成对应的数据表1.3 分词与词性过滤二. 构造输入特征2.1 使用Gensim库建立word2vec词向量模型2.2 加载训练好的word2vec模型,求用户搜索结果的平均向量2.3 测试集三. 建立预测模型3.1 基础预测模型(逻辑回归)3.2 随机森林3.3 堆叠模型四. 模型测试一. 构造词向量特征1.1 原始数据编码转换import pandas as pdimport csv# 训练数据data_path = r'data\
2020-07-05 21:37:26
2269
1
原创 数据挖掘之房价预测任务
(一):分析数据指标不同指标对结果的影响连续值与离散值的情况(二):观察数据正太性是否满足正太分布数据变换操作(三):数据预处理缺失值填充标签转换(四):集成方法建模对比单模型回归效果平均与堆叠效果对比
2020-07-03 22:46:35
2517
3
原创 数据挖掘之京东购买意向预测
使用京东多个品类下商品的历史销售数据,构建算法模型,预测用户在未来5天内,对某个目标品类下商品的购买意向。一. 数据检查; 二. 构建特征表单; 三. 数据清洗; 四. 数据探索; 五. 特征工程; 六. 构造训练集/测试集; 七. Xgboost建模
2020-06-25 11:26:25
1929
2
原创 电费敏感数据挖掘三: 构建低敏用户模型
电费敏感数据挖掘一: 数据处理与特征工程电费敏感数据挖掘二: 文本特征构造目录:六. 构建XGBoost模型6.1 读取特征6.2 基于选择的词来创建tf-idf,构建模型输入数据6.3 XGBoost七. 保存最终预测六. 构建XGBoost模型6.1 读取特征import pandas as pdimport numpy as npimport picklefrom scipy...
2020-05-07 00:55:48
893
2
原创 电费敏感数据挖掘二: 文本特征构造
电费敏感数据挖掘一: 数据处理与特征工程目录:四. 处理文本特征4.1 结巴分词4.2 处理手机号,户号等后面连接的号码4.3 加入文本特征五. 文本特征筛选5.1 构建数据集5.2 稀疏矩阵5.3 构造tf-idf特征5.4 基于特征选择来降维保存文本特征四. 处理文本特征4.1 结巴分词import jiebaprint('开始处理表1中的文本特征...')mywords = [...
2020-05-07 00:40:24
712
原创 数据挖掘案例: 泰坦尼克号
特征理解分析: 单特征分析,逐个变量分析其对结果的影响; 多变量统计分析,综合考虑多种情况影响; 统计绘图得出结论数据清洗与预处理: 对缺失值进行填充; 特征标准化/归一化; 筛选有价值的特征; 分析特征之间的相关性建立模型:特征数据与标签准备; 数据集切分; 多种建模算法对比; 集成策略等方案改进
2020-05-03 00:51:08
4310
1
原创 matplotlib中的pie图
饼图设置颜色设置字体颜色设置说明文字%matplotlib inlineimport matplotlib.pyplot as pltm = 51212f = 40742m_perc = m/(m+f)f_perc = f/(m+f)colors = ['navy','lightcoral']labels = ["Male","Female"]plt.figure...
2020-04-04 12:16:45
433
原创 EDA探索性数据分析-- 共享单车数据
EDA探索性数据分析(共享单车数据): 特征组合; 变量的类型; 观察变量并剔除离群点; 变量间相关系数; 标签与特征变化可视化
2020-03-29 13:06:00
450
原创 matplotlib画子图: plt.subplot 与 plt.subplots
在一张画布上画多个子图, 尝试两种方式:plt.subplots(nrows, ncols) 子图需要一个一个的指定plt.subplot(nrows, ncols, i) 子图可以使用for循环一. plt.subplots()fig, axes = plt.subplots(nrows = 3, ncols = 2, figsize = (12, 12))sns.boxplot(...
2020-03-29 10:17:33
4700
原创 EDA探索性数据分析 -- 联合国粮农组织: 水资源
EDA探索性数据分析: 切片分析; 缺失值; 单特征; 数据对数变换; 数据分析维度; 变量关系可视化展示
2020-03-28 01:09:18
984
6
原创 EDA探索性数据分析 -- 足球赛事红牌数据分析
数据读取与预处理, 数据板块切分, 缺失值, 特征可视化展示, 多特征关系, 可视化报表, 特征组合与选择
2020-03-18 12:22:22
1458
3
原创 创建子表并快速测试唯一性的封装(自定义)函数
从一个大数据中创建子表并快速测试唯一性的辅助函数player_index = 'playerShort'player_cols = ['birthday', 'height', 'weight', 'position', 'photoID', 'rater1', 'rater2']def get_subgroup(dataframe, g_index, g_columns): g ...
2020-03-08 18:52:48
184
原创 机器学习项目实战-能源利用率3-分析
机器学习模型解释: 特征重要性; Locally Interpretable Model-agnostic Explainer (LIME); 树模型画图展示
2020-03-06 21:55:59
841
原创 特征工程--剔除共线特征
所谓共线性,指的是自变量之间存在较强甚至完全的线性相关关系。这会导致模型预测能力下降,增加对于模型结果的解释成本。如:plot_data = data[['A', 'B']].dropna()plt.plot(plot_data['A'], plot_data['B'], 'bo')plt.xlabel('Site EUI'); plt.ylabel('Weather Norm EUI'...
2020-03-06 10:39:24
1742
原创 机器学习项目实战-能源利用率1-数据预处理
机器学习基本套路: 1.数据清洗与格式转换; 2.探索性数据分析; 3.特征工程建立基础模型,尝试多种算法; 4.模型调参; 5.评估与测试; 6.解释我们的模型
2020-03-06 01:14:27
1501
2
原创 PairGrid两两关系图&皮尔逊相关系数
Pearson相关系数,帮助我们来筛选特征 ; 用PairGrid 可以按我们的需求去自定义下需要展示的部分
2020-02-29 11:05:41
1901
原创 剔除离群点
离群点的选择需要斟酌一下,这里选择的方法是extreme outlier。First Quartile − 3 ∗ Interquartile RangeFirst Quartile + 3 ∗ Interquartile Range另一种方法是3倍标准差(std)
2020-02-29 10:50:32
10014
原创 python查看数据缺失值比例模板
对于一个DataFrame数据, 如何查看其缺失值的情况%matplotlib inlineimport missingno as msnomsno.matrix(data, figsize = (16, 5))def missing_values_table(df): mis_val = df.isnull().sum() # 总缺失值 mis_val_percent...
2020-02-28 14:48:23
4944
原创 实战: 对GBDT(lightGBM)分类任务进行贝叶斯优化, 并与随机方法对比
目录:一. 数据预处理1.1 读取&清理&切割数据1.2 标签的分布二. 基础模型建立2.1 LightGBM建模2.2 默认参数的效果三. 设置参数空间3.* 参数空间采样四. 随机优化4.1 交叉验证LightGBM4.2 Objective Function4.3 执行随机调参4.4 Random Search 结果五. 贝叶斯优化5.1 Objective Function...
2020-02-28 00:35:56
6026
2
原创 Hyperopt工具包 贝叶斯优化
Hyperopt工具包一. Bayesian Optimization 贝叶斯优化四大步骤Objective 目标函数Domain space 指定参数空间Hyperparameter optimizationfunction 可选择的采样算法,随机或者贝叶斯优化Trials 记录结果的保存1. Objective 自定义目标, 这里得有一个最小值import pandas as...
2020-02-22 15:11:14
1869
原创 推荐系统实例之surprise库
surprise官方网址:http://surprise.readthedocs.io/en/stable/index.htmlfrom surprise import KNNBasicfrom surprise import Datasetfrom surprise.model_selection import cross_validatedata = Dataset.load_bui...
2020-02-18 21:05:07
1253
原创 协同过滤与隐语义模型推荐系统实例3: 基于矩阵分解(SVD)的推荐
[ 协同过滤与隐语义模型推荐系统实例1: 数据处理 ][ 协同过滤与隐语义模型推荐系统实例2: 基于相似度的推荐 ]隐语义模型推荐基于矩阵分解(SVD)的推荐# 先计算歌曲被当前用户播放量/用户播放总量 当做分值triplet_dataset_sub_song_merged_sum_df = triplet_dataset_sub_song_merged[['user', 'listen...
2020-02-16 00:55:54
778
原创 协同过滤与隐语义模型推荐系统实例2: 基于相似度的推荐
[ 协同过滤与隐语义模型推荐系统实例1: 数据处理 ]基于相似度的推荐系统一. 排行榜单推荐from sklearn.model_selection import train_test_splittriplet_dataset_sub_song_merged_set = triplet_dataset_sub_song_mergedtrain_data, test_data = tra...
2020-02-16 00:02:10
608
原创 协同过滤与隐语义模型推荐系统实例1: 数据处理
构建一个音乐推荐系统import pandas as pdimport numpy as npimport timeimport sqlite3data_home = 'F:/51学习/study/机器学习进阶/第14章Python从零开始构建音乐推荐系统/Python实现音乐推荐系统/'triplet_dataset = pd.read_csv(filepath_or_buffe...
2020-02-15 18:13:36
661
1
原创 python中符号" ~ "的意义和用法
~ 在python中为反转的意思, 目前我知道的有两种用法.一. 数值按位翻转~ x 就是 - ( x + 1)x = 2print(~x)-3二. 布尔值取反直接看案例import pandas as pddf = pd.DataFrame([[1,2,3,4,5,6,7,8,9,10],[1,2,3,4,5,6,7,8,9,10]], columns=['A','B','...
2020-02-05 12:08:53
17067
原创 ARIMA 时间序列5: 维基百科词条EDA
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport re%matplotlib inlinetrain = pd.read_csv('train_1.csv').fillna(0)print(train.shape)train.head()打印info信息看到数据大小 609.8...
2020-01-14 21:52:15
455
2
原创 ARIMA 时间序列4: 预测股票趋势
import pandas as pdimport numpy as npimport datetimeimport matplotlib.pyplot as pltimport seaborn as snsfrom statsmodels.tsa.arima_model import ARIMAfrom statsmodels.graphics.tsaplots import pl...
2020-01-12 21:36:45
1146
原创 ARIMA 时间序列3: 使用tsfresh库进行分类任务
文章目录1. 查看数据2. 时间序列特征提取3. 用决策树训练,预测和评估模型tsfresh是开源的提取时序数据特征的python包,能够提取出超过4000种特征 .1. 查看数据import matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlinefrom tsfresh.example.robot_executi...
2020-01-12 21:11:24
1765
原创 ARIMA 时间序列2: 评估和参数选择
ARIMA -> SARIMA -> SARIMAX:S是Seasonal,就是季节性、周期性的意思X是eXogenous,外部信息的意思季节性参数:P:季节性自回归阶数。D:季节性差分阶数。Q:季节性移动平均阶数。m:单个季节期间的时间步数。import numpy as npimport pandas as pdimport matplotlib.p...
2020-01-12 11:57:29
4083
原创 ARIMA 时间序列1: 差分, ACF, PACF
ARIMAARIMA(p,d,q)模型全称为差分自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA).自回归(AR),差分(I),移动平均(MA)趋势参数:p:趋势自回归阶数。d:趋势差分阶数。q:趋势移动平均阶数。ACF 与 PACF自相关函数 ACF (autocorrelation funct...
2020-01-11 21:11:13
10002
原创 时间处理date_range,truncate,Timestamp,Period,Timedelta,resample,rolling
文章目录1. date_range2. truncate 过滤3. Timestamp, Period, Timedelta3.1 Timestamp 时间戳3.2 Period 时间区间3.3 Timedelta 时间差3.4 时间转换4. period_range5. 时间索引6. 时间戳Timestamp 和时间周期period 转换7. 重采样 resample8. 插值方法 fill9....
2020-01-11 12:11:51
718
原创 HMM隐马尔科夫模型与实例3: 中文分词
import jsonimport loggingimport numpy as npimport pandas as pddata = [{'我要吃饭': 'SSBE'}, {'天气不错': 'BEBE'}, {'谢天谢地': 'BMME'}]{B(词开头),M(词中),E(词尾),S(独字词)} {0,1,2,3}O:观察对象的集合, 这里是字的集合,{我要吃饭天气不错谢天地...
2019-12-27 20:21:18
594
1
原创 HMM隐马尔科夫模型与实例2: 预测股票走势
from __future__ import print_function #python2.X,使用print就得像python3.X那样加括号使用import datetimeimport numpy as npimport pandas as pdfrom matplotlib import cm, pyplot as pltimport mpl_finance as mpffr...
2019-12-27 17:12:56
7165
3
原创 HMM隐马尔科夫模型与实例1
隐马尔可夫模型 Hidden Markov Model (HMM)以下三个问题,人们提出了相应的算法1 评估问题: 前向算法2 解码问题: Viterbi算法 (维特比算法)3 学习问题: Baum-Welch算法(向前向后算法)import numpy as npfrom hmmlearn import hmm# 隐藏状态:3个盒子states = ['box1', 'bo...
2019-12-26 23:06:48
685
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人