
数据挖掘
data_scientist
数据科学家
展开
-
Pandas使用技巧
pandas数据处理原创 2016-11-02 18:02:06 · 426 阅读 · 0 评论 -
文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)
1、LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果价格会不会降?”转载 2018-01-15 15:47:13 · 11248 阅读 · 0 评论 -
Word2Vec原理、训练算法介绍
mark一下出处,方便以后查看参考文献 1、http://www.cnblogs.com/pinard/p/7160330.html 2、http://blog.youkuaiyun.com/dn_mug/article/details/69852740 3、https://www.leiphone.com/news/201706/PamWKpfRFEI42McI.html转载 2018-01-16 11:01:19 · 1157 阅读 · 0 评论 -
机器学习中不平衡学习方法总结一(理论)
针对不平衡学习问题,主要有以下三种常见方式处理,总结如下,其中多数类样本统一用Smax表示,少数类样本统一用Smin表示: 1、欠抽样 1.1 随机欠抽样 随机欠采样顾名思义即从多数类Smax中随机选择少量样本E再合 并原有少数类样本作为新的训练数据集,新数据集为Smin+E,随机欠采样有两种类型分别为有放回和无放回两种,无放回欠采样在对多数类某样本被采 样后不会再被重复采样,有放回采样则有原创 2018-01-08 11:20:51 · 2748 阅读 · 0 评论 -
机器学习中不平衡学习方法总结二(实践)
# -*- coding:utf-8 -*-"""#-------------------------------------@author:wangdong@mail:aufe_wangdong@sina.cn@version:v1.0@date:2018/1/8-------------------------------------# @Brief:"""from原创 2018-01-08 15:57:34 · 8354 阅读 · 5 评论 -
搜狗用户画像-经验分享之stacking与blending(转)
具体地址如下: http://prozhuchen.com/2016/12/28/CCF%E5%A4%A7%E8%B5%9B%E6%90%9C%E7%8B%97%E7%94%A8%E6%88%B7%E7%94%BB%E5%83%8F%E6%80%BB%E7%BB%93/主要借鉴一下stacking的理解思路,网上很多解释把stacking和blending搞混淆了。stacking转载 2017-12-26 11:17:41 · 5808 阅读 · 1 评论 -
RF、GBDT、XGBoost、lightGBM原理与区别
RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。 根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表就是Boosting,后者的代表是Ba转载 2018-01-10 11:46:43 · 19048 阅读 · 1 评论 -
XGBoost-Python完全调参指南-参数解释篇
为了方便查看,转载了这篇XGBoost调参指南 原文链接:http://blog.youkuaiyun.com/wzmsltw/article/details/50994481 XGBoost参数XGBoost的参数可以分为三种类型:通用参数、booster参数以及学习目标参数General parameters:参数控制在提升(boosting)过程中使用哪种booster,常用的booster转载 2018-01-10 14:39:25 · 818 阅读 · 0 评论 -
文本主题模型之潜在语义分析(LSA)
转载地址:www.cnblogs.com/pinard/p/6805861.html在文本挖掘中,主题模型是比较特殊的一块,它的思想不同于我们常用的机器学习算法,因此这里我们需要专门来总结文本主题模型的算法。本文关注于潜在语义索引算法(LSI)的原理。1. 文本主题模型的问题特点 在数据分析中,我们经常会进行非监督学习的聚类算法,它可以对我们的特征数据进行非监督的聚类。而主题模型转载 2018-01-15 12:37:08 · 10121 阅读 · 0 评论 -
LSTM之时间序列预测
#-*- coding: utf-8 -*-import osimport sysimport timeimport numpy as npfrom keras.models import Sequentialfrom keras.models import load_modelfrom numpy import newaxisimport matplotlib.pyplot a原创 2018-01-12 17:18:22 · 2720 阅读 · 2 评论 -
LSTM之文本分类实例
待分类数据为已经分词的文本文档,其中每一行代表一篇文章,分词较为粗糙,未进行停用词过滤,使用停用词过滤后效果应该会有明显提升。 1、加载数据# -*- coding: utf-8 -*-import sysreload(sys)sys.setdefaultencoding('utf-8')def loadData(fileName):#读取分词数据,存储在list列表里,每个原创 2018-01-12 16:13:53 · 9878 阅读 · 3 评论 -
机器学习多分类和多标签处理方法
#coding=utf-8from sklearn import metricsfrom sklearn import cross_validationfrom sklearn.svm import SVCfrom sklearn.multiclass import OneVsRestClassifierfrom sklearn.preprocessing import MultiLabe转载 2017-08-15 17:47:19 · 6521 阅读 · 1 评论 -
XGBoost案例代码(一)——sklearn之交叉验证
#!/usr/bin/python'''Created on 1 Apr 2015@author: Jamie Hall'''import pickleimport xgboost as xgbimport numpy as npfrom sklearn.model_selection import KFold, train_test_split, GridSearchCVf原创 2018-01-11 11:07:44 · 7572 阅读 · 1 评论 -
hpsklearn调参实例
from __future__ import print_function# import numpy as npfrom sklearn import datasetsfrom sklearn.cross_validation import train_test_splitfrom hyperopt import tpeimport hpsklearnimport sysdef原创 2018-01-11 15:18:23 · 1355 阅读 · 0 评论 -
heamy之stacking和blending实例
1、stacking实例from heamy.dataset import Datasetfrom heamy.estimator import Regressor, Classifierfrom heamy.pipeline import ModelsPipelinefrom sklearn import cross_validationfrom sklearn.ensemble i原创 2018-01-11 17:12:21 · 4361 阅读 · 4 评论 -
hyperopt调参实例——XGBoost
def xgb_train(dtrain, dtest, param, offline=True, verbose=True, num_boost_round=1000): if verbose: if offline: watchlist = [(dtrain, 'train'), (dtest, 'test')] else:原创 2018-01-11 14:08:09 · 4122 阅读 · 0 评论 -
keras例子之Mnist案例
#-*- coding: utf-8 -*-"""mnist识别例子,使用卷积神经网络"""import osimport sysimport timeimport numpy as npfrom keras.datasets import mnistfrom keras.optimizers import SGD,RMSpropfrom keras.utils impor原创 2018-01-12 09:37:54 · 1181 阅读 · 0 评论 -
keras例子之迁移学习
1、抽取中间层特征from keras.applications.vgg19 import VGG19from keras.preprocessing import imagefrom keras.applications.vgg19 import preprocess_inputfrom keras.models import Modelimport numpy as npbas原创 2018-01-12 10:29:40 · 7700 阅读 · 0 评论 -
常用机器学习算法优缺点
一、逻辑回归 1、优点 (1)简单、训练速度快 (2)容易理解 (3)可以用来进行特征的选择 2、缺点 (1)一般只能处理线性可分的二分类问题 (2)特征空间很大时,性能不是很好 (3)欠拟合 (4)两边的概率变化太小,没有区分度 (5)不能很好的处理大量多类特征 (6)多重共线性,但可以用L2正则化解决二、KNN算法 1、优点 (1)容易理解和可视化 (2)训练时...原创 2018-03-05 08:44:00 · 1373 阅读 · 0 评论