
机器学习
data_scientist
数据科学家
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DBSCAN 密度聚类算法原理及伪代码
DBSCAN 密度聚类算法原理及伪代码原创 2017-10-30 17:52:20 · 9516 阅读 · 0 评论 -
XGBoost-Python完全调参指南-参数解释篇
为了方便查看,转载了这篇XGBoost调参指南 原文链接:http://blog.youkuaiyun.com/wzmsltw/article/details/50994481 XGBoost参数XGBoost的参数可以分为三种类型:通用参数、booster参数以及学习目标参数General parameters:参数控制在提升(boosting)过程中使用哪种booster,常用的booster转载 2018-01-10 14:39:25 · 830 阅读 · 0 评论 -
RF、GBDT、XGBoost、lightGBM原理与区别
RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。 根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表就是Boosting,后者的代表是Ba转载 2018-01-10 11:46:43 · 19133 阅读 · 1 评论 -
机器学习中不平衡学习方法总结二(实践)
# -*- coding:utf-8 -*-"""#-------------------------------------@author:wangdong@mail:aufe_wangdong@sina.cn@version:v1.0@date:2018/1/8-------------------------------------# @Brief:"""from原创 2018-01-08 15:57:34 · 8363 阅读 · 5 评论 -
Word2Vec原理、训练算法介绍
mark一下出处,方便以后查看参考文献 1、http://www.cnblogs.com/pinard/p/7160330.html 2、http://blog.youkuaiyun.com/dn_mug/article/details/69852740 3、https://www.leiphone.com/news/201706/PamWKpfRFEI42McI.html转载 2018-01-16 11:01:19 · 1164 阅读 · 0 评论 -
文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)
1、LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果价格会不会降?”转载 2018-01-15 15:47:13 · 11281 阅读 · 0 评论 -
文本主题模型之潜在语义分析(LSA)
转载地址:www.cnblogs.com/pinard/p/6805861.html在文本挖掘中,主题模型是比较特殊的一块,它的思想不同于我们常用的机器学习算法,因此这里我们需要专门来总结文本主题模型的算法。本文关注于潜在语义索引算法(LSI)的原理。1. 文本主题模型的问题特点 在数据分析中,我们经常会进行非监督学习的聚类算法,它可以对我们的特征数据进行非监督的聚类。而主题模型转载 2018-01-15 12:37:08 · 10136 阅读 · 0 评论 -
LSTM之时间序列预测
#-*- coding: utf-8 -*-import osimport sysimport timeimport numpy as npfrom keras.models import Sequentialfrom keras.models import load_modelfrom numpy import newaxisimport matplotlib.pyplot a原创 2018-01-12 17:18:22 · 2738 阅读 · 2 评论 -
LSTM之文本分类实例
待分类数据为已经分词的文本文档,其中每一行代表一篇文章,分词较为粗糙,未进行停用词过滤,使用停用词过滤后效果应该会有明显提升。 1、加载数据# -*- coding: utf-8 -*-import sysreload(sys)sys.setdefaultencoding('utf-8')def loadData(fileName):#读取分词数据,存储在list列表里,每个原创 2018-01-12 16:13:53 · 9907 阅读 · 3 评论 -
keras例子之迁移学习
1、抽取中间层特征from keras.applications.vgg19 import VGG19from keras.preprocessing import imagefrom keras.applications.vgg19 import preprocess_inputfrom keras.models import Modelimport numpy as npbas原创 2018-01-12 10:29:40 · 7707 阅读 · 0 评论 -
keras例子之Mnist案例
#-*- coding: utf-8 -*-"""mnist识别例子,使用卷积神经网络"""import osimport sysimport timeimport numpy as npfrom keras.datasets import mnistfrom keras.optimizers import SGD,RMSpropfrom keras.utils impor原创 2018-01-12 09:37:54 · 1188 阅读 · 0 评论 -
hyperopt调参实例——XGBoost
def xgb_train(dtrain, dtest, param, offline=True, verbose=True, num_boost_round=1000): if verbose: if offline: watchlist = [(dtrain, 'train'), (dtest, 'test')] else:原创 2018-01-11 14:08:09 · 4132 阅读 · 0 评论 -
heamy之stacking和blending实例
1、stacking实例from heamy.dataset import Datasetfrom heamy.estimator import Regressor, Classifierfrom heamy.pipeline import ModelsPipelinefrom sklearn import cross_validationfrom sklearn.ensemble i原创 2018-01-11 17:12:21 · 4374 阅读 · 4 评论 -
hpsklearn调参实例
from __future__ import print_function# import numpy as npfrom sklearn import datasetsfrom sklearn.cross_validation import train_test_splitfrom hyperopt import tpeimport hpsklearnimport sysdef原创 2018-01-11 15:18:23 · 1360 阅读 · 0 评论 -
XGBoost案例代码(一)——sklearn之交叉验证
#!/usr/bin/python'''Created on 1 Apr 2015@author: Jamie Hall'''import pickleimport xgboost as xgbimport numpy as npfrom sklearn.model_selection import KFold, train_test_split, GridSearchCVf原创 2018-01-11 11:07:44 · 7599 阅读 · 1 评论 -
常用机器学习算法优缺点
一、逻辑回归 1、优点 (1)简单、训练速度快 (2)容易理解 (3)可以用来进行特征的选择 2、缺点 (1)一般只能处理线性可分的二分类问题 (2)特征空间很大时,性能不是很好 (3)欠拟合 (4)两边的概率变化太小,没有区分度 (5)不能很好的处理大量多类特征 (6)多重共线性,但可以用L2正则化解决二、KNN算法 1、优点 (1)容易理解和可视化 (2)训练时...原创 2018-03-05 08:44:00 · 1405 阅读 · 0 评论