- 博客(64)
- 资源 (78)
- 收藏
- 关注
转载 转:阿里曾鸣:下一个风口是产业互联网
“未来三年,产业互联网的突破将是可见的方向。目前为止,产业互联网的连接尚处于浅连接阶段,企业对互联网思维的应用也停留在“互联网+”上,事实上,运用互联网技术工具进行的再构和创新,可能是乘数效应。他判断,未来有两条路径,一是传统产业向智能商业的升级,在教育、健康、交通等领域,这些产业在转型过程中,将涌现出平台级、生态级的领先企业;二则是颠覆式的技术,区块链技术、AI、AR等技术等进步和发展,都将
2017-12-25 13:22:08
2101
转载 转:基于 Python 和 Scikit-Learn 的机器学习介绍
我叫Alex,我在机器学习和网络图分析(主要是理论)有所涉猎。我同时在为一家俄罗斯移动运营商开发大数据产品。这是我第一次在网上写文章,不喜勿喷。现在,很多人想开发高效的算法以及参加机器学习的竞赛。所以他们过来问我:”该如何开始?”。一段时间以前,我在一个俄罗斯联邦政府的下属机构中领导了媒体和社交网络大数据分析工具的开发。我仍然有一些我团队使用过的文档,我乐意与你们分享。前提是读者已经有很好
2017-12-23 17:55:00
505
转载 转:Confusion Matrix(混淆矩阵) 解释最全的一个
Confusion Matrix, 混淆矩阵 一个完美的分类模型就是,如果一个客户实际上(Actual)属于类别good,也预测成(Predicted)good,处于类别bad,也就预测成bad。但从上面我们看到,一些实际上是good的客户,根据我们的模型,却预测他为bad,对一些原本是bad的客户,却预测他为good。我们需要知道,这个模型到底预测对了多少,预测错了多少
2017-12-23 17:52:23
7806
转载 转:sklearn包——混淆矩阵、分类报告等自动生成
preface:做着最近的任务,对数据处理,做些简单的提特征,用机器学习算法跑下程序得出结果,看看哪些特征的组合较好,这一系列流程必然要用到很多函数,故将自己常用函数记录上。应该说这些函数基本上都会用到,像是数据预处理,处理完了后特征提取、降维、训练预测、通过混淆矩阵看分类效果,得出报告。1.输入从数据集开始,提取特征转化为有标签的数据集,转为向量。拆分成训练集和测试集,这里不
2017-12-23 17:50:59
1857
转载 转:SKLearn中预测准确率函数介绍
SKLearn中预测准确率函数介绍1、在使用Sklearn进行机器学习算法预测测试数据时,常用到classification_report函数来进行测试的准确率的计算输#开始预测y_pred = clf.predict(X_test)print("done in %0.3fs" % (time() - t0))#通过该函数,比较预测出的标签和真实标签,并输出准确率p
2017-12-23 17:07:31
8840
转载 转:模型评估:评价指标-附sklearn API
模型评估评价指标Evaluation metrics分类评价指标1 准确率2 平均准确率3 对数损失Log-loss4 基于混淆矩阵的评估度量41 混淆矩阵42 精确率Precision43 召回率Recall44 F1-score5 AUCArea under the CurveReceiver Operating Characteri
2017-12-23 16:45:25
2220
转载 转:sklearn中的模型评估
1.介绍有三种不同的方法来评估一个模型的预测质量:estimator的score方法:sklearn中的estimator都具有一个score方法,它提供了一个缺省的评估法则来解决问题。Scoring参数:使用cross-validation的模型评估工具,依赖于内部的scoring策略。见下。Metric函数:metrics模块实现了一些函数,用来评估预测误差。见下。2.
2017-12-23 16:35:42
652
转载 转:Scikit-learn:模型评估Model evaluation
http://blog.youkuaiyun.com/pipisorry/article/details/52250760模型评估Model evaluation: quantifying the quality of predictions3 different approaches to evaluate the quality of predictions of a model:
2017-12-23 16:33:38
869
转载 转: Kaggle入门模板:以手写识别Digit Recognizer为例
首先本文参考了点击打开链接 这篇博客,然后可能时间有点久远,Kaggle的这道题给的数据文档和之前的不一样了,以及还有一些注意点这篇文章里没有突出。因此这里重新做个总结,希望大家能早点入个门。这里我使用的sklearn中的支持向量机来解决手写识别问题。这里的svm是可以解决多分类问题的。核函数使用的是高斯核(rbf),松弛变量c选择的是5.kaggle这道题一共提供了3个文件:tr
2017-12-23 16:31:42
317
转载 转:十步制胜 Kaggle 数据科学竞赛
Kaggle 是一个领先的数据科学比赛平台,由最初的 KDD 和 Netflix 以及其他比赛发展而来。如果你是(或想要成为)数据科学家,参加 Kaggle 比赛是一个提升技能和名声,同时还可能赢得一些奖金的有效方法。这篇文章总结了我和其他参赛者的经验,提出了顺利完成一个 Kaggle 比赛的 10 个步骤。由于这篇文章是为 Kaggle 比赛而提出的,所以对于一个有明确分析数据和预测建模
2017-12-23 16:08:25
549
转载 转:kaggle案例:员工离职预测 (附视频)
引言附视频链接: 天善智能Kaggle十大案例精讲(连载中) 有代码有课件,可以实操。欢迎学习!!案例背景介绍:Our example concerns a big company that wants to understand why some of their best and most experienced employees are leaving prema
2017-12-23 15:44:07
5009
2
转载 转:类效果评估——acc、recall、F1、ROC、回归、距离
一、acc、recall、F1、混淆矩阵、分类综合报告1、准确率第一种方式:accuracy_score# 准确率import numpy as npfrom sklearn.metrics import accuracy_scorey_pred = [0, 2, 1, 3,9,9,8,5,8]y_true = [0, 1, 2, 3,2,6,3,5,9]accur
2017-12-22 17:01:38
6871
转载 转:sklearn中的模型评估
1.介绍有三种不同的方法来评估一个模型的预测质量:estimator的score方法:sklearn中的estimator都具有一个score方法,它提供了一个缺省的评估法则来解决问题。Scoring参数:使用cross-validation的模型评估工具,依赖于内部的scoring策略。见下。Metric函数:metrics模块实现了一些函数,用来评估预测误差。见下。2.
2017-12-22 16:08:19
389
转载 转:『Sklearn』数据划分方法及python代码
原理介绍K折交叉验证:KFold,GroupKFold,StratifiedKFold,留一法:LeaveOneGroupOut,LeavePGroupsOut,LeaveOneOut,LeavePOut,随机划分法:ShuffleSplit,GroupShuffleSplit,StratifiedShuffleSplit,
2017-12-22 14:10:43
1270
转载 转:sklearn中k折交叉验证函数使用
参考转自该链接:http://blog.youkuaiyun.com/ztchun/article/details/71169530机器学习中的k折交叉验证:1. fromsklearn.model_selection importKFold方法该方法选择的时候,选择k个样本做测试,其余做训练代码示例:fromsklearn.model
2017-12-22 10:41:28
2265
转载 转:Thrift学习总结
Thrift学习总结目录前言 1准备工作 1一个简单的小程序 31、准备工作 32小试牛刀 5深入挖掘 121. 架构图 122数据类型 153协议 164传输层 165服务端类型 16本文主要参考引用的资料 22 Thrift学习总结
2017-12-22 10:19:28
235
转载 转:Sklearn-CrossValidation交叉验证
交叉验证概述进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。最先我们用训练准确度(用全部数据进行训练和测试)来衡量模型的表现,这种方法会导致模型过拟合;为了解决这一问题,我们将所有数据分成训练集和测试集两部分,我们用训练集进行模型训练,得到的模型再用测试集来
2017-12-22 10:03:17
402
转载 转:使用sklearn做单机特征工程
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法
2017-12-21 17:57:53
278
转载 转:交叉验证和bias-tradeoff的权衡
机器学习问题中总是讲到训练数据集和测试数据集,但在实际情况中,很多时候直到项目部署以后,才会得到真正的测试集。所以本质上讲,模型的学习使用的都是训练数据,所以模型对于未知数据的效果到底如何,并没有方法得到一个准确的指示。解决这个问题的一个较为简单的方法是hold-out方法。大致过程如下:1)将可用数据集的一部分拿出来,这部分数据不参与模型的学习与训练过程2)用剩余的数据集训练模型
2017-12-21 17:38:23
344
转载 转:交叉验证在sklearn中的实现
前面已经简单介绍了交叉验证,这次主要说明sklearn中关于CV的相关实现。先说一个sklearn中的很好用的功能:对一个数据集进行随机划分,分别作为训练集和测试集。使用的是cross_validation.train_test_split函数,使用示例如下:1 实现CV最简单的方法是cross_validation.cross_val_scor
2017-12-21 17:37:05
268
转载 转:Sklearn-train_test_split随机划分训练集和测试集
sklearn.model_selection.train_test_split随机划分训练集和测试集官网文档:http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split
2017-12-21 17:24:57
531
转载 转:iris数据集及简介
一.iris数据集简介iris数据集的中文名是安德森鸢尾花卉数据集,英文全称是Anderson’s Iris data set。iris包含150个样本,对应数据集的每行数据。每行数据包含每个样本的四个特征和样本的类别信息,所以iris数据集是一个150行5列的二维表。通俗地说,iris数据集是用来给花做分类的数据集,每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征(前
2017-12-21 17:04:42
65307
2
转载 转:30分钟学会用scikit-learn的基本分类方法(决策树、SVM、KNN)和集成方法(随机森林,Adaboost和GBRT)
关于回归方法,请参考我的另一篇博客30分钟学会用scikit-learn的基本回归方法(线性、决策树、SVM、KNN)和集成方法(随机森林,Adaboost和GBRT) 本文主要参考了scikit-learn的官方网站1. 数据准备关于分类,我们使用了Iris数据集,这个scikit-learn自带了. Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整
2017-12-21 16:19:04
551
转载 转:Scikit-Learn 随机森林分类器的使用
1. 原理随机森林(RandomForest), 指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。简单来说,随机森林就是由多棵CART(Classification And Regression Tree)构成的。对于每棵树,它们使用的训练集是从总的训练集中有放回采样出来的,这意味着,总的训练集中的有些
2017-12-21 16:14:54
2060
转载 转:以logistic Regression为例实现多类别分类及Python实现
1.第一种简单的方法是一对所有(one-Versus-All,OVA),给定m个类,训练m个二元分类器(将选取任意一类,再将其它所有类看成是一类,构建一个两类分类器)。分类器j使类j的元组为正类,其余为负类,进行训练。为了对未知元组X进行分类,分类器作为一个组合分类器投票。例如,如果分类器j预测X为正类,则类j得到一票。如果他测得X为正类,则类j得到一票。如果测X为负类,则除j以外的每一个类都得到
2017-12-21 16:11:40
6116
转载 转:Sklearn-RandomForest随机森林【精】
在scikit-learn中,RandomForest的分类类是RandomForestClassifier,回归类是RandomForestRegressor,需要调参的参数包括两部分,第一部分是Bagging框架的参数,第二部分是CART决策树的参数。sklearn官网地址(RandomForestClassifier):http://scikit-learn.org/stable/m
2017-12-21 15:45:09
800
转载 谁动了我的特征?——sklearn特征转换行为全记录
目录1 为什么要记录特征转换行为?2 有哪些特征转换的方式?3 特征转换的组合4 sklearn源码分析 4.1 一对一映射 4.2 一对多映射 4.3 多对多映射5 实践6 总结7 参考资料1 为什么要记录特征转换行为? 使用机器学习算法和模型进行数据挖掘,有时难免事与愿违:我们依仗对业务的理解,对数据的分析,以及工作经验提
2017-12-20 15:00:47
298
转载 随机森森示例1:iris
from sklearn.datasets import load_irisfrom sklearn.ensemble import RandomForestClassifierimport pandas as pdimport numpy as npiris = load_iris()df = pd.DataFrame(iris.data, columns=iris.feature_nam
2017-12-20 14:21:59
259
转载 通过 GitBook 开源框架和 GitHub 私有化部署 Wiki 文档
项目介绍思路:通过将 Wiki 文档内容的仓库托管在 GitHub 之上,并且将 GitBook 框架的代码放在仓库中 ,然后找一台有 Node.js 环境的服务器,通过简单的几行命令就能部署成功,十分钟内能搞定。从而具备多人协作、版本控制、Markdown 写作、代码高亮、实时更新的特性。一、效果展示1、Material Design 中文版(有侧边栏菜单)页面效
2017-12-20 11:28:28
7693
转载 使用scikit-learn的随机森林对西瓜进行分类
1、数据源: http://blog.youkuaiyun.com/wiking__acm/article/details/509714612、参考:https://www.kaggle.com/jeffd23/titanic/scikit-learn-ml-from-start-to-finish/notebook中随机森林的使用3、代码:import pandas as pdf
2017-12-20 10:21:32
1872
转载 随机森林算法入门(python)
目录1 什么是随机森林1.1 集成学习1.2 随机决策树1.3 随机森林1.4 投票2 为什么要用它3 使用方法3.1 变量选择3.2 分类3.3 回归4 一个简单的Python示例结语前言: 随机森林是一个非常灵活的机器学习方法,从市场营销到医疗保险有着众多的应用。它可以用于市场营销对客户获取和存留建模或预测病人的疾病风险和易感性。随机森林能够用于分
2017-12-20 10:08:51
251
转载 使用scikit-learn解释随机森林算法
机器学习随机森林算法scikit-learntreeinterpreter摘要:机器学习中的随机森林不可被人们忽视,如何将随机森林算法转换为一个“白盒”,就由这篇文章带来深度的讨论。在以前的一篇博文里,我讨论过如何将随机森林算法转化为一个“白盒”,这样每次预测就能被分解为各项特征的贡献和,即我多次想找相关的代码。然而,绝大多数的随机森林算法库(包括scikit-learn)不暴
2017-12-20 10:07:00
940
转载 python实现机器学习之随机森林
这几天一直在看随机森林。可以说遇到任何一个有关预测的问题。都可以首先随机森林来进行预测,同时得到的结果也不会太差。在这篇文章里我首先会向大家推荐几篇写的比较好的博客。接着会将我觉得比较好的例子使用python+scikit-learn包来实现出来。首先推荐的就是:随机森林入门—简化版http://www.analyticsvidhya.com/blog/2014/06/introduc
2017-12-20 10:03:06
582
转载 《机器学习实战》——Logistic回归
这是《机器学习实战》中的第五章Logistic回归知识的整理以及自己的一些私人理解,之后运用原理对周志华的《机器学习》中的西瓜数据进行分类。(PS:因为上述两本书以及网易公开课上的斯坦福的机器学习视频都在同时看,所以博客可能有点杂。)最后希望给一起学习机器学习的同学一些帮助。资源也已经上传了,名称叫做Logistic回归笔记及代码。链接为:http://download.youkuaiyun.com/deta
2017-12-20 09:59:15
272
转载 工业界怎样评估一个问题是否适合用NLP解决
整理于论文 On the Challenges of Translating NLP Research into Commercial Products1 首先确定商业问题是什么:潜在用户是谁,要解决什么问题,定义问题的输入与输出。2 确定这个问题是否需要用统计方法的NLP:数据量很大,需要自动化,且需要用复杂的规则,更适合机器学习。3
2017-12-20 09:39:48
243
转载 《机器学习(周志华)》 西瓜数据集3.0(含规范化以后数据)
书上的一个常用数据集[plain] view plain copy编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜 1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是 2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是 3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,
2017-12-20 09:38:21
11603
5
转载 孰优孰劣?Dubbo VS Spring Cloud性能测试大对决!
孰优孰劣?Dubbo VS Spring Cloud性能测试大对决!原创 2017-01-24 From ImportSource ImportSourceImportSource微信号 importsource功能介绍 专注纯英文Java、Hadoop、Spark、NoSQL等大数据原著翻译并分享。ImportSource是由java关键字import和sourc
2017-12-19 18:02:12
1229
转载 Dubbo:来自于阿里巴巴的分布式服务框架
Dubbo是阿里巴巴SOA服务化治理方案的核心框架,每天为2,000+个服务提供3,000,000,000+次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点Dubbo是一个阿里巴巴开源出来的一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方案。其核心部分包含:远程通讯: 提供对多种基于长连接的NIO框架抽象封装,包括多种线程模型,序列化,
2017-12-19 16:46:29
304
转载 如果新能源汽车占领市场,加油站还有未来吗?
随着市场的快速发展,新能源汽车现在已经在很多城市出现了,甚至有不少城市在销售上面有着很多的补贴,这种补贴方式让新能源汽车有了很快的发展趋势,甚至有人认为新能源汽车的出现将会让整个加油站产业出现根本性的变革,甚至会颠覆整个加油站行业。但是,实际情况可能并不会如此,如今的新能源汽车普遍采用的混合动力或者纯电动汽车,但是这个只是一个发展方向,欧美各国主要采用的是燃料电池、氢电池汽车。无论哪一
2017-12-19 09:16:45
2981
转载 加油站以后还能叫加油站吗?
本期栏目奉上几个与纯电动汽车充电有关的词汇:Charge,充电;charging station,充电站;charging points,充电站点;charger,充电桩。发展纯电动汽车已成为全球共识,多个国家宣布未来禁止销售燃油车,多个车企也正在布局纯电动汽车。作为和汽车产业紧密相连的石油公司,也正在被卷入这场电气化的改革大浪潮中。近日,英国《每日邮报》网站报道称,荷兰石油公司壳牌在
2017-12-19 09:12:42
536
ubuntu-20.04.5-desktop-amd64.iso
2022-11-09
一个很好用的电子教鞭软件
2022-11-07
一个简单方便的httpServer,支持get和post。
2022-09-25
studio 3T注册时间更改器
2020-10-22
WeifenLuo.WinFormsUI.Docking_完整DEMO_VS2013版.rar
2020-05-28
2020年 RazorEngine 3.7 最新版本
2020-05-20
pythonlibs网站的网页
2018-08-06
scrapy相关whl及说明,python版本3.5.4
2018-08-06
sklearn机器学习iris数据集(含说明)
2017-12-22
Npgsql3.1.9.dll
2017-01-18
连锁店运营分析报告
2016-07-21
京东客户评价情感分析(带流程)
2016-07-21
数据分析之电商客户评价数据分析
2016-07-21
禅道开源版使用帮助2013最新版(mht)
2013-08-11
使用Subversion进行版本控制(中文版)
2012-09-25
CCLOW表结构及表与其各字段属性说明(全).mht
2012-09-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人