
机器学习算法理论与实战
文章平均质量分 81
机器学习算法:线性回归、逻辑回归、K-最近邻、SVM、感知机、决策树、随机森林、集成学习、
机器学习工具库:Scikit-learn机器学习库、NumPy科学计算库、Matplotlib绘图库、pandas数据分析库、SciPy库、ipython NoteBook工具、
ChenVast
有梦想,敢拼博,执着的走属于自己的路。无惧一切,勇往直前,做自己。成为一个伟大的人,改变世界。
Python软件基金会(PSF)成员,
国际数据管理协会(DAMA)会员
展开
-
【数据科学】如何试图说服数据?
您的观众可以成为您的朋友或敌人当您正在进行数据分析并试图找出故事情节的情节时?在您说服观众了解您惊人的发现时,请记住以下三个提示。 提示1:考虑您的受众关心的内容琪琪玩邪恶的Mousy-Mouse玩具在我告诉你这个故事的其余部分之前,我想提一下我多么崇拜我的猫Kiki。在阅读一篇文章的同时考虑我的反应,该文章引用了一些关于每年有多少鸣禽,啮齿动物等被杀死的统计数据......你...翻译 2018-08-30 10:07:26 · 936 阅读 · 0 评论 -
【数据科学】5个数据讲故事技巧,用于创建更有说服力的图和表
使用数字通常不被认为是性感的工作。毕竟,会计和数据录入等职业并不是这个数字时代最激动人心的职业。但就像现在统治世界的曾经无耻的计算机爱好者一样,数据分析师目前被视为“就业市场的独角兽”。据LinkedIn称,能够理解大量混乱数据并在其中找到独特见解的能力是就业市场中最热门的技能之一。并且很容易理解为什么:自2013年以来创建的数据比在该日期之前的所有人类历史中创建的数据更多。因此,...翻译 2018-08-30 18:08:15 · 1625 阅读 · 0 评论 -
【可视化】Matplotlib V3.0版本上线了,新功能介绍
改进了默认的后端选择默认后端不再必须设置为构建过程的一部分。相反,在运行时,内置后端按顺序尝试,直到其中一个导入。无头linux服务器(由未定义的DISPLAY env标识)不会选择GUI后端。 循环色图添加了两个名为“twilight”和“twilight_shifted”的新色图。这些色彩图以相同的颜色开始和结束,并且具有两个对称的半部,具有相同的亮度,但是颜色发散。...翻译 2018-09-25 10:07:19 · 1164 阅读 · 0 评论 -
【数据分析】最常用的数据分析方法(干货)
目录方法论和方法有什么区别?数据分析方法论1、PEST分析法2、SWOT分析法3、5W2H分析法4、4P理论5、AARRR数据分析的七个方法1、趋势分析2、多维分解3、用户分群4、用户细查5、漏斗分析6、留存分析7、A/B测试与A/A测试很多做数据分析或者刚接触数据分析的小伙伴,不知道怎么做数据分析。一点思路都没有,今天就给大家盘点数...转载 2018-09-25 11:51:54 · 17682 阅读 · 5 评论 -
【可视化】Matplotlib类型图像的可选颜色
原创 2018-09-29 15:38:05 · 959 阅读 · 0 评论 -
【数据可视化】Python中使用Bokeh进行数据可视化,第一部分:入门
提升您的可视化游戏如果没有有效的方法来传达结果,最复杂的统计分析可能毫无意义。最近我在研究项目中的经验使我们利用数据科学来提高建筑能效,从而推动了这一点。在过去的几个月里,我的一个团队成员一直致力于一种称为小波变换的技术,该技术用于分析时间序列的频率成分。该方法取得了积极的成果,但她在解释它时遇到了麻烦而没有迷失在技术细节中。被激怒了,她问我是否可以通过视觉展示转变。在几分钟内使用一个名为...翻译 2018-10-30 09:33:59 · 3182 阅读 · 1 评论 -
【数据科学】使用Python建立你的数据处理肌肉记忆
数据预处理流程 在搜索语法时,您是否因为破坏数据分析流而感到沮丧?为什么你在第三次查找之后仍然不记得它?这是因为你还没有足够的练习来为它建立肌肉记忆。现在,想象一下,当您编写代码时,Python语法和函数会根据您的分析思路从指尖飞出。那太棒了!本教程旨在帮助您实现目标。我建议每天早上练习这个剧本10分钟,并重复一个星期。这就像每天做一些小小的仰卧起坐 - 不是为了你的腹肌,而是...翻译 2018-10-24 10:48:08 · 788 阅读 · 0 评论 -
【机器学习】Python中随机森林的实现与解释
通过从单个决策树构建来使用和理解随机森林的指南。翻译 2018-10-24 15:05:26 · 2926 阅读 · 3 评论 -
【数据科学】数据科学家必需熟知的5个基本统计概念
目录统计特征概率分布维度降低过采样和欠采样贝叶斯统计 在执行数据科学(DS)艺术时,统计数据可以成为一种强大的工具。从高层次来看,统计学是利用数学来进行数据的技术分析。诸如条形图之类的基本可视化可能会为您提供一些高级信息,但通过统计,我们可以以更加信息驱动和有针对性的方式对数据进行操作。所涉及的数学帮助我们形成关于我们数据的具体结论,而不仅仅是猜测。使用统计数据...翻译 2018-10-29 14:21:48 · 1041 阅读 · 0 评论 -
【机器学习】使用Python中的局部敏感哈希(LSH)构建推荐引擎
学习如何使用LSH在Python中构建推荐引擎; 一种可以处理数十亿行的算法你会学到:在本教程结束时,读者可以学习如何:通过创建带状疱疹来检查和准备LSH的数据 选择LSH的参数 为LSH创建Minhash 使用LSH Query推荐会议论文 使用LSH构建各种类型的推荐引擎目录你会学到:局部敏感哈希(LSH)建议简介带状疱疹为何选择LSH?商业用途L...翻译 2018-10-10 10:00:03 · 5045 阅读 · 6 评论 -
【机器学习】使用朴素贝叶斯和其他文本分类器预测Reddit新闻情绪
了解如何预测Reddit开采的新闻标题的情绪在我们之前的文章中,我们介绍了一些情绪分析的基础知识,我们收集并分类政治头条。现在,我们可以使用该数据来训练二元分类器,以预测标题是正还是负。文章资源 笔记本: GitHub 库:熊猫,numpy,scikit-learn,matplotlib,seaborn,nltk,imblearn目录简要介绍分类及我们面...翻译 2018-10-10 10:13:48 · 1094 阅读 · 0 评论 -
【机器学习】使用Python的自然语言工具包(NLTK)对Reddit新闻标题进行情感分析
让我们使用Reddit API获取新闻标题并执行情感分析在我上一篇文章中,使用Python进行K-Means聚类,我们只是抓取了一些预编译数据,但是对于这篇文章,我想更深入地了解一些实时数据。使用Reddit API,我们可以从各种新闻subreddit获得成千上万的头条新闻,并开始享受Sentiment Analysis的乐趣。我们将使用NLTK的vader分析器,它可以计算识别文本...翻译 2018-10-10 10:25:03 · 3729 阅读 · 3 评论 -
【机器学习】注意:为了性能,请使用pip停止安装Tensorflow!
使用pip停止安装Tensorflow!请改用conda。如果您不知道conda是什么,它是一个跨平台运行的开源软件包和环境管理系统。因此它适用于Mac,Windows和Linux。如果你还没有使用conda,我建议你开始,因为它使管理你的数据科学工具更加愉快。以下是使用conda而不是pip安装Tensorflow的两个非常重要的原因。 CPU性能更快 conda Ten...翻译 2018-10-10 10:40:56 · 7691 阅读 · 7 评论 -
【机器学习】贝叶斯规则的应用
在实际问题上使用贝叶斯推理贝叶斯推理的基本思想是通过更多数据变得“更少错误”。这个过程很简单:我们有一个初步的信念,称为先验,我们在获得更多信息时会更新。虽然我们不认为它是贝叶斯推理,但我们一直使用这种技术。例如,我们最初可能认为我们有50%的机会在季度末获得促销。如果我们收到经理的积极反馈,我们会向上调整我们的估算,相反,如果我们弄乱咖啡机,我们可能会降低概率。在我们不断收集信息时,我们...翻译 2018-10-18 16:03:26 · 1310 阅读 · 0 评论 -
【NLP】计算所汉语词性标记集
原文:http://ictclas.nlpir.org/nlpir/html/readme.htm#_Toc34628493制订人:刘群 张华平 张浩说明计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。本标记集主要参考了以下词性标记集: 1. 北大《人民日报》语料库词性标记集; 2...转载 2018-05-07 11:50:06 · 734 阅读 · 0 评论 -
【NLP】词向量的惊人力量
对于今天的帖子,我不仅从一篇论文中抽取材料,而且从五篇文章中抽取材料!主题是'word2vec' - Mikolov等人的着作。在谷歌有效的矢量表示的单词(以及你可以用它们做什么)。论文是:向量空间中词表示的有效估计 - Mikolov等。2013 单词和短语的分布式表示及其组合性 - Mikolov等。2013 连续空间词表示中的语言规律 - Mikolov等。2013 word2v...翻译 2018-08-27 16:03:36 · 4084 阅读 · 0 评论 -
【NLP】百度AI平台自然语言处理API调用(情感分析案例)
首先先注册登录百度AI平台,自然语言处理是免费的,有5 QPS,够用了,不够用可以申请增加。我申请增加至10 QPS,通过得很快。 相关配置准备找到百度AI平台的NLP入口:看到自然语言处理点击进入进入之后跳转到自然语言处理产品页点击创建应用,应用创建后会有AppID、API Key、Secret Key这些参数。后续使用会利用到这些参数!使用百...原创 2018-09-13 09:44:58 · 20432 阅读 · 13 评论 -
【机器学习】最大熵模型原理小结
最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。而对熵的使用,让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型,对逻辑回归,支持向量机以及决策树算法都会加深理解。本文就对最大熵模型的原理做一个小结。 熵和条件熵的回顾熵度...转载 2018-09-29 09:43:06 · 665 阅读 · 0 评论 -
【机器学习】25个有趣的机器学习面试问题
许多数据科学家主要是从一个数据从业者的角度来研究机器学习(ML)。因此,关于机器学习,我们应该尽可能多地把注意力放在新的程序包、框架、技术等方面,而不是关于核心理论的深入研究。在本文中,我所定义的机器学习包含所有的统计机器学习方法,因此不仅仅指深度学习。 然而,经过一番努力的探究和思考后,我们可以提出很多不错的机器学习问题,而当我们试图回答和分析这些问题时,就可以很好地揭示问题更深层次的内...翻译 2018-09-17 11:00:18 · 1754 阅读 · 0 评论 -
【机器学习】22个开源的机器学习库,帮助您选择一个适合您的管道工具。
目录介绍概观部分解决方案特色工程多功能工具boruta-pytsfreshTraneFeatureHub超参数优化器SkoptHyperoptsimple(x)Ray.tuneChocolateGpFlowOptFAR-HOXcessivHORDENAS-pytorch其他其他开源解决方案付费解决方案 ...翻译 2018-09-17 11:12:17 · 3325 阅读 · 0 评论 -
【机器学习】帮助您选择最好的AutoML框架
对87个数据集上的四个自动机器学习框架进行头对头比较。 目录介绍方法结果结论和解释 介绍自动机器学习(AutoML)可以将AI带入更大范围的受众。它提供了一套工具,帮助数据科学团队在不同的经验水平上加快数据科学过程。这就是为什么AutoML被认为是人工智能民主化的解决方案。即使有经验丰富的团队,您也可以使用AutoML来充分利用有限的资源。虽然有专有的解决方...翻译 2018-09-17 11:17:45 · 2141 阅读 · 0 评论 -
【特征相关性分析】对数据集特征进行相关性计算和绘图
当不知道数据集特征的含义时,可直接对数据集特征进行相关性分析,查看特征的相关系数。 让我们开始把! 载入在线实验数据集from sklearn import datasetsimport seaborn as snsimport matplotlib.pyplot as pltimport pandas as pdiris = datasets.load_iris()...原创 2018-09-21 15:37:24 · 17073 阅读 · 1 评论 -
【机器学习】当贝叶斯、奥卡姆和香农一起来定义机器学习时
介绍在机器学习的所有高级流行语中,我们很少听到一个短语将统计学习、信息论和自然哲学的一些核心概念融合成一个三个单词的组合。并且,它不仅仅是一个用于机器学习(ML)博士和理论家的短语。对于任何有兴趣探索的人来说,它都具有精确且易于理解的含义,而且对于机器学习(ML)和数据科学的实践者来说,它是一种实用的回报。我们说的是最小描述长度(Minimum Description Len...翻译 2018-09-25 09:44:37 · 1192 阅读 · 0 评论 -
【机器学习】使用K-Means聚类细分客户
构建在信息技术中的大多数平台都在生成大量数据。这些数据称为大数据,它带有大量的商业智能。这些数据跨越边界以满足不同的目标和机会。有机会应用机器学习为客户创造价值。问题我们在会计和物联网领域拥有基于大数据的平台,可以持续生成客户行为和设备监控数据。 识别目标客户群或基于不同维度导出模式是关键,并且确实为平台提供了优势。理念想象一下,你有1000个客户使用你的平台和大量不断产生的大数据...翻译 2018-09-26 09:21:45 · 8364 阅读 · 1 评论 -
【机器学习系列文章】第1部分:为什么机器学习很重要 ?
目录路线图谁应该读这个?为什么机器学习很重要语义树:人工智能和机器学习强大的AI将永远改变我们的世界; 要了解如何,学习机器学习是一个很好的起点如何阅读这个系列关于作者 简单,简单的解释,附有数学,代码和现实世界的例子。这个系列是一本完整的电子书!在这里下载。免费下载,贡献赞赏(paypal.me/ml4h) 路线图第1部分:为什么机器学习很...翻译 2018-10-01 20:01:30 · 778 阅读 · 0 评论 -
【机器学习系列文章】第2.1部分:监督学习
目录监督学习的两个任务:回归和分类回归:预测连续值那么我们如何解决这些问题呢?线性回归(普通最小二乘)梯度下降:学习参数过度拟合呜!我们做到了。练习材料和进一步阅读监督学习的两个任务:回归和分类。线性回归,损失函数和梯度下降。 过在数字广告上花更多钱来赚多少钱?这个贷款申请人是否会偿还贷款?明天股市会发生什么?在监督学习问题中,我们从包含具有相关正确...翻译 2018-10-01 20:01:59 · 1292 阅读 · 0 评论 -
【机器学习系列文章】第2.2部分:监督学习II
目录分类:预测标签Logistic回归:0还是1?支持向量机(SVM)成功!练习材料和进一步阅读使用逻辑回归和支持向量机(SVM)进行分类。 分类:预测标签这封电子邮件是垃圾邮件吗?借款人是否会偿还贷款?这些用户是否会点击广告?Facebook图片中的那个人是谁?分类 预测离散目标标签Y.分类是基于从标记的训练数据构建的分类模型将新观察分配给它们最可能属于的...翻译 2018-10-01 20:02:27 · 447 阅读 · 0 评论 -
【机器学习系列文章】第2.3部分:监督学习III
目录k-最近邻居(k-NN)决策树,随机森林随机森林:决策树的集合有了这个,我们总结了我们对有监督学习的研究!练习材料和进一步阅读非参数模型:k-最近邻,决策树和随机森林。介绍交叉验证,超参数调整和集合模型。 非参数学习者。事情即将变得有点......摇摆不定。与我们迄今为止所涵盖的方法相比 - 线性回归,逻辑回归和SVM,其中模型的形式是预定义的 - 非...翻译 2018-10-01 20:02:34 · 367 阅读 · 0 评论 -
【机器学习系列文章】第3部分:无监督学习
目录聚类k均值聚类分层聚类维度降低主成分分析(PCA)奇异值分解(SVD)向前!练习材料和进一步阅读聚类和降维:k均值聚类,层次聚类,主成分分析(PCA),奇异值分解(SVD) 您如何找到数据集的基础结构?你如何总结它并将其分组最有用?您如何有效地以压缩格式表示数据?这些是无监督学习的目标,称为“无监督”,因为您从未标记的数据开始(没有Y)。我们将探...翻译 2018-10-01 20:02:42 · 589 阅读 · 0 评论 -
【机器学习系列文章】第4部分:神经网络和深度学习
目录深度学习做得好,有些历史从大脑中汲取灵感(或者只是统计数据?) - 神经网络内部会发生什么为什么线性模型不起作用一些扩展和进一步的概念值得注意深度学习应用现在去做吧!更多资源接下来:玩一些游戏的时间!神经网络的工作原理,原因和深度。从大脑中汲取灵感。卷积神经网络(CNN)和递归神经网络(RNN)。真实世界的应用程序。 通过深度学习,我们仍在学习函数f...翻译 2018-10-01 20:02:49 · 525 阅读 · 0 评论 -
【机器学习系列文章】第5部分:强化学习
目录让我们把机器人鼠标放在迷宫中马尔可夫决策过程(MDP)Q-learning:学习行动价值功能政策学习:从州到行动的地图DQNs,A3C和深RL的进步练习材料和进一步阅读你做到了!结束思考探索和开发。马尔可夫决策过程。Q-learning,政策学习和深度强化学习。 “我只吃了一些巧克力来完成最后一节。”在有监督的学习中,训练数据带有来自某些神圣的“...翻译 2018-10-01 20:02:58 · 626 阅读 · 0 评论 -
【机器学习系列文章】第6部分:最好的机器学习资源
目录关于制定课程的一般建议基金会程序设计线性代数概率与统计微积分机器学习培训教科书深度学习培训项目阅读强化学习培训项目阅读人工智能人工智能安全简讯别人的建议制作人工智能,机器学习和深度学习课程的资源汇编。 关于制定课程的一般建议去学校参加正式学位课程并不总是可行或可取的。对于那些考虑自学选择的人,这...翻译 2018-10-01 20:03:07 · 415 阅读 · 0 评论 -
【数据异常校验】Scikit-learn实现隔离森林(Isolation Forest)算法进行异常值检测
目录算法类方法实践案例1:多种异常检测算法比较代码案例2使用Isolation Forest算法返回每个样本的异常分数Isolation Forest通过随机选择一个特征然后随机选择所选特征的最大值和最小值之间的分割值来“隔离”观察结果。由于递归分区可以由树结构表示,因此隔离样本所需的分割数等于从根节点到终止节点的路径长度。这种随机树林的平均路径长度是衡量正...翻译 2018-09-27 11:17:28 · 22073 阅读 · 7 评论 -
【数据异常校验】Scikit-learn实现局部异常因子(LOF)的无监督异常值检测
每个样本的异常分数称为局部异常因子。它测量给定样本相对于其邻居的密度的局部偏差。它是局部的,异常得分取决于物体相对于周围邻域的隔离程度。更确切地说,局部性由k近邻给出,其距离用于估计局部密度。通过将样本的局部密度与其邻居的局部密度进行比较,可以识别密度明显低于其邻居的样本。这些被认为是异常值。局部异常因子(LOF)算法是一种无监督的异常检测方法,它计算给定数据点相对于其邻居的局部密度偏差...翻译 2018-09-27 11:43:33 · 9225 阅读 · 1 评论 -
【异常检测算法】隔离森林(Isolation Forest)算法
南大周志华老师在2010年提出一个异常检测算法Isolation Forest,在工业界很实用,算法效果好,时间效率高,能有效处理高维数据和海量数据,这里对这个算法进行简要总结。iTree 提到森林,自然少不了树,毕竟森林都是由树构成的,看Isolation Forest(简称iForest)前,我们先来看看Isolation Tree(简称iTree)是怎么构成的,iTree是一种随机...转载 2018-09-27 14:55:41 · 10843 阅读 · 4 评论 -
【人工智能】2018年最佳 机器学习/深度学习 开源软件奖获奖者
亚马逊、谷歌、微软、facebook——这些公司和其他许多公司都在争相创建最丰富、最容易的机器学习和深度学习库。竞争是好的!我们在机器学习领域的2018年“Bossie”获奖者包括最先进的框架、用于构建和培训模型的其他前沿工具,以及在集群中传播深度学习的平台。目录TensorFlowKerasPyTorchfast.aiChainerH20Microsoft ...翻译 2018-09-28 11:07:44 · 671 阅读 · 0 评论 -
【数据预处理】Pandas缺失的数据处理
目录缺少数据基础何时/为何 数据丢失?被视为“缺失”的值日期时间插入缺失数据缺少数据的计算Sum/Prod of Empties/NansGroupBy中的NA值清理/填写缺失数据填充缺失值:fillna用PandasObject填充删除轴标签缺少数据:dropna 插值插值限制替换通用值字符串/正则表达式替换数字替换缺少数据...原创 2018-09-05 16:11:59 · 4286 阅读 · 1 评论 -
【推荐系统】推荐系统算法原理
主要的现有推荐引擎及其工作原理如今,许多公司使用大数据来制定超级相关的建议和增长收入。在各种推荐算法中,数据科学家需要根据业务的限制和要求选择最佳推荐算法。 协同过滤协同过滤(CF)及其修改是最常用的推荐算法之一。即使数据科学家初学者也可以使用它来构建他们的个人电影推荐系统,例如,用于简历项目。当我们想向用户推荐一些东西时,最合乎逻辑的做法是找到兴趣相似的人,分析他们的行为,并...翻译 2018-09-06 09:52:21 · 2724 阅读 · 1 评论 -
【推荐系统】协同过滤浅入(基于用户/项目/内容/混合方式)
目录 协同过滤基于用户的过滤基于项目的过滤基于内容的过滤混合系统检查每种类型的利弊 协同过滤在 2012 年初,爆出了这样一则新闻故事:一位男子进入一家Target商店,挥舞着手中的一叠优惠券,这些都是Target邮寄给他还在读高中的女儿的。他来的目的是谴责经理,因为这套优惠券都是诸如婴儿服装、配方奶和幼儿家具这类商品专享的。听到顾客的投诉,经理再...原创 2018-09-10 15:43:55 · 5835 阅读 · 0 评论 -
【推荐系统】基于协同过滤的图书推荐系统
推荐系统一直让我的思绪占据了一段时间,由于我倾向于阅读书籍,因此探索Book Crossing数据集非常吸引人。在线推荐系统是许多电子商务网站的事情。推荐系统广泛地向最适合其口味和特征的顾客推荐产品。有关推荐系统的更多详细信息,请阅读我关于推荐系统的介绍性文章以及使用Python的一些插图。当我遇到Book Crossing数据集时,我开始构建图书推荐系统。该数据集由Cai-Nicolas...翻译 2018-09-11 10:13:58 · 21130 阅读 · 21 评论