
机器学习
程序员架构师13
呆呆的
展开
-
教你学Python38-利用SVD简化数据
SVD 概述奇异值分解(SVD, Singular Value Decomposition): 提取信息的一种方法,可以把 SVD 看成是从噪声数据中抽取相关特征。从生物信息学到金融学,SVD 是提取信息的强大工具。SVD 场景信息检索-隐性语义检索(Latent Semantic Indexing, LSI)或 隐形语义分析(Latent Semantic Analys...原创 2020-01-30 16:19:58 · 533 阅读 · 0 评论 -
教你学Python37-利用 PCA 来简化数据
降维技术场景我们正通过电视观看体育比赛,在电视的显示器上有一个球。 显示器大概包含了100万像素点,而球则可能是由较少的像素点组成,例如说一千个像素点。 人们实时的将显示器上的百万像素转换成为一个三维图像,该图像就给出运动场上球的位置。 在这个过程中,人们已经将百万像素点的数据,降至为三维。这个过程就称为降维(dimensionality reduction)数据显示 并非大...原创 2020-01-30 16:14:57 · 681 阅读 · 0 评论 -
教你学Python36-使用FP-growth算法来高效发现频繁项集
我们已经介绍了用Apriori算法发现频繁项集与关联规则。本章将继续关注发现频繁项集这一任务,并使用FP-growth算法更有效的挖掘频繁项集。FP-growth 算法简介一种非常好的发现频繁项集算法。 基于Apriori算法构建,但是数据结构不同,使用叫做FP树的数据结构结构来存储集合。下面我们会介绍这种数据结构。FP-growth 算法步骤基于数据构建...原创 2020-01-30 16:02:09 · 457 阅读 · 0 评论 -
教你学Python35-使用 Apriori 算法进行关联分析
关联分析关联分析是一种在大规模数据集中寻找有趣关系的任务。 这些关系可以有两种形式:频繁项集(frequent item sets): 经常出现在一块的物品的集合。 关联规则(associational rules): 暗示两种物品之间可能存在很强的关系。相关术语 关联分析(关联规则学习): 从大规模数据集中寻找物品间的隐含关系被称作关联分析(associati analysi...原创 2020-01-22 20:17:54 · 2351 阅读 · 0 评论 -
教你学Python34-K-Means(K-均值)聚类算法
聚类聚类,简单来说,就是将一个庞杂数据集中具有相似特征的数据自动归类到一起,称为一个簇,簇内的对象越相似,聚类的效果越好。它是一种无监督的学习(Unsupervised Learning)方法,不需要预先标注好的训练集。聚类与分类最大的区别就是分类的目标事先已知,例如猫狗识别,你在分类之前已经预先知道要将它分为猫、狗两个种类;而在你聚类之前,你对你的目标是未知的,同样以动物为例,对于一个动物集...原创 2020-01-20 11:20:36 · 2630 阅读 · 2 评论 -
教你学Python33-树回归之CART算法
一、引言本篇文章将会讲解CART算法的实现,通过测试不同的数据集,学习CART算法。二、将CART(Classification And Regression Trees 分类回归树)算法用于回归在之前的文章,我们学习了决策树的原理和代码实现,使用使用决策树进行分类。决策树不断将数据切分成小数据集,直到所有目标标量完全相同,或者数据不能再切分为止。决策树是一种贪心算法,它要在给定时...原创 2020-01-20 11:00:50 · 580 阅读 · 0 评论 -
教你学Python32-预测数值型数据:数据回归
一、引言前面的文章介绍了很多分类算法,分类的目标变量是标称型数据,而本节将会对连续型的数据做出预测。主要讲解简单的线性回归和局部加权线性回归。二、什么是回归?回归的目的是预测数值型的目标值。他和我们之前做的分类是不一样的。最直接的办法是依据输入写出一个目标值的计算公式。假如你想预测小姐姐男友法拉利汽车的功率,可能会这么计算:HorsePower = 0.0015 * annua...原创 2020-01-20 10:52:57 · 1288 阅读 · 0 评论 -
教你学Python31-利用AdaBoost元算法提高分类性能
一、引言前面的文章已经介绍了五种不同的分类器,它们各有优缺点。我们可以很自然地将不同的分类器组合起来,而这种组合结果则被成为集成方法(ensemble method)或者元算法(meta-algorithm)。使用集成方法时会有多种形式:可以是不同算法的集成,也可以是同一种算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成。二、集成方法我们知道集成方法就是把不...原创 2020-01-20 10:47:03 · 289 阅读 · 0 评论 -
教你学Python30-支持向量机SVM基础
一、前言对于SVM这个理论,本人感觉是非常难理解的 借鉴了很多大佬的笔记和视频 还是想以自己能理解的方式进行阐述清楚SVM是什么东西 他的具体实现 所以我尽量少点涉及公式什么的 通俗的介绍SVM二、什么是SVMSVM的英文全称是Support Vector Machines,我们叫它支持向量机。支持向量机是我们用于分类的一种算法。让我们以一个小故事的形式,开启我们的SVM之旅吧。...原创 2020-01-19 15:02:57 · 243 阅读 · 0 评论 -
教你学Pyth29-Logistic 回归基础
二、Logistic回归与梯度上升算法Logistic 回归 或者叫逻辑回归 虽然名字有回归,但是它是用来做分类的,例如预测明天是否会下雨。首先,让我们来了解一下,什么是Logistic回归。1.1、Logistic回归概述假设现在有一些数据点,我们利用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作为回归,如下图所示:Logistic回归是分类方法,它...原创 2020-01-19 14:56:10 · 286 阅读 · 0 评论 -
教你学Python28-朴素贝叶斯简介
一、引子最近几天一直没来得及看《机器学习实战》这本书,感觉停滞了很久,因为需要对AIMI-CN的规划进行考虑,想了很久做了一些皮毛的东西,决定还是慢慢来按部就班,东西做出来才能说话,当然之后我做这个文章的时候,也尽量再多点自己的东西把,其他人写的多数当参考把,这样才会有更多自己原创的东西,大家才会看,才会认同把~二、朴素贝叶斯理论朴素贝叶斯是贝叶斯决策理论的一部分,所以在讲述...原创 2020-01-19 14:32:59 · 405 阅读 · 0 评论 -
教你学Python27-决策树简介
决策树(Decision Tree)算法是一种基本的分类与回归方法,是最经常使用的数据挖掘算法之一。我们这章节只讨论用于分类的决策树。 决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是 if-then 规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。 决策树学习通常包括 3 个步骤:特征选择、决策树的生成和决策树的修剪。2、决策树...原创 2020-01-19 14:26:36 · 196 阅读 · 0 评论 -
教你学Python26-knn临近算法
KNN 概述k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法。一句话总结:近朱者赤近墨者黑!工作原理: 存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然...原创 2020-01-19 14:14:08 · 299 阅读 · 0 评论 -
教你学Python52-系列(五)无监督学习,相关领域和实践中的机器学习
在最后一篇文章中,我们将更深入地探讨无监督学习,简要讨论与机器学习有关的其他领域,并以一些实际的机器学习应用程序示例结束本系列。无监督学习回想一下,无监督学习涉及从数据中学习,但没有预测的目的。这是因为没有给数据提供目标响应变量(标签),或者选择不指定响应。它也可以用作监督学习的预处理步骤。在无人监督的情况下,目标是发现数据中的模式,深刻的见解,理解变异,发现未知的子组(在变...原创 2020-01-18 10:38:05 · 420 阅读 · 0 评论 -
教你学Python51-系列(四)模型性能和误差分析
在本文中,我们将更深入地研究模型评估和性能指标,以及可能遇到的与预测有关的潜在错误。残差和分类结果在深入研究模型性能和误差类型之前,我们必须首先讨论用于回归的残差和误差,用于分类问题的正负分类以及样本内与样本外测量的概念。关于用于训练,验证或调整预测模型(即您拥有的数据)的数据所涉及的模型,度量或误差的任何引用均称为样本内。相反,通常将引用测试数据度量标准和错误或新数据的内...原创 2020-01-18 10:35:12 · 1696 阅读 · 0 评论 -
教你学Python50-系列(三)模型评估,验证,复杂性和改进
在本文中,我们将继续进行机器学习讨论,并将重点放在与数据过度拟合相关的问题上,以及控制模型的复杂性,模型评估和错误引入,模型验证和调整以及提高模型性能。 过度拟合过度拟合是预测分析和机器学习中最大的担忧之一。过度拟合是指选择适合训练数据的模型拟合得太好,并且实际上捕获了所有噪声,离群值等的情况。这样的结果是,该模型将很好地拟合训练...原创 2020-01-18 10:31:09 · 963 阅读 · 0 评论 -
教你学Python49-系列(二)数据选择,准备和建模
在本文中,我们将简要介绍模型性能概念,然后重点关注机器学习过程的以下部分:数据选择,预处理,特征选择,模型选择和模型权衡考虑因素。 模型性能介绍可以用多种方法来定义模型性能,但是通常,它指的是模型能够有效地实现给定问题(例如,预测,分类,异常检测,推荐)的解决方案目标的能力。由于每个问题的目标可能不同,因此绩效的衡量标准也可能不同。...原创 2020-01-18 10:29:34 · 465 阅读 · 0 评论 -
教你学Python48-系列(一)概述,目标,学习类型和算法
机器学习的定义正如领域先驱Tom M.Mitchell所说的那样,经常引用并广泛接受的机器学习的正式定义是:如果说计算机程序可以从经验E中学习有关某类任务T和绩效指标P的信息,那么计算机程序在P中对任务T的绩效(由P衡量)会随着经验E的提高而提高以下是我描述机器学习的非正式形式。机器学习是计算机科学的一个子领域,但通常也称为预测分析或预测建模。它的目标和用途是建立新的和/或利...原创 2020-01-18 10:24:29 · 370 阅读 · 0 评论 -
教你学Python47-机器学习迷你课程
从开发人员到机器学习从业人员14天Python是应用机器学习发展最快的平台之一。在本小课程中,您将发现如何在14天内使用Python入门,建立准确的模型以及自信地完成预测建模机器学习项目。这是重要的职位。您可能要为其添加书签。在我的新书中,通过16个循序渐进的教程,3个项目和完整的python代码,探索如何用熊猫准备数据,使用scikit-learn拟合和评估模型,以及更多...原创 2020-01-17 11:26:10 · 408 阅读 · 1 评论 -
教你学Python46-机器学习精通方法
5步入门和精通机器学习我教了一个5步骤的过程,您可以用来开始应用机器学习。这是非常规的。传统的机器学习教学方法是自下而上的。从理论和数学开始,然后是算法实现,然后送您开始研究如何开始解决实际问题。 机器学习的传统入门方法在从业者的道路上存在空白。机器学习精通的方法可以解决这一问题,并从最有价值的结果开始。它针对企业要付费的结果:如何交付结果。可以可靠地进行预测...原创 2020-01-17 11:19:47 · 307 阅读 · 0 评论 -
教你学Python45-新手的机器学习基础
总览 通过一些基本概念入门机器学习领域 统计学,人工智能,深度学习和数据挖掘是机器学习中使用的其他技术词汇中的少数 了解不同类型的机器学习算法 介绍近年来,人们对机器学习有了新的兴趣。这种复苏似乎是由强大的基础驱动的–全球各地的传感器正在以低廉的存储成本和最低的计算成本发射大量数据!但是,并非每个人都了解什么是机器学习。这里有一些例子: 什么...原创 2020-01-17 11:15:33 · 395 阅读 · 0 评论 -
教你学Python44-机器学习的温柔指南
机器学习是人工智能中的一个子领域,该子领域构建的算法使计算机可以学习从数据执行任务,而无需进行显式编程。得到它了?我们可以使机器学会做事!第一次听到,这让我大吃一惊。这意味着我们可以对计算机进行编程以自行学习事物!学习能力是智力最重要的方面之一。将这种力量转化为机器,听起来是朝着使机器更加智能迈出的一大步。实际上,机器学习是当今人工智能领域取得最大进展的领域。成为当前的热门话题,并推...原创 2020-01-17 11:08:51 · 308 阅读 · 0 评论 -
教你学Python43-我如何开始机器学习
我被问到的最常见问题是:“我如何开始?”我对机器学习入门的最佳建议分为五个步骤: 步骤1:调整心态。相信您可以练习并应用机器学习。是什么让您从机器学习目标中退缩? 为什么机器学习不必这么难 如何思考机器学习 找到您的机器学习部落 步骤2:选择一个流程。使用系统的过程来解决问题。应用机器学习过程 步骤3:选择...原创 2020-01-16 17:01:14 · 416 阅读 · 0 评论 -
教你学Python42-了解机器学习算法的5种方法(无数学)
自上而下的学习机器学习方法的理论在哪里?在传统的机器学习教学方法中,理论首先出现,要求具备广泛的数学背景才能理解它。在教授机器学习的方法中,我首先教您如何端到端解决问题并交付结果。那么理论在哪里适合呢?在这篇文章中,您会发现当我们谈论机器学习中的“理论”时,我们真正的意思是。提示:全部与算法有关。您会发现,一旦您精通解决问题和交付结果的技巧,便会发展出更强的潜意识,以便更好地...原创 2020-01-16 16:52:11 · 315 阅读 · 0 评论 -
教你学Python41-如果我数学不好怎么办
实际学科的从业人员可能会羡慕数学。在这里,他们认为数学家比他们更聪明,并且他们只有在“知道数学”之后才能在学科上脱颖而出。我已经看过第一手资料,也看到它阻止了人们入门。在本文中,我想说服您,您可以在不精通数学的前提下开始并在机器学习中取得长足进步。 如果我不擅长数学边做边学在开始编程之前,我没有学习布尔逻辑。我刚开始编程,而您可能这样做了。我遵循的经验路径涉及...原创 2020-01-16 16:46:50 · 566 阅读 · 0 评论 -
教你学Python40-机器学习的两大方向
在这篇文章中,我想向您展示程序员可以进行机器学习。我将向您展示,学习机器学习就像学习其他高科技一样。首先,我们将学习机器学习与编程学习进行比较,这可能是一个更大的挑战。设计师想编码一位年轻的网页设计师说,您假装您是一名设计师。您可以使用Photoshop或其他工具制作网页设计,然后可以剪裁设计并将其转换为CSS。您在程序员周围闲逛,也许您对编码有些羡慕。您认为您可能想学习...原创 2020-01-16 16:12:56 · 447 阅读 · 0 评论 -
教你学Python39-程序员的机器学习
我如何开始机器学习?我是开发人员。我已经阅读了一本书或一些有关机器学习的文章。我看了一些Coursera机器学习课程。我仍然不知道如何开始……这听起来很熟悉吗? 对机器学习书籍和课程感到沮丧吗?您如何开始进行机器学习?开发人员在我的时事通讯上问到的最常见问题是:我如何开始机器学习?老实说,我不记得我已经回答了多少次了。在这篇文章中,我提出了关于该主题的所有最佳...原创 2020-01-16 16:05:28 · 342 阅读 · 0 评论 -
教你学Python25-Python学习线路图,新手不走弯路
突发奇想,想把当初自学python时收藏的关于python的14张思维导图和学习路线拿出来分享给许多同样处于"初级"阶段的各位攻城狮们。话不多说,直接见图吧~~字符串字典集合序列文件对象条件循环数据类型模块面向对象编程列表元组...原创 2020-01-02 16:25:57 · 283 阅读 · 0 评论 -
教你学Python24-带你开启机器学习时代
先简单带大家看一些学习机器学习需要哪些东西,大概有什么用,做什么的,具体的内容后面我会一一具体的来和大家说,所谓“机器学习”就是利用计算机将纷繁复杂的数据处理成有用的信息,这样就可以发掘出数据带来的意义以及隐藏在数据背后的规律。现如今,“机器学习”和“大数据”可以说是IT行业中最热点的两个词汇,而无论是“机器学习”还是“大数据”最终要解决的问题本质上是一样的,用最为直白的话来...原创 2019-12-30 16:04:14 · 234 阅读 · 0 评论 -
教你学Python23-爬虫Scrapy框架入门,爬取腾讯实时招聘信息
下面是用爬虫爬取到的声讯招聘信息,我们可以将数据进行整理,这样以后买票,找工作找都可以用爬虫来做了。request可以进行爬虫,那为什么还要使用Scrapy框架,下面是相关对比Scrapy概述Scrapy是Python开发的一个非常流行的网络爬虫框架,可以用来抓取Web站点并从页面中提取结构化的数据,被广泛的用于数据挖掘、数据监测和自动化测试等领域。...原创 2019-12-29 23:22:22 · 631 阅读 · 0 评论 -
教你学Python22-带你写第一个爬虫(2)
上一篇带你写第一个爬虫,我们只是获取到了知乎问答的url,我们日常爬取数据的目的是为了数据的分析,这篇文章我们带你继续,将爬取到数据进行存储。存储数据存储海量数据数据持久化的首选方案应该是关系型数据库,关系型数据库的产品很多,包括:Oracle、MySQL、SQLServer、PostgreSQL等。如果要存储海量的低价值数据,文档数据库也是不错的选择,Mong...原创 2019-12-28 17:12:25 · 177 阅读 · 0 评论 -
教你学Python21-带你写第一个爬虫,爬取豆瓣连接
通过上一个章节的讲解,我们已经了解到了开发一个爬虫需要做的工作以及一些常见的问题,下面我们给出一个爬虫开发相关技术的清单以及这些技术涉及到的标准库和第三方库,稍后我们会一一介绍这些内容。下载数据 - urllib / requests / aiohttp。解析数据 - re / lxml / beautifulsoup4 / pyquery。缓存和持久化 - pymy...原创 2019-12-27 23:11:34 · 372 阅读 · 1 评论 -
教你学Python19-网络爬虫和相关工具
教你学Python19-网络爬虫和相关工具网络爬虫的概念网络爬虫(web crawler),以前经常称之为网络蜘蛛(spider),是按照一定的规则自动浏览万维网并获取信息的机器人程序(或脚本),曾经被广泛的应用于互联网搜索引擎。使用过互联网和浏览器的人都知道,网页中除了供用户阅读的文字信息之外,还包含一些超链接。网络爬虫系统正是通过网页中的超链接信息不断获得网络上的其它页面。...原创 2019-12-27 15:19:22 · 254 阅读 · 0 评论 -
教你学Python17-玩转linux系统
教你学Python17-玩转linux系统MacOS系统,Windows系统,是我们平时在工作和生活中最常见的PC操作系统,除了这两种系统之外,在服务器上最主要的是linux操作系统,作为一名程序开发人员,今天我来带大家玩转linux系统 什么是linux系统 Linux是一个通用操作系统。一个操作系统要负责任务调度、内存分配、处理外围设备I/O等操作。操作系统通常由...原创 2019-12-27 14:04:38 · 307 阅读 · 0 评论 -
教你学Python16-消息安全加解密/数字签名
教你学Python16-消息安全加解密/数字签名对称加密,就是我们约定同一个暗号,暗号相同了,说明是自己人,才能明白是什么意思。明文 P:等待加密的数据。密钥 K:用来加密明文的密码,在对称加密算法中,加密与解密的密钥是相同的。密钥为接收方与发送方协商产生,但不可以直接在网络上传输,否则会导致密钥泄漏,通常是通过非对称加密算法加密密钥,然后再通过网络传输给对方,或...原创 2019-12-25 18:34:49 · 473 阅读 · 0 评论 -
教你学python-15-hiveUdf 的多种实现
教你学python-15-hiveUdf 的多种实现我们先来了解一下什么是hive和什么是UDFHive:是建立在hadoop上的数据仓库基础架构,类似一种SQL解析引擎,它将SQL语句转成MapReduce,然后再Hadoop上执行。UDF:hive的自定义函数,正常我们在写MapReduce,map和reduce需要业务函数,UDF是将MapReuce业务抽出来,让我单独完成...原创 2019-12-24 15:55:29 · 211 阅读 · 0 评论 -
Day13:带你走进大数据
Day13:带你走进大数据Hadoop和大数据是这两年最火的词儿们之一,越来越多的公司对这个东西感兴趣,但是我接触到的大多数公司里的人,无论是技术人员还是老板。都不知道怎么能把这些东西用于改善自己公司的业务。在解答的过程中,提炼出几个要点,记录一下随着计算机网络的告诉发展,我们的生活离不开网络,手机购物,看直播,看小说,智能家居,ETC等,这些技术影响着我们的生活,在...原创 2019-12-24 13:55:06 · 157 阅读 · 0 评论 -
Python-100-Days-15 python日常办公
Python-100-Days-15 python日常办公本项目是参考项目内容,进行个人理解,和原有项目有出入,如想了解详情,请自行百度去搜索项目 用Pillow操作图像 Pillow是由从著名的Python图像处理库PIL发展出来的一个分支,通过Pillow可以实现图像压缩和图像处理等各种操作。可以使用下面的命令来安装Pillow。1)显示一张照片2)剪...原创 2019-12-16 08:13:06 · 194 阅读 · 0 评论 -
教你学习: Python-100-Days-14 网络编程入门
教你学习: Python-100-Days-14 网络编程入门本项目是参考项目内容,进行个人理解,和原有项目有出入,如想了解详情,请自行百度去搜索项目一个请求走过的流程:step1: 访问百度首页 输入 百度啊step2: 浏览器收到请求,通过Http协议,把我们的请求,打成一个包裹,告诉这是访问百度的第一个包,后面还有一个包,一起发送step3: Tcp/ip 协议收到...原创 2019-12-14 19:15:02 · 179 阅读 · 0 评论 -
教你学习: Python-100-Days-13 进程与线程
教你学习: Python-100-Days-13 进程与线程本项目是参考项目内容,进行个人理解,和原有项目有出入,如想了解详情,请自行百度去搜索项目今天我们使用的计算机早已进入多CPU或多核时代,而我们使用的操作系统都是支持“多任务”的操作系统,这使得我们可以同时运行多个程序,也可以将一个程序分解为若干个相对独立的子任务,让多个子任务并发的执行,从而缩短程序的执行时间,同时也让用户获...原创 2019-12-14 17:31:32 · 150 阅读 · 0 评论