自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(85)
  • 收藏
  • 关注

原创 十种常见排序算法的总结与实现

一、算法概述1.1、算法分类1.2、算法复杂度1.3、相关概念二、分类2.1、冒泡排序(Bubble Sort)2.2、选择排序(Selection Sort)2.3、插入排序(Insertion Sort)2.4、希尔排序(Shell Sort)2.5、归并排序(Merge Sort)2.6、快速排序(Quick Sort)2.7、堆排序(Heap Sort...

2018-07-16 17:17:23 681

原创 阅读笔记 - 《统计学习方法 - 李航》

阅读笔记 - 《统计学习方法 - 李航》1 统计分析1.1 常见的几种损失函数1.2 风险函数1.3 过拟合1.4 损失函数 1.5 模型选择的方法1:正则化1.6 模型选择的方法2:交叉验证 1.7 生成方法与判别方法1.8 分类器评估指标-精确率、召回率、f11.9 序列标...

2018-07-16 17:10:12 670

原创 牛顿法

牛顿法

2018-07-14 16:33:14 396

原创 正则化

一、正则化(Regularization)                ~~~~~~~~机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,中文称作L1正则化和L2正则化,或者L1范数和L2范

2018-07-14 16:25:57 4719 2

原创 EM算法

一、概念二、应用场景距离计算案例案例优化图解步骤一、概念顾名思义:             ~~~~~~最大期望算法(Expectation Maximization Algorithm,又译期望最大化算法),是一种迭代算法,用于含有隐变...

2018-07-14 16:17:24 287

原创 关联规则Apriori算法

算法原理 一、概念①支持度:P(A ∩ B),既有A又有B的概率 ②置信度: P(B|A),在A发生的事件中同时发生B的概率 p(AB)/P(A) 例如购物篮分析:牛奶 -> 面包 例子:[支持度:3%,置信度:40%] 支持度3%:意味着3%顾客同时购买牛奶和面包 置信度40%:意味着购买牛奶的顾客40%也购买面包 ③如果事件A中包含k个元素,那么称这个事件A为k项集...

2018-07-14 16:15:29 1629

原创 凸优化问题

一、概念              ~~~~~~~最优化问题目前在机器学习,数据挖掘等领域应用非常广泛,因为机器学习简单来说,主要做的就是优化问题,先初始化一下权重参数,然后利用优化方法来优化这个权重,直到准确率不再是上升,迭代停止。 两个正数的算术

2018-07-14 16:03:09 3936

原创 数据处理中的维数灾难

一、定义                ~~~~~~~~维度就是特征的数量,随着维度的增加,分类器性能逐步上升,到达某点之后,其性能便逐渐下降    &

2018-07-14 15:45:40 4099

原创 机器学习中常用的距离度量总结

一、欧式距离二、曼哈顿距离三、切比雪夫距离四、闵可夫斯基距离(闵式距离)五、马氏距离六、标准欧式距离七、汉明距离八、杰卡德距离九、测地距离(Geodesic Distance)几种常见的距离 一、欧式距离            &nb...

2018-07-14 15:23:25 1575

原创 PageRank算法

一、PageRank原理二、各类问题2.1、终止问题2.2、陷阱问题三、改进4.1、解决终止点问题和陷阱问题4.2、图示五。优缺点一、PageRank原理PageRank(网页级别)用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,在搜索结果中令网站排名获得提升,从而提高搜索结果的相关性和...

2018-07-14 15:04:17 2181 1

原创 人工智能机器学习目录

1、     &a

2018-07-14 14:53:53 763

原创 机器学习十大算法之一:SVM支持向量机

机器学习十大算法之一:SVM支持向量机1 SVM思维导图2 SVM2.1 SVM概念              &a

2018-07-06 20:59:21 840

原创 机器学习十大算法之一:朴素贝叶斯Bayes

机器学习十大算法之一:朴素贝叶斯Bayes1 课题导入1.1 贝叶斯公式 P(A∪B)=P(A)+P(B)−P(A∩B)P(A∪B)=P(A)+P(B)−P(A∩B)P(A \cup B) = P(A) + P(B) - P(A \cap B) P(AB)=P(A|B)P(B)=P(B|A)P(A)P(AB)=P(A|B)P(B)=P(B|A)P(A)P(AB) = P(A...

2018-07-05 19:52:55 904 1

原创 机器学习入门:特征工程与数据降维

机器学习入门:特征工程与数据降维1 为什么要进行数据预处理1.1 数据清洗1.1.1 数据清洗常见问题a. 缺失值处理b. 噪声数据处理c. 异常值处理d. 脏数据处理e. 去重处理f. ETL - extract、transform、loadg. 离群点与噪声    &...

2018-07-05 17:12:57 1157

转载 图像分类器:基于opencv、随机森林、逻辑回归算法实现

图像分类器:基于opencv、随机森林、逻辑回归算法实现                ~~~~~~~~本文介绍了什么是图像分类以及图像分类的过程,介绍了图像分类的关键操作、opencv的使用、图像的三种颜色空间:RGB

2018-07-05 16:52:21 14310 15

原创 机器学习十大算法之一:KNN

1-1 机器学习算法分类一、基本分类:①监督学习(Supervised learning)数据集中的每个样本有相应的“正确答案”, 根据这些样本做出 预测, 分有两类: 回归问题和分类问题。 步骤1: 数据集的创建和分类 步骤2: 训练 步骤3: 验证 步骤4: 使用 ( 1) 回归问题举例 例如: 预测房价, 根据样本集拟合出一条连续曲线。 ( 2) ...

2018-07-05 16:21:59 677

原创 机器学习十大算法之一:K-means算法

K-means算法 (无监督算法,聚类算法)1-1 基本流程一、概念:二、主要特点:三、算法流程:kmeans作用:去除奇异值小结:1-2 算法效果衡量标准一、K值确定:二、轮廓系数:三、Canopy算法配合初始聚类:1、Canopy简介:2、Canopy+Kmeans:四、Calinski-Harabasz Index:K-me...

2018-07-05 16:17:37 1504

原创 机器学习十大算法之一:决策树

1-1 基本流程一、概念:决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。二、划分依据:①熵物理学上,熵 Entropy 是“混乱” 程度的量度。 系统越有序,熵值越低;系统越混乱或者分散,熵值越高 信息理论: 1、当系统的有序状态一致时,数据越集中...

2018-07-05 09:01:08 584

原创 《算法图解》整理笔记

一,第一章 算法简介1.2 二分查找 二分查找是一种算法,其输入是一个有序的元素列表(必须有序的原因稍后解释)。如果要查找的元素包含在列表中,二分查找返回其位置;否则返回null。 使用二分查找时,每次都排除一半的数字。 一般而言,对于包含n个元素的列表,用二分查找最多需要log2n步,而简单查找最多需要n步。仅当列表是有序的时候,二分查找才管用。 二分法代码实现:def ...

2018-07-04 20:37:23 20457 2

原创 用pyecharts中的Overlap叠加不同类型图表输出

Overlap结合不同类型图表叠加 用户可以自定义结合Line/Bar/Kline,Scatter/EffectScat ter 图表,将不同类型图表画在一张图上。利用第一个图表为基础,往后的数据都将会画在第一个图表上。Overlap 类的使用: 引入Overlap 类,from pyecharts import Overlap 实例化Overlap 类,overlap = ...

2018-06-28 12:50:17 26141 7

原创 用pyecharts绘制词云WordCloud

词云图词云图主要用热词的热度进行可视化。 WordCloud.add() 方法签名 add(name, attr, value, shape=”circle”, word_gap=20, word_size_range=None, rotate_step=45) name -> str:图例名称 attr -> list...

2018-06-28 10:31:30 14141 1

原创 Matplotlib扩展篇-Pyecharts

Pyecharts 简介 pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒,pyecharts 是为了与 Python进行对接,方便在 Python 中直接使用数据生成图。Pyecharts官网链接 GitHub链接Pyecharts 通用配置项代码演示:...

2018-06-27 20:44:06 1988

原创 Pandas+Matplotlib绘图

在pandas中,我们有行标签、列标签以及分组信息。也就是说,要制作一张完整的图表,原本需要一大堆的matplotlib代码,现在只需一两条简洁的语句就可以了。pandas有许多能够利用DataFrame对象数据组织特点来创建标准图标的高级绘图方法(这些函数的数量还在不断增加)。一,利用Series的plot方法绘图用Series绘图的原理:Series的索引作为x轴,Seri...

2018-06-27 20:22:09 1462

原创 Matplotlib加载csv数据文件进行可视化

一,从本地加载csv文件from matplotlib import pyplot as pltimport numpy as npimport csv#用来正常显示中文标签plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示负号 plt.rcParams['axes.unicode_minus']=False#定义两个空列表...

2018-06-27 19:47:04 18157

原创 Matplotlib-高级篇(优化柱状/条形图)

实现步骤:做好绘制前的准备工作:导包,中文环境设置,准备画布与数据等准备绘制图表所需的参数数据: a. 绘制的条形宽度 b. 绘制的条形位置(中心) c.条形图的高度(数据值)核心图形绘制。 绘制条形图的主体,条形图实质就是一系列的矩形元素,我们通过plt.bar函数来绘制条形图向各条形上添加数据标签绘制x,y 坐标轴刻度及标签,标题,并最终显示出图表代码演示...

2018-06-26 18:01:13 11270

原创 Matplotlib-高级篇(利用subplot()绘制多幅图形)

Matplotlib中绘制多幅图形 在实际的工作中,我们有一 种需求是需要在一块画布上输出多个相关的图形,进行比较或多角度分析,如下图所示: matplotlib和pyplot有当前的图形(figure)和当前的轴 (axes)的概念,所有的作图命令都是对当前的对象作用。可以通过gca()获得当前的axes(轴),通过gcf()获得当前的图形(figure): 代码演示:...

2018-06-26 17:48:36 37122 2

原创 Matplotlib-综合演练篇(正余弦函数)

综合演练目的和步骤最终效果图: 代码展示:import matplotlib.pyplot as plt#from matplotlib import pyplot as pltimport numpy as npfrom numpy import pi as PI# 用于正常显示中文标签plt.rcParams["font.sans-serif"]=['SimH...

2018-06-26 17:35:30 310

原创 Matplotlib快速入门与进阶

Matplotlib 是一个Python的2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生> 成出版质量级别的图形。这个绘图系统操作起来相对复杂,但是matplotlib的复杂给 > 其带来了很强的定制性。其具有面向对象的方式及Pyplot的经典高层封装。几个常见的matplotlib图形绘制方法 •画一个折线图:plt.plot() •画一个柱状图:...

2018-06-26 16:23:28 1008

原创 Pandas高阶篇八(神奇的apply方法)

apply会将 待处理的对象拆分成多 个片段,然后对各片段 调用传入的函数,最后 尝试将各片段组合到一 起。 ……

2018-06-25 20:08:19 1296

原创 Pandas高阶篇七(数据的聚合及分组计算)

对数据集进行分组并对各组应用一个函数(无论是聚合还是转 换),这是数据分析工作中的重要环节。在将数据集准备好之后,通常的任务就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作 。...

2018-06-25 19:54:10 655 1

原创 Pandas高阶篇七(读取文件数据)

Pandas中的数据加载、存储与解析1.读取csv文件导入模块from pandas import Series,DataFrameimport pandas as pdimport numpy as npfrom numpy import nan as NAimport sys用read_csv读取csv文件pd.read_csv("data/ex1.csv")...

2018-06-25 19:34:06 606

原创 Pandas高阶篇六(数据的过滤和筛选)

from pandas import Series,DataFrameimport pandas as pdimport numpy as npfrom numpy import nan as NA from matplotlib import pyplot as pltnp.random.seed(12345)data = np.random.randn(1000,4) #1000...

2018-06-25 17:11:54 17264 1

原创 Pandas高阶篇五(数据的拆分与分割)

数据的拆分 pandas返回的是一个 特殊的 Categorical对象。 你可以将其看做一组表 示面元名称的字符串。 实际上,它含有一个表示 不同分类名称的levels数 组以及一个为年龄数据 进行标号的labels属性。 跟“区间”的数学符号 一样,圆括号表示开端,而 方括号则表示闭端(包括)。 哪边是闭端可以通过right. 也可以自定义label名称。...

2018-06-25 14:20:36 35939 2

原创 使用selenium方法拖拽网页

# -*- coding:utf-8 -*-from selenium import webdriverimport timefrom selenium.webdriver.common.action_chains import ActionChainsdriver = webdriver.Chrome() #打开浏览器url = "https://www.tmall.com/"...

2018-06-24 19:28:04 1339

原创 使用selenium模拟动态登录百度页面

目标:模拟手动登录百度页面的过程,打开chrome浏览器,输入百度网址,进入百度网页,点击登录,输入账号和密码,进入登录页面。代码演示过程:from selenium import webdriverimport time# 1.打开浏览器driver = webdriver.Chrome()# 2.设置地址url = "https://www.baidu.com/"...

2018-06-24 18:45:41 11086 2

原创 Pandas高阶篇四(数据的替换)

利用fi11na方法填充缺失 数据可以看做值替换的一种特殊情况。虽然前面提到的map 可用于修改对象的数据子集, 而replace则提供了一种实现 该功能的更简单、更灵活的方 式。 也可以利用 replace传替一个数组来替换多个值。 如果希望替换多个值,也可以通过一个数据进行。...

2018-06-22 19:34:27 3263

原创 Pandas高阶篇三(数据转化、清除重复数据)

数据转换-清除重复数据 Data frame的 duplicated方 法返回一个布尔型 Series, 表示各行是否是重复行: 还有一个与此相关的drop duplicates方法,它用于返回一个移除了重复行的DataFrame 这两个方法默认会判断 全部列,你也可以指定部分列进行重复项判断。 假设你还有一列值,且只希望根据k1列过滤重复 项: duplicate...

2018-06-22 19:28:38 6893

原创 Pandas高阶篇二(数据的重塑和旋转)

层次化索引与数据重塑 层次化索引是 pandas的一 项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别。抽象点说,它使你能以低维度形式处理高维度数据。 层次化索引为Dataframe数据的重排任务提供了一种具有良好一致性的方式。主要功能有二 • stack:将数据的列“旋转”为行 • unstack:将数据的行“旋 转”为列 对于一个层次化索引的 ...

2018-06-22 19:15:21 973

原创 Pandas高阶篇一(数据合并)

Pandas中的时间序列 pandas对象中的数据可以通过一些内置的方式进行合并: • pandas. merge可根据一个或多个键将不同Data frame中的行连 接起来。SQL或其他关系型数据库的用户对此应该会比较熟悉,因 为它实现的就是数据库的连接操作。· • pandas, concat可以沿着一条轴将多个对象堆叠到一起 • combine first可以将...

2018-06-22 19:01:24 862

原创 Pandas快速进阶六(Pandas中的时间序列)

Pandas中的时间序列 pandas通常是用于处理成 组日期的,不管这些日期是 DataFrame的轴索引还是列。 to_datetime方法可以解析 多种不同的日期表示形式。 对标准日期格式(如 ISO8601)的解析非常快。 • 它还可以处理缺失值 • NaT: (not a time) 是pandas 中时间戳数据的NA值...

2018-06-22 17:31:32 1514

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除