- 博客(65)
- 资源 (56)
- 收藏
- 关注
原创 介绍推荐系统
一、推荐系统1.1.推荐系统介绍推荐系统(R):是软件工具和技术,为使用的用户提供商品建议,针对缺乏足够个性经验或者能力的用户 去评估在web网站上潜在压倒选择商品的数量。基于使用者的偏好和约束,预测最有可能的最适合的商品或者服务,1.21.2.推荐系统解决了什么问题...
2021-06-21 18:11:53
447
原创 机器学习--逻辑回归
逻辑回归:用线性回归式子作为逻辑回归的输入,用来解决二分类问题想把线性回归 用来做二分类问题,要用sigmoid函数小于0.5的概率归为0,大于0.5的概率归位1二、用逻辑回归做癌症二分类问题import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom s
2021-04-24 16:22:14
204
原创 机器学习--模型的保存和加载
线性回归:线性回归是回归问题中的一种,线性回归假设目标值与特征之间线性相关,即满足一个多元一次方程。通过构建损失函数,来求解损失函数最小时的参数w和b。通长我们可以表达成如下公式:y^为预测值,自变量x和因变量y是已知的,而我们想实现的是预测新增一个x,其对应的y是多少。因此,为了构建这个函数关系,目标是通过已知数据点,求解线性模型中w和b两个参数。...
2021-04-24 11:06:46
245
原创 机器学习-随机森林(集成学习方法)
集成学习:建立几个模型组合来解决某一预测问题,生成多个分类器。随机森林:多个决策树的分类器,输出结果选择占比最大的结果单个树建立过程:1.随机在N个样本种选择一个样本,重复N次,样本可能重复。 2.随机在M个特征中选出m个特征假设10棵决策树,样本、特征大多不一样二、决策树代码import pandas as pd #数据分析import numpy as np #科学计算from sklearn.fea...
2021-04-22 16:07:28
403
1
原创 机器学习-决策树
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3,C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。先引入信息熵的概念信息是个很抽象的概念。..
2021-04-22 15:29:20
115
原创 机器学习-交叉验证,模型选择与调优
1.交叉验证:让评估 模型更加准确可信2.网格参数通常情况下,很多参数需要手动指定,这种叫超参数。每组超参数都采用交叉验证来评估,最终选择最优参数组合来建立模型。如果有多组超参数,则需要进行两两相互验证用交叉验证、网格搜索,找到KNN的最优模型参数from sklearn.preprocessing import StandardScalerfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.m.
2021-04-18 22:42:11
2464
原创 机器学习--评估模型
混淆矩阵概念:在分类任务中,预测结果与正确标记之间存在四种不同的组合,构成混淆矩阵。其中TP:true positiveFN:false negativeFP:false positiveTN:true negative评估标准:准确率、精确率、召回率、假正率、F1-score1.准确率: 预测正确的个数/整体的个数2.精确率:预测结果为正例样本中,真实为正例的比例。TP/(FP+TP)3.召回率:真实样本中,预测结果为正正例的比例(查的全,对正样本的区分能力)。T.
2021-04-18 21:32:45
103
原创 机器学习--朴素贝叶斯
朴素贝叶斯模型(Naive Bayesian Model,NBM)朴素指的是 条件独立,即特征之间相互独立贝叶斯公式需要用到 条件概率 和全概率公式的推导
2021-04-18 15:48:47
168
原创 K近邻算法 KNN 入住预测位置
K最近邻(k-Nearest Neighbor,KNN)分类算法,最简单的机器学习算法之一定义:如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本种大多数属于某一个类别,则该样本也属于这个类别。用欧氏距离求两点之间的距离:需要做标准化处理,下载数据集:https://www.kaggle.com/c/facebook-v-predicting-check-ins与预测有关系的是: xy坐标 精度 (时间戳(有可能当时周围酒店住满了,需要换下一个位置),日..
2021-04-11 12:46:06
348
原创 机器学习--sklearn数据集
1.1、获取sklearn的鸢尾花数据数据集1.2、分隔skelarn的数据集from sklearn.datasets import load_iris #导入鸢尾花数据集from sklearn.model_selection import train_test_split #将数据集按比列分隔为数据集和训练集li = load_iris()#返回的格式,训练集 train x_train y_train 测试集 x_test y_testx_train, x
2021-04-10 11:37:18
255
原创 机器学习-用户对物品类别的喜好细分降维
需要kaggle里下载instacart-market-basket-analysis数据集instacart:把用户分成几个类别 用户-购买的物品类别把四张表合并成一张表pd.merge() 找到两列相同的数值,第二个参数 on 代表 要在 哪一个 列上 进行 merge (这里不太清楚可以查一查merge函数的使用)on指定主键,所以只要主键的信息匹配,信息就会被保留交叉表(特殊的分组)import pandas as...
2021-04-09 22:05:07
401
原创 机器学习-特征选择
数据降维1.特征选择2.主成分分析特征选择的原因:冗余:部分特征的相关度高,容易消耗计算性能 噪声:部分特征对预测结果有影响1.1特征选择方法:Filter(过滤式)variance Threshold 方差选择: 指定方差大小,比如删除低方差的特征,因为这样的特征数据波动小,无参考性用VarianceThreshold做特征抽取from sklearn.feature_selection import Var...
2021-04-09 19:34:59
276
原创 机器学习-特征预处理
sklearn预处理APIsklearn.preprocessing数字型数据:标准缩放 1.归一化 2.标准化类别型数据:one-hot编码时间类型;时间划分一、归一化将原始数据进行变换,数据映射到默认【0,1】之间,为了让某一特征不会对结果造成太大影响归一化的缺点:如果有异常值,将对最大值最小值造成影响from sklearn.preprocessing import MinMa...
2021-04-09 18:40:00
123
原创 对字典数据、文本进行特征抽取
对字典数据进行特征抽取流程1.实例化2.调用函数from sklearn.feature_extraction import DictVectorizerdef dictvec(): """ 字典数据抽取 :return: """ dict = DictVectorizer(sparse=False) #实例化 data = dict.fit_transform([ {'city':'
2021-04-08 15:13:24
421
原创 机器学习简单介绍
1.什么是机器学习:1.1学习的定义 近代学习是心理学的一个术语。它有广义和狭义之分。广义的学习是指人和动物在生活过程中获得个体经验的过程,是动物和人类生活中的普遍现象。如动物园里的象学会吹口琴、海狮和鲸鱼学会顶球、熊学会合掌拜谢等。狭义的学习指的是学生在学校里的学习。 1.2维基百科对于机器学习的定义 机器学习有下面几种定义: 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。 机器学习是对能通过经验自动改进的计算机算法的研究。 机器学
2021-03-09 15:21:17
816
原创 Python 球员能力值绘制和K线图
#_*_ coding:utf-8 _*_import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom matplotlib.font_manager import FontPropertiesfrom datetime import datetimefrom datetime import timedeltaplt.style.use('ggplot')ability_size = 6ability_
2020-05-30 10:32:27
649
原创 Python可视化,散点-条形图
import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.patches import Polygonplt.style.use('ggplot')x = np.random.randn(200)y = x+np.random.randn(200)*0.5margin_border = 0.1width = 0.6margin_between = 0.02height = 0.2left_s = margin_bo
2020-05-12 19:38:27
201
原创 Python可视化 函数积分图
def func(x): return -(x-2)*(x-8)+40x = np.linspace(0, 10)y = func(x)fig, ax = plt.subplots()plt.plot(x, y, 'r', linewidth=2)a = 2b = 9ax.set_xticks([a, b])ax.set_yticks([])ax.set_xticklabels(['$a$', '$b$']) #给2 9 打上a b的标签plt.figtext(0.9, 0
2020-05-12 19:04:59
1713
原创 Python可视化注释,文字,Tex公式,区域填充,形状,美化样式,极坐标
在图上画出注释x = np.arange(-10, 11, 1)y = x*xplt.plot(x, y)plt.annotate('bootom', xy=(0, 1), xytext=(0, 20), arrowprops=dict(facecolor='r', frac=0.2, headwidth=30, width=20)) #注释的文字,xy是箭头的坐标,xytext注释的起始坐标plt.show()在图中加上文字,并更改相关参数x = np.ar
2020-05-12 11:04:03
447
原创 Python可视化 调整颜色和样式,编程方式,子图方式,创建多个子图,创建网格,创建图例,坐标轴范围调整,调整坐标轴刻度,添加坐标轴
八种自建默认颜色缩写b : blueg : greenr : redc : cyanm : magentay: magentay : yellowk :blackw:white其他颜色表示方法灰色阴影html 十六进制RGB元组用数字表示,代表灰色程度有多深y = np.arange(1, 5)plt.plot(y+1, color='0.5') #灰色阴影plt.plot(y+2, color='#FF00FF') #16进制plt.plot(y+3, color=(
2020-05-11 20:52:23
992
原创 Python的可视化直方图,饼状图,箱状图
直方图由一系列高度不等的纵向条形组成,表示数据分布的情况例如某年级的身高分布情况画出直方图有几个直方,是否对数据进行标准化(频率)个数除以总个数mu = 100sigma = 20x = mu + sigma * np.random.randn(2000)plt.hist(x, bins=10, color='red', normed=True)plt.show()用颜色的深浅来表示频率的大小x = np.random.randn(1000)+2y = np.random.ran
2020-05-11 10:13:34
600
原创 Python的可视化散点图,折线图,条形图
通过array转换成numpy格式import numpy as npa = [1, 2, 3, 4]x1 = np.array(a)Numpy内生函数转化x = np.arange(5)print(x)从硬盘中读取delimiter=’,'用逗号隔开,skiprows=1跳过第一行 ,usecols=(1, 4, 6)选取1,4,6列,unpack=True 把四列数据分开 open, close, v = np.loadtxt('000001.csv', delimiter=','
2020-05-11 09:26:27
703
原创 Python Pandas股票分析
1.index_col 默认值(index_col = None)——重新设置一列成为index值2.index_col=False——重新设置一列成为index值3.index_col=0——第一列为index值parse_dates参数:将csv中的时间字符串转换成日期格式data = pd.read_csv('600690.csv',index_col='Date', parse_...
2020-05-08 10:43:24
339
原创 Python Pandas时间序列和重采样
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom datetime import datetimefrom datetime import timedelta获取现在时间now = datetime.now()print(now)print(now.year, now.month, ...
2020-05-07 16:11:30
632
原创 Python Pandas的输入输出
读入文件名print(pd.read_csv('ex1.csv')) a b c d message0 1 2 3 4 hello1 5 6 7 8 world2 9 10 11 12 foo自己指定分隔符print(pd.read_table('ex1.csv', sep=','))如果文件里没有列名称p...
2020-05-07 12:16:11
237
原创 Python Pandas聚合运算
数据处理的最后一步为数据聚合,通常指的是转换数据,是每一个数组生成一个单一的数值。我们已经做过多种数据聚合操作,例如sum( )、mean( )和count( )。这些函数均是操作一组数据,得到的结果只有一个数值。然而,对数据进行分类等聚合操作更为正式,对数据的控制力更强。对分组进行一系列的操作,内置聚合函数df = pd.DataFrame({'key1': ['a', 'a', 'b', ...
2020-05-07 11:45:04
286
原创 Python Pandas的分组运算
分组运算分为三步:拆分 分组 运算拆分:根据什么进行分组应用:每个分组进行什么样的运算合并:把每个分组的计算结果合并起来df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'], 'key2': ['one', 'two', 'one', 'two', 'one'], ...
2020-05-07 10:52:48
520
原创 Python pandas索引
一、重复索引查看是否是相同索引s = pd.Series(np.random.rand(6), index=list('abcbda'))a 0.848267b 0.704451c 0.326481b 0.897240d 0.220018a 0.565038print(s.index.is_unique)False把两个相同的索引进...
2020-05-06 12:17:31
193
原创 Python Pandas基础运算
重新修改索引s = pd.Series([1, 3, 5, 6, 8], index=list('acefh'))print(s.reindex(list('abcdefgh')))a 1.0b NaNc 3.0d NaNe 5.0f 6.0g NaNh 8.0把默认数字填充为0print(s.reindex(list('...
2020-04-30 17:21:50
277
原创 Python pandas 核心数据结构
一、用字典表创建Series数据一维d = {'a': 0, 'b': 1, 'd':3}s = pd.Series(d, index=list('abcd'))特性:可以进行索引print(s[0])print(s[:2])print(s[1:3])-0.8877610652118120 -0.8877611 0.904833dtype: float641 ...
2020-04-30 11:57:58
212
原创 Pyhon MovieLens 电影数据分析
把用户信息,评分数据,电影数据创建出来unames = ['user_id', 'gender', 'age', 'occupation', 'zip']users = pd.read_table('users.dat', sep='::', header=None, names=unames) #用此函数来读取数据,用::进行分割,表头是空的rating_names = ['user...
2020-04-29 16:59:55
413
原创 Pandas
一、多重索引tuples = list(zip(*[['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'], ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two...
2020-04-29 15:09:57
183
原创 Python pandas操作
Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。1.创建seriesSeries (Series)是能够保存任何类型的数据(整数,字符串,浮点数,Python对象等)的一维标记数组。轴标签统称为索引。data 参数index 索引 索引值必须是唯一的和散列的,与数据的长度相同。 默认np.a...
2020-04-29 11:08:09
363
原创 Python numpy索引,合并,分割,复制
1.索引import numpy as np #将numpy简写成npa = np.arange(3, 15)print(a)print(a[3]) #一维下标索引b = np.arange(3, 15).reshape(3,4)print(b)print(b[2]) #索引二维数组的行数print(b[2][2]) #索引二维数组的第几行第几列print(b[2,...
2020-04-25 15:47:38
968
原创 Python numpy基础运算
1.两个数组做减法import numpy as np #将numpy简写成npa = np.array([10,20,30])b = np.arange(3)print(a,b)print(a-b)[10 20 30] [0 1 2][10 19 28]2.对数组中每个值求sin cos tana = np.array([10,20,30])s = np.sin(a)...
2020-04-25 10:57:46
225
原创 Python numpy的简单操作
NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发,2005 年,Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色,并加入了其它扩展而开发了 ...
2020-04-25 10:18:18
180
原创 Python 二叉树
一、二叉树的基本概念二叉树是每个节点最多有两个子树的树结构。通常子树被称作“左子树”(left subtree)和“右子树”(right subtree)二、二叉树的性质(特性)性质1: 在二叉树的第i层上至多有2^(i-1)个结点(i>0)性质2: 深度为k的二叉树至多有2^k - 1个结点(k>0)性质3: 对于任意一棵二叉树,如果其叶结点数为N0,而度数为2的结点总数为...
2020-04-23 00:28:17
316
原创 Python 树
一、树的概念树(英语:tree)是一种抽象数据类型(ADT)或是实作这种抽象数据类型的数据结构,用来模拟具有树状结构性质的数据集合。它是由n(n>=1)个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。它具有以下的特点:每个节点有零个或多个子节点;没有父节点的节点称为根节点;每一个非根节点有且只有一个父节点;除了根节点...
2020-04-19 19:57:37
176
转载 Python的二分查找
搜索搜索是在一个项目集合中找到一个特定项目的算法过程。搜索通常的答案是真的或假的,因为该项目是否存在。 搜索的几种常见方法:顺序查找、二分法查找、二叉树查找、哈希查找一 、 二分法查找二分查找又称折半查找,优点是比较次数少,查找速度快,平均性能好;其缺点是要求待查表为有序表,且插入删除困难。因此,折半查找方法适用于不经常变动而查找频繁的有序列表。首先,假设表中元素是按升序排列,将表中间位置...
2020-04-19 17:54:15
208
原创 Python归并排序及常见排序算法的比较
一、归并排序归并排序是采用分治法的一个非常典型的应用。归并排序的思想就是先递归分解数组,再合并数组。将数组分解最小之后,然后合并两个有序数组,基本思路是比较两个数组的最前面的数,谁小就先取谁,取了后相应的指针就往后移一位。然后再比较,直至一个数组为空,最后把另一个数组的剩余部分复制过来即可。二、Python代码实现def merge_sort(alist): """归并排序"""...
2020-04-19 17:20:03
225
基于matlab的深度学习的视觉场景识别.zip
2020-04-10
基于matlab区域生长的肝影像分割系统.zip
2020-04-10
基于matlab的最小误差法的胸片分割系统.zip
2020-04-10
基于matlab的小波变换的数字水印技术.zip
2020-04-10
基于 Mtlab/Simulink 进行图像和视频处理.zip
2020-04-10
基于 K-means 聚类算法的图像区域分割.zip
2020-04-10
基于matlab的路面裂缝检测识别系统设计.zip
2020-04-10
基于matlab的GUI搭建通用视频处理工具.zip
2020-04-10
基于 matlab的Harris 的角点特征检测.zip
2020-04-10
基于matlab的Hu不变矩的图像检索技术.zip
2020-04-10
基于matlab小波的图像压缩技术.zip
2020-04-10
基于matlab霍夫曼图像压缩重建.zip
2020-04-10
基于matlab块匹配的全景图像拼接.zip
2020-04-10
基于matlab小波技术进行图像融合.zip
2020-04-10
基于matlab不变矩的数字验证码识别.zip
2020-04-10
基于matlab的特征匹配的英文印刷字符识别.zip
2020-04-10
基于matlab的知识库的手写体数字识别.zip
2020-04-10
基于matlab的主成分分析的人脸二维码识别.zip
2020-04-10
基于matlab的GUI工具的阈值分割的车牌定位识别.zip
2020-04-10
arduino ESP12F 8266 wifi天气预报.rar
2020-03-18
MATLAB最优化计算20例.rar
2020-03-17
霍夫曼Huffman编码译码GUI界面设计.rar
2020-03-17
基于matlab的人脸检测K-L的人脸识别.rar
2020-03-17
基于matlab的在线电机PMSM仿真模型.rar
2020-03-17
基于matlab的神经网络字母识别.rar
2020-03-17
GPS仿真程序.rar
2020-03-15
基于matlab对噪声图像进行滤波仿真
2020-03-15
积分和微分视频及例子.rar
2020-03-15
仿真里德-穆勒(Reed-Muller)码在AWGN信道中的性能,调制采用bpsk.rar
2020-03-15
s整数小波分解图像.rar
2020-03-15
mimo信道模型MATLAB程序.rar
2020-03-15
模拟surface plasmon的随着不同角度变化的电磁场分布.rar
2020-03-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人