
数据科学&实战
关于数据科学的学习~
xiaotang_sama
这条街上最快乐的代码仔
展开
-
【数据处理】【使用技巧2】SAS/SQL 根据共同字段将两行数据进行汇总合并
导读: 最近在数据处理和分析过程中,遇到一个问题:用户A在不同的月份具有两个分数,如何使用SAS来汇总这个分数使得其变成一行中的两个字段。问题实例:xaccountscorescore_date190020200731180020200831转化为:xaccountscore_firstscore_last1900800解法: 通过SAS的retain+first+last实现合并data a;input xaccount原创 2020-08-22 22:03:45 · 2959 阅读 · 2 评论 -
【机器学习】【无监督学习】【算法01-理论2】Apiori算法-关联规则获取
之前的章节分析了如何从原始数据集合中获取频繁项集,并且给出了代码演示,如需要请访问以下链接【机器学习】【无监督学习】【算法01-理论1】Apiori算法-筛选频繁集【机器学习】【无监督学习】【算法01-代码实现】Apiori算法-筛选频繁集接下来进行关联分析的第二个步骤讲解:关联规则获取1 理论解释在筛选频繁集的理论部分,我们已经提到关联分析其实总共就是两个步骤:频繁项集发现、关联规...原创 2020-04-02 22:14:39 · 613 阅读 · 0 评论 -
【机器学习】【无监督学习】【算法01-代码实现】Apiori算法-筛选频繁集
本节将会对于Apriori算法的频繁集筛选过程,进行代码的展示1 回顾上节提到,对于Apriori算法来说,其核心价值是在关联分析的两个过程,即筛选频繁项集、关联规则获取的过程中,使得过程更加简便。首先,回顾一下Apriori算法中使得计算过程变得简便的原理(Apriori原理):如果某个项集是频繁的,那么它的所有子集也是频繁的反之,如果一个项集是非频繁集,那么 它的所有超集也是非...原创 2020-03-31 18:10:43 · 1021 阅读 · 0 评论 -
【机器学习】【无监督学习】【算法01-理论1】Apiori算法-筛选频繁集
Apriori算法Apriori算法是一种用于进行关联分析的算法,在Agrawal 等人提出的1993最初提出的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则。接着,有更多的研究人员加入了关联规则的发掘研究中来,今天先暂时介绍最经典的Apriori算法1.引入关联分析:关联分析指的是在大规模数据集和中寻找关系的任务。一般来说,数据集合中的关系分为两...原创 2020-03-30 16:50:02 · 754 阅读 · 0 评论 -
【数据处理】【使用技巧1】Python中,按照特定元素对List进行切割
导读: 在所有的数据分析过程,数据处理环节费时费力,数据的不工整或者数据的一些特定,以及我们想要处理的角度不同,都会带来一些处理上的问题。问题阐述: 对于一个Python中的List,若是想要根据某一元素对List进行切割,使得前后划分为两个不同的列表并返回如何操作?适用背景: 例如对于数据带有周期性标志的数据。或者是你想要相同元素之间的一段数据。参数解释: list_ori:传入的想要处理...原创 2019-12-26 15:10:59 · 4858 阅读 · 0 评论 -
【机器学习】【监督学习】【算法01-实例03】K近邻(k-nearest neighbor)-手写识别
0 数据说明手写识别也是一个非常经典的应用实例。在本次应用当中,数据的格式如下:File name:‘_’为划分,前为标签,后为例子数。例如‘0_0’就是0的手写体的第一个实例。内容:文本内容为32×32 的1-0像素存储的点,如果使用img可视化,可以看到黑白的数字的效果。待会需要处理成1*1024矩阵的形式。1 数据处理这一步需要比较注意的点是:使用readline()方法...原创 2019-12-17 15:51:57 · 266 阅读 · 0 评论 -
【机器学习】【监督学习】【算法01-实例01】K近邻(k-nearest neighbor)-改进约会网站的配对效果
数据以及代码参考来源:<机器学习实战>0.必要的库from numpy import *from KNN import classify0 #这里存的是我写在KNN.py中的分类器代码import matplotlibimport matplotlib.pyplot as plt1.获得数据:从文本中读取数据注意:笔者在这里对此函数进行了修改,主要是添加了...原创 2019-12-16 21:10:55 · 255 阅读 · 0 评论 -
【机器学习】【监督学习】【算法01-代码实现】K近邻(k-nearest neighbor)实现细节
根据在《机器学习实战》这本书的代码和演示实例,给出KNN算法的实现细节,其中也包括一些数据分析中常用的用法的构建。1.KNN分类器构建#四个参数,分别是待判定的向量x,训练集,标签,k值def classify0(inX,dataSet,lables,k): # 计算dataSet第一维的长度,一般来说,这里计算的就是实例个数 #请注意,这里的0是数组中的用法,指的是0维,这...原创 2019-12-16 19:36:48 · 364 阅读 · 0 评论 -
【机器学习】【监督学习】【算法01-实例02】K近邻(k-nearest neighbor)-鸢尾花
鸢尾花的分类实例是一个非常经典的例子。我们首先从数据集的结构特点来开始。1.数据集的加载# 从sklearn.datasets 导入 iris数据加载器。from sklearn.datasets import load_iris# 使用加载器读取数据并且存入变量iris。iris = load_iris()# 查验数据规模。#如果想要在pycharm这类的编辑器里面显示,加上pri...原创 2019-09-29 18:06:41 · 631 阅读 · 0 评论 -
【机器学习】【监督学习】【算法01—理论】K近邻(k-nearest neighbor)
从本节博客开始,我们直接进入具体的机器学习算法以及应用上,笔者暂时的想法是每一个算法都分成两个部分。第一个部分是算法原理,包括算法的描述,数学的内容。第二部分是一个应用的实例,来加深对于算法的理解。K-近邻算法KNN算法是由Cover和Hart在1968年提出,是一种简单而典型的机器学习的监督式学习算法。今天要整理的K-近邻算法是监督学习中最简单的一种,如果简单实现的话,我们只需要提...原创 2019-09-29 12:03:14 · 476 阅读 · 0 评论 -
【竞赛02-b】元胞自动机
0 引入我们在介绍或者了解一个东西之前,我个人认为比较好的地方就是1 元胞自动机概念/定义标准元胞自动机是一个由「元胞、元胞状态、邻域和状态更新规则」构成的四元组,用数学符号可以表示为A=(L,d,S,N,f)A代表一个元胞自动机系统L表示元胞空间d表示元胞自动机内元胞空间的维数,是一正整数S是元胞有限的、离散的状态集合N表示某个邻域内所有元胞的集合f表示局部映射或局部规则。...原创 2019-09-28 20:09:03 · 3061 阅读 · 1 评论 -
【竞赛02-a】【题解】第十二届电工杯全国大学生数学建模大赛B题
赛题:第十二届电工杯全国大学生数学建模大赛B题露天停车场停车位优化设计问题的研究摘要本文针对露天停车场停车位优化问题,考虑不同类型停车场中,在确保车辆进出自由的情况下,综合考虑停车场地、消防等各方面限制因素,以提高停车场空间利用率,使停车场获得较大停车能力为目标,建立停车场车辆停放优化模型,得到停车场设计方案及平面示意图,并检验了模型的实用性和算法的有效性。对于问题一,在规定车辆出...原创 2019-09-28 17:49:55 · 7875 阅读 · 7 评论 -
【竞赛01-b】【论文】济南大学第七届数学建模比赛A题论文详解
笔者在18年五月底参加了济南大学第七届数学建模校赛,现在将论文贴出,在博文中,将整理出论文中核心的详细知识点基于 MATLAB 的数字图像处理模型1 摘要本文利用 MATLAB 等工具对题目给出图像进行数字化处理,通过均值法,权 值法,梯度值求解轮廓法,插值法,自动定位人脸等多种不同的方法实现了对问 题一到五的计算机求解和数学模型建立。对于问题一,将人脸部分的像素点三维矩阵分为若干...原创 2019-09-28 10:35:35 · 1782 阅读 · 0 评论 -
【竞赛01-a】【题目】济南大学第七届数学建模比赛A题
济南大学第七届数学建模比赛A题A题 图像处理——原来如此!对于年轻人,自拍和修图是一个常见的娱乐形式。即使一个普通的智能手机,也可以轻松进行各种图像处理,以获取自己想要的效果。那么,这些图像处理的功能是如何实现的呢?利用MATLAB的imread命令,可以获得一张彩色图片的三维矩阵;反之,也有将符合要求的矩阵转化为图片的命令。所谓的图像处理,实际上就是利用一些数学方法修改图片矩阵中的数据,从...原创 2019-09-28 09:05:33 · 519 阅读 · 0 评论 -
【机器学习00】【简介】
近期终于有时间开始写博客了,这是关于kaggle竞赛从入门基础到实际解决一个问题的专题原创 2019-09-26 17:41:57 · 253 阅读 · 0 评论