
Python数据工程
Python数据工程专栏,以python数据处理为起点,逐渐走向机器学习。目标是成为数据工程经典专栏。
文质彬彬online
人生苦短,我爱Python!
展开
-
cifar10数据集离线导入方法程序代码 —— Python数据工程No.11
cifar是一个非常好的图片数据集,其官方网址如下:cifar数据集下载以及数据集说明网址针对tensorflow2对该数据集在线导入速度慢的问题,本文给出cifar10数据集离线导入代码,并给出了详细注释,在此分享:在官网下载得到的数据集压缩包名称为:cifar-10-python.tar.gz数据集下载地址:cifar-10-python.tar.gz解压数据集所得文件夹如下图所示:可以看到有5个训练batch数据,1个测试batch数据。这里每一个batch数据集里有10000张3323原创 2020-07-26 11:50:03 · 1613 阅读 · 0 评论 -
arange、linspace与mgrid生成数组(numpy的API说明) —— Python数据工程No.10
numpy.arange的API详情numpy.arange([start, ]stop, [step, ]dtype=None)该函数返回给定间隔内的均匀间隔的值。参数:start : 可选参数,间隔的开始,并且间隔包括该值。默认起始值为0。end : 间隔结束,并且该间隔不包括此值。step : 可选参数,值之间的间距。对于任何输出out,这是两个相邻值out [i+1]-out[i]之间的距离。默认步长为1。如果将step指定为位置参数,则还必须指定start。dtype原创 2020-07-24 10:41:51 · 413 阅读 · 0 评论 -
PCA主成分分析算法 —— Python数据工程No.9
主成分分析(Principal Component Analysis, PCA)PCA是一种最常用的降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理。PCA可以把具有相关性的高维变量合成为线性无关的低维变量,成为主成分。主成分能够尽可能保留原始数据的信息。相关术语:方差(variance)方差是各个样本和样本均值的差的平方和的均值,用来度量一组数据的分散程度。s2=∑i=1n(xi−x)2n−1{{s}^{2}}=\frac{\sum\nolimits_{i=1}^{n}{{原创 2020-07-16 19:15:47 · 443 阅读 · 0 评论 -
插值方法 —— Python数据工程No.8
1 插值方法的基本概念:在实际问题中,一个函数y=f(x)y=f(x)y=f(x)往往是通过实验观测得到的,仅已知函数f(x)f(x)f(x)在某区间[a,b][a, b][a,b]上一系列点上的值:yi=f(xi),i=0,1,...,ny_{i}=f(x_{i}),i=0,1,...,nyi=f(xi),i=0,1,...,n。当需要在在这些节点x0,x1,...,xnx_{0},x_{1},...,x_{n}x0,x1,...,xn之间的点xxx上的函数值时,常用较简单的、满足一定条件的原创 2020-07-06 18:47:30 · 2223 阅读 · 0 评论 -
使用神经网络训练iris数据集 —— Python数据工程No.7
数据介绍:iris数据集的数据有4个属性,分别为:花萼长、花萼宽、花瓣长、花瓣宽这些数据是对三种鸢尾花——狗尾鸢尾、杂色鸢尾、弗吉尼亚鸢尾——采样生成的。部分数据如下图所示:数据特征示例:数据标签示例:因此我们输入的数据特征为14矩阵,输出的数据标签为13矩阵分别记为X,Y。由此,我们可以搭建BP神经网络如下图所示:此时X = [x0, x1, x2, x3],Y = [y0, y1, y2]。w = [[w00, w01, w02], [w10, w11, w12], [w20, w21原创 2020-06-11 17:00:27 · 1898 阅读 · 0 评论 -
DBSCAN聚类算法的应用 —— Python数据工程No.6
DBSCAN算法是一种基于密度的聚类算法,与kmeans算法不同的是,DBSCAN算法在聚类的时候不需要预先指定簇的个数,最终簇的个数也是不确定的。DBSCAN算法将数据点分为三类,分别是:核心点、边界点、噪音点。核心点的概念:在聚类半径内含有超过MinPts数目的点;边界点的概念:在聚类半径内点的数量少于MinPts,但是落在核心点的邻域内;噪音点的概念:既不是核心点,又不是边界点的点。步骤:将所有点标记为核心点、边界点或噪声点;删除噪声点;为距离在Eps之内的所有核心点之间赋予一条边;原创 2020-06-04 19:55:39 · 1230 阅读 · 2 评论 -
K-means聚类算法的应用——Python数据工程No.5
k-means算法:以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,簇间的相似度较低。步骤:1.随机选择k个点作为初始的聚类中心;2.对于剩下的点,根据其与聚类中心的距离,将其归于最近的簇;3.对每个簇计算所有点的均值作为新的聚类中心;4.重复步骤2、3,知道聚类中心不再改变。实现方法:sklearn.cluster.Kmeans案例:根据1999年全国31个省份城镇居...原创 2018-12-30 15:43:48 · 5521 阅读 · 1 评论 -
tensorflow的基本函数用法——Python数据工程No.4
这里简单明了地给出了函数简介,详细使用方法代码见blog附带code创建张量的方法方法1 : 利用tf.constant(tensor_content, dtype=data_type)函数tensor_content一般用列表表示,将其转换为data_type类型的tensor方法2 : 利用tf.convert_to_tensor(data_name, dtype=data_type)函数convert_to_tensor函数将numpy格式的数据转换为data_type类型的tensor数据原创 2020-05-26 22:28:38 · 502 阅读 · 0 评论 -
基本统计数据可视化——Python数据工程No.3
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar原创 2020-05-20 16:19:36 · 825 阅读 · 0 评论 -
基本语法元素的格式输出(一次性彻底入门python)—— Python数据工程No.2
一份Python代码彻底入门Python,Simple and Rough!注释详细~from operator import itemgetterfrom datetime import date, time, datetime, timedeltafrom math import exp, log, sqrtimport re#Print a simple stringprin...原创 2020-05-05 11:20:07 · 649 阅读 · 1 评论 -
基本文件操作——Python数据工程No.1
获取当前Python程序运行路径import osprint(os.getcwd())自动处理路径链接import osprint(os.path.join('project', 'all'))文件、文件夹的输出import osfiles = os.listdir()for file in files: print(file, os.path.isdir(file))...原创 2020-05-02 15:44:45 · 641 阅读 · 0 评论