
大数据计算
文章平均质量分 92
Goldxwang
这个作者很懒,什么都没留下…
展开
-
pandas基础学习
pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。pandas 约定俗成的导入方法如下:from pandas import Series,DataFram原创 2017-06-16 16:43:15 · 578 阅读 · 0 评论 -
时间序列预测全攻略(附带Python代码)
http://www.36dsj.com/archives/44065介绍时间序列(简称TS)被认为是分析领域比较少人知道的技能。(我也是几天前才知道它)。但是你一定知道最近的小型编程马拉松就是基于时间序列发展起来的,我参加了这项活动去学习了解决时间序列问题的基本步骤,在这儿我要分享给大家。这绝对能帮助你在编程马拉松中获得一个合适的模型。文章之前,我极力推荐大家转载 2017-06-16 21:29:08 · 51985 阅读 · 6 评论 -
关于使用Sklearn进行数据预处理 —— 缺失值(Missing Value)处理
关于缺失值(missing value)的处理在sklearn的preprocessing包中包含了对数据集中缺失值的处理,主要是应用Imputer类进行处理。首先需要说明的是,numpy的数组中可以使用np.nan/np.NaN(Not A Number)来代替缺失值,对于数组中是否存在nan可以使用np.isnan()来判定。使用type(np.nan)或者type(np.NaN)原创 2017-06-14 11:07:08 · 1538 阅读 · 0 评论 -
使用sklearn优雅地进行数据挖掘
目录1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工原创 2017-06-14 12:42:36 · 626 阅读 · 0 评论 -
数学基础——导数
导数 编辑本词条由“科普中国”百科科学词条编写与应用工作项目 审核 。导数(Derivative)是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f'(x0)或df(x0)/dx。导数是函数的局部性质。一个函数在某一点原创 2017-11-12 17:37:21 · 4986 阅读 · 0 评论 -
简单实现一个人脸检测器(HOG+SVM实现人脸检测)
第一步,准备数据。原始数据采用FDDB人脸检测测评数据集,FDDB是全世界最具权威的人脸检测评测平台之一,包含2845张图片,共有5171个人脸作为测试集。测试集范围包括:不同姿势、不同分辨率、旋转和遮挡等图片,同时包括灰度图和彩色图,标准的人脸标注区域为椭圆形。 当然,为了简单起见,我们不直接使用这个数据集。我的做法是,自己做一些正样本和负样本数据集。正样本,即人转载 2017-12-11 11:54:49 · 1491 阅读 · 0 评论 -
卷积神经网络
卷积神经网络转载请注明:http://blog.youkuaiyun.com/stdcoutzyx/article/details/41596663自今年七月份以来,一直在实验室负责卷积神经网络(Convolutional Neural Network,CNN),期间配置和使用过theano和cuda-convnet、cuda-convnet2。为了增进CNN的理解和使用,特写此博文,以其与人转载 2018-01-30 16:32:13 · 486 阅读 · 0 评论 -
人工智能AI、机器学习模型理解
人工智能就是机器学习和大数据;机器学习是什么:就是算法模型;算法模型是什么:俗地说,模型就是机器学习采用的算法。“模型文件”一般说的是这个算法用到的各种输入、输出数据的值。因为机器学习往往需要大量的运算,所以有必要将中间变量也存入文件中,以便可以多次地运算。机器学习是一类算法的通称,具体到某个算法,那模型的差异就很大了,就算某一类算法(比如神经元网络),它的不同形态(CNN、RNN...原创 2018-10-22 22:05:00 · 40734 阅读 · 0 评论