- 博客(21)
- 资源 (2)
- 收藏
- 关注
原创 【python】透彻解析csv文件
CSV的全称是Comma-Separated Values,故名思议,它通常是由逗号(comma)分隔的文件,当然也可以是其它字符分隔,这里我们仅以逗号为例。在CSV文件中,如果每行字符串中除了逗号分隔符以外其它地方没有出现任何逗号时,我们可以很轻松的将其split为多个value,但是: 1、在value中出现逗号时,该文件格式会自动将其用双引号括起 2、在value中出现双引号是,该文件格式
2017-11-27 13:49:08
985
原创 matplotlib中文显示方块问题
这两天按照彻底解决matplotlib中文乱码问题已经正确配置jupyter notebook用matplotlib中文字体,但是,安装了seaborn并更新了conda之后发现,不管怎么修改~/anaconda/lib/python2.7/site-packages/matplotlib/mpl-data/matplotlibrc都没用,而且已经把目录~/.cache/matplotlib下的所有
2017-10-20 09:46:43
3137
原创 scala中Array、List、Tuple异同
各数据结构是否长度可变? 各数据结构是否内容可变? 各数据结构声明方式有何差别? 各数据结构访问方式有何差异? 从数据结构的角度: 1)Array、List、Tuple都是不可变长的,BufferArray是可变长的 2)Array和List中的元素类型必须相同,Tuple可以存放不同的类型 3)Array元素可变,List、Tuple元素不可变声明的角度: 1) A
2017-09-08 13:12:59
1949
原创 scala创建动态二维数组Array[ArrayBuffer[]]三种写法
下面我们开始创建含有10个ArrayBuffer的Array,即Array(ArrayBuffer[Int])
2017-09-04 09:13:47
6787
原创 scala实现超限学习机(ELM)手写数字分类
超限学习机(Extreme Learning Machine)又叫极限学习机是黄广斌等于2006年提出,属于单隐层前馈神经网络SLFN。其输入权值和隐层阈值随机初始化,通过最小二乘法计算得出输出权值,具有很好的分类和回归性能,与其它机器学习算法相比最大的优势是计算速度快,因为ELM不需要进行迭代。现将实现ELM的scala代码贴出,亲测运行成功,由于内存限制,在本地最高只能运行到900个隐层结
2017-09-03 14:38:57
864
原创 scala如何从文件读取数据并转换成矩阵
本文教你scala如何从文件中读取数据并转换成Breeze矩阵假设文件中数据的保存格式为:每行为一个样本数据,并由‘,’分隔。如:a.txt 1,2,3,4,5,6 2,3,4,5,6,7 3,4,5,6,7,8第一步:读取数据,将每行数据从String转换成Arrayval data = sc.textFile("a.txt")
2017-09-03 14:10:50
5301
转载 spark on yarn cluster 与 client 模式的区别
Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN ),集群管理负责启动executor进程,编写Spark application 的人根本不需要知道Spark用的是什么集群管理。Spark支持的三种集群模式,这三种集群模式都由两个组件组成:master和slave。Master服务(YARN ResourceManager,Mesos master和Spark standalone
2017-07-13 08:47:42
1970
原创 为什么HDFS中的块如此之大?
HDFS中的块大小默认为64MB,为什么说它如此之大,这是与磁盘块相比得出的。所以在了解HDFS块之前,我们需要了解下磁盘上的块。
2017-06-22 08:35:38
4293
翻译 Spark:工作集上的集群计算
摘要:MapReduce和它的变形在大规模数据密集型应用的实现上取得了巨大的成功。然而,多数的这些系统是围绕一个不适合其他流行应用程序的非循环数据流模型构建的。这篇文章把重点放在一类这样的应用程序:那些在多个并行操作中重用一组工作数据的应用程序。这包括许多迭代的机器学习算法,以及交互的数据分析工具。我们提出了一个叫做Spark的新框架,它支持这些应用程序,同时保持了MapReduce的可扩展性和容错
2017-06-20 14:52:47
1731
翻译 Twister: 迭代MapReduce计算框架
这篇文章中,我们提出了一种编程模型和Twister结构,这是一种增强的MapReduce runtime,它支持高效地迭代MapReduce计算。我们也展示了在大型数据并行应用上Twister与其它类似的runtimes的性能比较,如Hadoop和DryadLINQ。
2017-06-15 10:20:52
2255
1
翻译 HaLoop:大集群上高效的迭代数据处理(下)
本文详细了介绍三种在HaLoop上实现的迭代算法:PageRank,Descendant Query,K-means聚类。
2017-06-12 21:11:26
1140
翻译 HaLoop:大集群上高效的迭代数据处理(上)
摘要:超大规模数据挖掘和数据分析需求的日益增长,引领着工业和学术界设计大数据计算平台新模式。MapReduce和Dryad是两种流行的平台,数据流在这两种平台上采用操作符的有向非循环图形式。迭代程序在数据挖掘、网页排名、图像分析、模型拟合等许多应用领域中自然而然地出现了,而这两种平台缺乏对迭代程序的内嵌支持。在这篇文章中会呈现HaLoop,这是一种改进的用来服务于各种应用的Hadoop MapRed
2017-06-09 12:49:12
7159
翻译 基于MapReduce的并行k-means聚类
摘要:在许多应用上,数据聚类已经受到了广泛的关注,比如数据挖掘、文本检索、图像分割和模式识别。随着科技的进步而逐渐扩大的信息量使大数据聚类变成了一个具有挑战性的任务。为了解决这个问题,许多调查研究者尝试去设计一种高效的并行聚类算法。在这篇文章中,我们提出一种基于MapReduce的并行k-means聚类算法,这是一种简单又强大的并行编程技术。实验结果表明所提出的算法可以大规模而且高效地在廉价的硬件上处理大型数据集。
2017-06-02 07:39:50
15380
2
原创 基于apache ambari 的大数据平台搭建并运行WordCount
操作系统:3个 rhel 6.4,内存2g,动态硬盘20g。 虚拟机软件:virtualBox 注意: 1、yum可能要重新安装,可百度解决 1、确保三个host能互相ping通每个host配置DNS vi /etc/hosts为host4安装http服务 yum install httpd用Xftp4软件连接host4的文件系统连接成功后显示进入目录/var/www
2017-05-14 13:05:24
1425
原创 【解决】virtualbox导入虚拟机后不能联网的问题
当你把导出的虚拟机文件(.ova)导入到virtualbox中,发现该虚拟机不能联网,不管在【设置->网络】中切换什么样的网络类型,都无济于事。下面给出解决方法,在看解决方法之前必须保证.ova文件在被导出之前可以正常上网。解决方法: 1、打开文件 vi /etc/udev/rules.d/70-persistent-net.rules 找到eth1对应的mac地址,如:08:00:27:8d
2017-05-03 20:50:10
5742
2
原创 稳健估计/M估计/最小二乘法
稳健估计是在粗差不可避免的情况下,选择适当的估计方法使未知量估计尽可能减免粗差的影响,得出正常模式下的最佳估计。本文先介绍基于最小二乘法的多元线性回归理论,再引出基于M估计的加权最小二乘估计。
2017-02-15 18:13:29
31551
13
原创 径向基网络(RBF)实现函数插值(拟合)
RBF神经网络最初就是是用来解决插值的问题,它可以以无限精度逼近任意连续函数。本文用matlab实现RBF神经网络,并且对不同函数的拟合效果进行比较。
2017-02-11 22:01:41
20373
5
原创 数据库索引背后的数据结构之B-树和B+树
索引是对数据的某种排序方式。索引能够提高数据库查询效率。本文重点讨论B-Tree和B+Tree的结构,并通俗地解释了最左前缀原则。
2016-12-28 13:18:35
6882
2
UCI手写数字集
2017-03-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人