- 博客(19)
- 资源 (1)
- 收藏
- 关注
原创 深度学习基本概念
损失函数loss function,衡量预测值与真实值之间的误差,如平方误差函数square loss。模型训练中,希望找到一组参数,使得训练样本的平均损失最小。优化算法1)解析解。2)数值解。小批量随机梯度下降,mini-batch stochastic gradient descent选取⼀组模型参数的初始值,如随机选取; 接下来对参数进⾏多次迭代。在每次迭代中,先...
2020-02-14 17:53:53
409
原创 一个使用kindle近3年的菜鸟的几点建议
为什么kindle出现很晚而配置比较低,大一点的pdf文件阅读不了?和同事讨论了一翻,其实kindle如果做成高配置,弄个大容量内存,双核cpu,再接上键盘喇叭,看书时候放点音乐,有必要么?这就不是kindle了,这是ipad。kindle能够让用户专心看书不被其他干扰,其他都是多余。专心做好最重要的一件事,做到极致,也就成功了。内存低一些,没有音乐视频播放功能,从某种角度说,恰恰给了用户安心阅读的环境。不是么?
2016-07-31 21:07:04
10991
原创 HDPCD:Java认证考试经验总结
因公司使用Hortonworks的Hadoop产品,最近我参加了HDPCP:Java(Hortonworks Certified Java Developer)资格认证考试。自去年11月参加HDP培训开始,至7月16日晚参加在线认证考试,共经历了半年多时间。在这段时间里,搭建本地伪分布式Hadoop环境,每天看书复习,学习网上资料,写code练手,从零开始学习直至参加考试获得认证,过程艰苦并快乐。这里记录下来,供后续参加认证的同学参考借鉴。
2016-07-22 11:56:11
1770
翻译 (hadoop学习-4)Reduce side join
利用mapreduce实现两个表reduce side join操作,比提供rawcomparator进行优化
2016-06-29 14:21:19
461
翻译 (hadoop学习-3)Total Order Partitioner
总结mapreduce的TotalOrderPartition方法,提供具体流程和关键代码实现。
2016-06-15 09:32:12
1454
原创 Hadoop开发相关问题总结
总结自己在Hadoop开发中遇到的问题,主要在mapreduce代码执行方面。大部分来自日常代码执行错误的解决方法,还有一些是对JAVA、Hadoop剖析。对于问题,通过查询stackoverflow、csdn找到了解决方法。汇总出来以后查询方便。内容将不定期更新。
2016-06-14 15:23:26
4111
翻译 (hadoop学习-1)mapreduce实现数据过滤、聚合与排序
利用mapreduce实现数据过滤、聚合与排序。文章翻译自http://blog.ditullio.fr,并提供源代码。
2016-06-13 10:29:09
3936
原创 伪分布式hadoop搭建步骤
1.从hadoop官方网站(hadoop.apache.org)下载hadoop安装包。解压缩后放到本地,非中文路径下。2.修改hadoop目录etc/hadoop文件夹内相关配置文件。如果配置文件没有该属性,需要增加。1)配置core-site.xml文件的defaultFS、hadoop.tmp.dir fs.defaultFS hdfs://localho
2016-04-23 09:48:49
377
原创 二次排序说明
hadoop二次排序,把部分value移至key,组成新class,作为mapreduce框架的新key进行计算。下面根据hadoop2.7.1源代码中样例程序secondarysort.java,总结二次排序相关方法。package org.apache.hadoop.examples;import java.io.DataInput;import java.io.DataOutput
2016-04-23 09:47:39
498
原创 关于hadoop wordcount的几种实现
Wordcount是hadoop的入门程序,类似其他程序语言的hello world程序一般。这个程序简短,但是不简单。通过多种方式实现,加强对mapreduce理解,大有好处。下面是最近我学习hadoop总结,利用wordcount把Secondary sort、In Map aggregation、Task wordflow串起来,供以后查阅。实现方法1:常规方式计
2016-03-07 20:51:44
634
原创 (大数据分析-2)mapReduce Review
1 mapReduce基本原理及介绍HDFS提供分布式存储,mapReduce提供并行计算框架。mapReduce主要特点:提供并行计算能力,随着节点增加近似线性递增分而治之思想编程结构透明1.1 基本原理1.1.1 job和taskjob是客户端要求执行的一个工作单元,输入数据、mapReduce程序、配置task是mapreduce作业拆分的
2015-09-16 10:41:06
458
原创 (大数据分析-1)HDFS Review
1 HDFS基本原理及介绍1.1 基本原理HDFS仅负责存储数据,mapReduce负责读写数据设计目标:大文件存储(TB、PB)、高容错(软件容错,数据多份拷贝)、高吞吐不适合场景:存储大量小文件、随机读取、低延迟读取1.1.1 HDFS基本概念数据块(block)大文件会被分割为多个block(默认128M存储,小于一个块的文件不会占
2015-09-16 10:38:31
722
原创 利用EXCEL+ACCESS分析大数据量文件
今晚加班统计汇总70多万行EXCEL数据,对每行数据进行15次VLOOKUP查找后,EXCEL毫无悬念地失去响应,CPU立刻达到100%。和老婆看了1个多小时元宵晚会后回来一看,结果依然没有算出来。突然想起之前看过一本书《让EXCEL飞》,提到海量数据用EXCEL+ACCESS进行分析。尝试一下,10分钟完成全部查询,其中大部分时间还是花在EXCEL文件处理上。这里对操作步骤简单记录: 1
2014-02-15 01:09:10
7309
原创 R语言与数据挖掘(一)
要点:1)数据可视化:直方图hist()、QQ图qq.plot()、箱图boxplot()、二维箱图bwplot()2)空值处理:查找complete.cases()、空值删除na.omit()、均值/中位值填充mean()/median()3)多元回归:lm()4)回归树:rpart()5)模型选择/交叉验证:6)模型预测:1、问题描述监测和早期预测有害海
2013-04-18 00:37:41
2053
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人