- 博客(127)
- 资源 (24)
- 收藏
- 关注
原创 数据产品之我见
我做数据产品已经整整两年了,从最开始的时候最简单的数据分析,了解数据内容,了解数据内容和业务之间的关系,到后来的慢慢的负责的一个数据产品,之后两个到多个数据产品,我接触的东西越来越多,对于数据产品的信念越来越强烈。现在都在说大数据,但是如果没有数据产品,所有的数据就是丢在角落里面的垃圾,没有任何价值。 数据不能脱离场景来存在,数据是有能量的,我要做的东西就是把这种...
2018-08-12 19:02:11
455
原创 Hadoop启动后无法看到DataNode
首先我查看NameNode没有发现错误,开始以为是Uuid的问题,以前碰到过,就是Namenode和Datanode的的Uuid不一致,导致不能识别,之后删除 /dfs/name(NameNode)和 /dfs/data(DataNode)的 current文件,这样就可以重新生成uuid,但是依旧有问题开始怀疑电脑之间不能识别,但是通过SSH,NameNode可以到任何一台DataNode,
2015-04-27 10:40:25
23387
原创 Linux查找占用的端口,并杀死进程
我要使用4040端口,但是被其他的程序占用了1. 查找占用的程序netstat -apn | grep 4040最后一项显示的是pid和对应的名称2. 杀掉对应的进程,彻底杀死进程kill -9 26105
2015-04-26 22:00:54
68790
4
原创 Spark在VM的hadoop架构基础上安装
cluster配置1 namenode,4 datanode1. 下载Spark和Scala本人下载的是Spark-2.6.0 和 Scala 2.11.6spark下载地址 点击打开链接scala下载地址 点击打开链接2. 解压scala,配置scala的环境变量tar -zxf scala-2.11.6.tgz之后将文件移动到 /usr/lib/scal
2015-04-26 19:57:30
2825
原创 Linux限制网速
因为最近做实验,需要在不同的网速下跑Hadoop程序,查看网速对程序的影响有多大,所以需要有可以控制网速的软件,最后找到一款wondershaper,这款软件确实可以限制网速但是最后出现一个问题我设置了传输限制为100MB,但是施加两者之间的传输速度才仅仅几十K,hadoop框架整个完全瘫痪了,有的时候根本访问不到数据,最后甚至到了都无法SSH到节点了,整个系统瘫痪了,不知道这个wonde
2015-04-14 10:59:20
12118
原创 数据仓库学习(2)
这次主要回答以下几个问题这次的内容会参考书籍《数据仓库》第四版,William H. Inmon中文翻译版1. 什么是数据仓库数据仓库是一种面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策。数据仓库是为企业所有级别的决策制定过程提供的所有类型数据的战略集合。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。数据仓库是根据源自操
2015-04-05 23:51:06
1158
原创 一个菜鸟眼中的大数据(1)
现在这个时代大数据是一个非常火的话题,作为一个计算机的菜鸟,虽然现在是个研究僧,但是没有接触过真正公司的大数据的计算,所有关于大数据的东西都是从网上和自己的研究来得到的,自己没有切身的体会,现在谈谈自己的认识开始我一直以为大数据都是IT行业的事情,和平常人的关系不大,但是13年底我到南京去玩,在南京博物馆外边的公交站等车的时候,居然在广告牌上发现了大数据这个词,而且还是一个娱乐公司提供的大数据
2015-04-04 16:59:34
1612
原创 安装epel到CentOS
系统CentOS 6.2 64.bitepel上有很多现成的软件可以供用户使用,首先要安装epel到CentOS上1. 下载并且安装wget http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarch.rpmsudo rpm -Uvh epel-release-6*.rpm2. 检查是否可用y
2015-03-31 22:21:08
856
原创 Hadoop学习(2)——虚拟机安装
为了做实验,自己在自己的电脑上安装了虚拟机来尝试玩一下Hadoop,安装Hadoop,熟悉Hadoop的运行方式。提前准备安装环境:Windows 7 Enterprise 64 bitMemory: 8GProcess: i7-3770 3.4GHzSoftware: VMware Workstation虚拟机系统:Ubuntu 10.
2015-03-27 19:22:04
1249
原创 数据仓库学习(1)
数据仓库本来从大学的时候我就没有接触过,数据库,数据结构这两门课程有基础,对于数据仓库不是太了解,能够开始接触到数据仓库,最直接的原因就是找工作,我面试京东金融数据仓库的岗位,结果全部的问题全都是关于Hive,大数据背景下,数据仓库的解决方案虽然最后面试失败了,但是我开始对数据仓库感兴趣,数据仓库到底是什么,为什么需要数据仓库,数据仓库到底是怎么建立的,有什么功能等等,这些都困扰着我,
2015-03-26 10:51:45
3077
原创 Hadoop学习(1)
现在自己处于找工作的阶段,而现在我中意的职位有数据分析师,数据挖掘师,还有商业智能,这三者都是通过分析数据,挖掘数据中的价值而作为途径的。所以需要数据挖掘的知识和熟悉数据分析的工作现在数据已经完全已经超出了人们的理解范围,各种各样的大数据,如果要分析数据,就要做大数据平台下的数据分析,而现在大数据平台搞的最好的就是Hadoop,其实我已经接触Hadoop已经有二年半了,但是对于什么是Hadoo
2015-03-23 20:43:49
646
原创 HDFS学习(1)
HDFS全称为Hadoop Distributed File System,是Hadoop框架的核心组成部分,是存储大数据的框架,同时MapReduce为数据计算提供了解决方案。同时我在疑问为什么HDFS会成为Hadoop的核心,而不是其他的,为什么HDFS会适用于大数据的存储,这是由于什么决定了。首先,HDFS是使用流数据访问,我一直不是很明白为什么流式的访问那么快。和流式数据访问相对应的是
2015-03-23 14:56:04
1195
转载 Linux系统下,CPU信息详解(cpuinfo,多核,多线程)
在Linux系统中,如何详细了解CPU的信息呢? 当然是通过cat /proc/cpuinfo来检查了,但是比如几个物理CPU/几核/几线程,这些问题怎么确定呢?经过查看,我的开发机器是2个物理CPU,16核32线程,Intel(R) Xeon(R) CPU E5-2670 0 @ 2.60GHz记录一下,判断的过程和知识。判断依据:1.具有相同core id的c
2015-01-30 11:26:22
12532
转载 How to Plan and Configure YARN and MapReduce 2 in HDP 2.0 如何配置YARN
本人主要讲述如何在一个现有的系统下,配置YARN,这样让整个系统的执行效率更高主要有Reducer的配置数目,每个Reducer可以使用的资源,包括内存和核心As part of HDP 2.0 Beta, YARN takes the resource management capabilities that were in MapReduce and packa
2015-01-29 22:06:16
1440
原创 Hive基础概念
Hive很早以前就听说过,Hadoop是我研究的方向,但是对于Hive,Pig这些用的很少,这次为了京东金融的招聘才开始了解的Hive是大数据平台下的数据仓库管理工具。它可以将简单的SQL语句,逐渐的转化为Hadoop Job,之后进行运行,方便的使用大数据平台进行大数据的计算,而不需要很多的专业知识。百度百科的解释:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据
2015-01-29 16:26:08
1392
原创 《hadoop学习之路》————1. Hadoop 介绍
我学习Hadoop有一段时间了,但是一直都没有整理成博客,散漫的写了一些东西,现在开始有条例的整理一下我的hadoop学习之路 Hadoop是一个分布式的数据库,可以方便的解决大数据的的问题,由三个部分组成:MapReduce,HDFS,HBase。Hadoop最开始的想法是来自google公司,主要来自google发布的三篇论文03年的《The Goog
2014-12-29 14:06:30
1595
原创 hadoop错误提示 exitCode: 1 due to: Exception from container-launch.
1. 在集群上运行hadoop程序有有问题2. 错误提示代码为
2014-11-18 09:59:26
49970
3
原创 Combiner执行顺序引起的错误,无法产生结果
昨天在些Tmporal Join 的代码,算法是将时间分成以阈值为大小的一个个小的区间,之后每隔一定数目的区间为同一个Key,最后一个区间需要送入到下一个Key之中,当我完成代码对的时候发现无法产生结果,通过控制台对输出smap1**6rmap1**0smap2** 6rmap2** 0smap1**16rmap1**0smap2** 16rmap2** 0smap
2014-02-28 14:22:42
2003
原创 JAVA 数据类型的范围
今天写程序的时候遇到一个问题,我在做日期之间的比较,但是当我把两者的差值调节大的时候,结果并没有增多,后来发现当我调节我的阈值的时候,用的是public static final long TEMPORAL_THRESHOLD = 70*24*3600*1000; public static boolean TemporalSimilarity(FlickrData value1,Flic
2014-02-27 16:40:26
946
原创 论程序界面的简洁性
程序界面的简洁性相当于要求程序必须具备单一的功能,不能让用户打开你的应用或者网站之后,20秒后还找不到自己想要的功能,这就是这个软件的失败,如果一个软件的安装还需要一个教程的话,那么这个软件就是失败的,以前windows的安装需要用户找专业的人士,但是现在windows7的安装就相对来说比较简洁,就像是直接安装一个应用程序一样就可以安装一个系统了,这就是一种进步。 微博的成功带动
2014-02-20 12:51:32
1408
原创 war配置到Linux Server的tomcat下
最近需要将写好的Java Web Project 放入到Server中,项目用到的技术(JSF)开始Server中默认安装有Apache2,但是因为Apache只是支持静态的网页,对于这些动态网页无法支持,一般的方式是安装Apache和Tomcat,通过配置让两者结合更好的访问,当访问静态网页时直接访问Apache,如果需要访问动态网页,就通过Tomcat解析之后转给Apache,但是我的项目比较
2014-02-19 18:18:10
2409
原创 Apache And Tomcat的区别
最近在Eclipse + Tomcat 7.0 开发软件,运行良好,之后想发布到Server上去,Server只是安装了Apache2,将项目以war和直接复制的方式都无法运行,后来查询资料得知Apache只是支持静态网页,是一个web服务器,不支持JSP,所以我的程序无法在Apache上正确的运行Tomcat是支持动态网页的,但处理静态页面时,Tomcat不如Apache迅速。T
2014-02-17 16:31:10
887
原创 winEdt找不到指定的文件
当使用WinEdt时,本来运行良好,但是当重新使用的时候,发现出现以下错误Error launching Console Application PDFLaTeX ...Command Line: pdflatex.exe --interaction=errorstopmode --synctex=-1 "practice.tex"Startup Folder: C:\Users\sh
2014-02-17 14:31:41
48369
5
原创 Eclipse 修改编辑字体大小
在菜单栏中点击Window-> Preferences 左侧的菜单General->Appearance->Colors and Fonts ,之后在右侧选择Basic,倒数第二项 Text Editor Block Selection Font,点击Edit进行编辑
2014-02-15 15:18:43
882
原创 Tomcat 安装和配置
系统变量设置,影响系统所有用户。step1:新建:(当变量不存在的时候新建,否则再该变量值的后面直接加上当前变量值即可)变量名:JAVA_HOME变量值:c:program files\java\jdk1.7.0.1_21(注意:后面没有分号,jdk版本自定)step2:新建:变量名:CATALINA_HOME变量值:d:\a
2014-02-15 15:01:30
587
转载 JAVA 注释
一、背景 1、当我们第一次接触某段代码,但又被要求在极短的时间内有效地分析这段代码,我们需要什么样的注释信息? 2、怎么样避免我们的注释冗长而且凌乱不堪呢? 3、在多人协同开发、维护的今天,我们需要怎么样的注释来保证高质、高交的进行开发和维护工作呢? 二、意义 程序中的注释是程序设计者与程序阅读者之间通信的重要手段。应用注释规范对于软件本身和软件开发人员而言尤为重要。并且在流行
2014-02-14 20:43:32
671
转载 如何查看SQL Server2000的版本号
1. select serverproperty('Edition') select serverproperty('ProductLevel') serverproperty函数返回有关服务器实例的属性信息,详细操作可以查看SQL Server2000的联机帮助2.如何查看SQL Server2000是否打补丁,及补丁的版本有两种方法可以实现:一种是查看MS-SQL的关于信息;一种是利用
2014-02-14 20:05:17
8202
原创 中国互联网的战场
中国的大部分行业都落后于世界的一流水平,但是互联网是一个特别的行业,中国的互联网基本上能够保持和美国的同步,世界十大互联网公司之中有三家是中国的企业,虽然由于中国互联网的管制使得国际上大部分互联网公司都无法进入中国市场,或者进入后无法适应中国的国情,很少有国际上的企业可以走的很远的。 中国的现在最牛的企业是百度,阿里和腾讯,这三家公司的成功都有各自不同的原因。百度的成功是李彦宏这样的高技
2014-02-14 19:48:24
875
转载 万网域名查询是否注册接口
万网域名查询接口,可查询域名是否已被注册博文来源:http://blog.youkuaiyun.com/yjflinchong/article/details/8178352因为是免费的,所以如果查询频率过高,可能会被封IP接口1:http://pandavip.www.net.cn/check/check_ac1.cgi?domain=baidu.com返回值1:
2014-02-14 16:40:37
8986
原创 Spatial Join in SIGMOD(1993-1997)
SIGMOD 全称是Special Interest Group on Management Of Data,是Database方向最顶级的会议,如果谁能够在其上发表一篇文章,毕业和找工作都是没有任何问题的,和VLDB,ICDE并称为数据库方向的三大顶级会议空间数据库主要是存储空间信息的数据库,一般来说空间信息很难用关系数据库来进行存储,但是还是有很多的人在这方面进行了努力,专门设计了Spat
2013-11-29 09:32:09
1244
原创 大秦帝国之商鞅变法
秦国我没想到秦孝公即位时,秦国是那样的一个烂摊子,秦献公时,连年征战,把很多没有解决的问题都留给了下一任,留给了秦孝公,赢虔是嬴渠梁的大哥,也是秦国的合法继承人,但是秦献公想到了自己连年征战,下一代就不能再是这么过了,嬴渠梁就这样接手了,虽说是战国时期七大国之一的国君,但是过的没有齐国的一个士子的待遇之好 今晚我看完了大秦帝国之黑色裂变,体会到那个时代的真性情,真正的汉子,商鞅和秦
2013-06-28 15:57:56
2005
原创 Scala的数据类型
1. Every class inherits from a common super class named Any2. the basic methods in the Anyfinal def ==(that: Any): Booleanfinal def !=(that: Any): Booleandef equals(that: Any): Booleandef hashC
2013-06-21 19:25:50
2966
原创 Hadoop入门WordCount代码
/** * calculate the count of the words in the document * the code is base on the hadoop-1.0.4 and Java 1.7 * */import java.io.IOException;import java.util.StringTokenizer;import org.apache.ha
2013-06-21 18:16:31
3172
原创 计算自2000年1月1日起,N天后的日期
/** * calculate the date from 2000-1-1 after a number of days */import java.text.SimpleDateFormat;import java.util.Calendar;public class TwoThousandDate { public void getCurrentDate(int dump,Da
2013-06-21 03:30:23
5005
原创 将字符串中的字母倒序,数字顺序保持不变
/** * * convert the characters not the number in the string * */public class Demo { public static void main(String[] args) { Demo demo = new Demo(); String inputStr = "I am a student no12
2013-06-21 03:07:17
4528
原创 检查域名是否可用
1.使用万网给出的API接口http://panda.www.net.cn/cgi-bin/check.cgi?area_domain=baidu.com返回的结果为200baidu.com211 : Domain name is not available2.使用java接收URL返回的数据,如果返回的数据内有“Domain name is avai
2013-06-20 17:05:16
4259
原创 使用javascript选中页面表格中的某一行,并且取值
使用javascript进行操作 var curRow; //全局行号 var curRowId; //选中行的记录信息的ID var curColor; function selectRow(tr){ if(curRow){ curRow.bgColor = curColor; curColor = tr.bgColor; tr.bgColor = "#
2011-08-22 09:05:34
5743
原创 select的onchange事件
function select(s){ txt.value =s; //选择后,让第一项被选中 document.all.sel.options[0].selected = true; }请选择Item1Item2Item3运行的效果如下当点击select,选择某一条option时,这个记录发生改变,处罚onchage事件oncl
2011-08-21 08:17:52
11180
Silverlight_Developer
2010-11-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人