jjfnjit-优快云博客

转载 HBase技术介绍

0 原文章地址1 HBase简介HBase：Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。Hadoop HDFS为HBase提供了高可靠性的底层存储支持；Hadoop MapReduce为HBase提供了高性能的计算能力；Zookeeper为HBase提供了稳定服务和failover

2016-10-18 13:15:43 460

原创 scala学习(数组，元组)

1. 数组相关操作如果需要一个长度不变的数组，可以用Scala中的Array，提供初始值时不要使用newval nums = new Array[Int](10) //10个整数的数组，所有元素初始化为0val s = Array("hello","world") //提供初始值时，不需要使用new对于长度按需要变化的数组，可以使用Scala中的ArrayBuffer

2015-12-23 22:19:45 6337 1

原创 Scala学习（基础，控制结构）

1. 基础以val定义的值是常量val a = 0 //a的值是不可变的以var定义的值是变量var b = 0 //b的值是可变的不需要给出值或变量的类型，这个信息可以从你用来初始化它得表达式推断出来，声明值或变量但不做初始化会报错在Scala中，变量或者函数的类型总是写在变量或者函数的后面val c: String = "hello"

2015-12-23 21:13:07 1056

原创 Spark机器学习3

3. Spark上数据的获取、处理与准备3.1 获取公开数据集MovieLens数据集：包含表示多个用户对多部电影的10万次评级数据，也包含电影元数据和用户属性信息。下载数据集，解压unzip ml-100k.zip会创建一个名为ml-100k的文件夹，进入文件夹 cd ml-100k其中重要的文件有u.user（用户属性文件）、u.item（电影元数据）和u.data（用户对电影的评级）

2015-11-18 17:31:56 1956

原创 Spark机器学习2

2. 设计机器学习系统

2015-11-18 17:30:21 655

原创 Spark机器学习5

5. Spark构建分类模型分类是监督学习的一种形式，我们用带有类标记或者类输出的训练样本训练模型。5.1 分类模型的种类Spark中常见的三种分类模型：线性模型、决策树和朴素贝叶斯模型。线性模型：简单而且相对容易扩展到非常大的数据集决策树：一个强大的非线性技术，训练过程计算量大而且较难扩展，但是在很多情况下性能很好。朴素贝叶斯模型：简单，易训练，并且具有高效和并行的优点

2015-11-02 12:17:23 2109

原创 Centos 6.5 CM5.3.2和CDH5.3.2安装

1. CM-5.3.2安装

2015-10-13 15:09:22 1587

原创 Spark机器学习1

1. Spark的环境搭建与运行Spark的本地模式与集群模式完全兼容，本地编写和测试过的程序仅需增加少许设置便能在集群上运行。任何Spark程序的编写都是从SparkContext（或用Java编写时的JavaSparkContext）开始的。SparkConf对象包含了Spark集群配置的各种参数，SparkContext的初始化需要一个SparkConf对象。要想通过Scala来使

2015-10-13 14:14:45 1120

转载 Spark1.0.2 Standalone 模式部署

节点说明 IP 用户名主机名角色 10.6.2.109 hadoop client Spark客户端 10.6.2.111 hadoop master HDFS(NameNode,SecondNameNode)；Spark（Master,Worker） 10.6.2.112 hadoop worker1 HDFS（DataNode）；

2015-09-12 17:17:21 559

原创 hadoop HDFS常用文件操作命令

hadoop HDFS常用文件操作命令命令基本格式:hadoop fs -cmd 1.lshadoop fs -ls /列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /列出hdfs文件系统所有的目录和文件2.put hadoop fs -put hdfs file的父目录一定要存在，否则命令不会执行hado

2015-04-17 10:02:24 723

jjfnjit的专栏