- 博客(46)
- 收藏
- 关注
原创 我的小锦囊之Hadoop集群的启动命令以及经常遇到的小问题
每天启动Hadoop集群时都会打开这份txt文档,现在看来觉得这份文档才是精髓,看一眼,就能理一遍思路。如下的命令中,有启动Hadoop集群的,zookeeper集群的,hbase的,启动spark的,当然还有像Pig、Hive这些,直接输入就能进入。总之,如果没有下面这个文档,每天遇到一些问题可能会毛手毛脚,甚至可能因为睡得懵懵的而忘了启动路径....1.启动hadoop集群
2016-12-29 09:30:51
875
原创 基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统(三) 作业里的拓展
20161205spark第四次作业使用Spark ALS explicit训练,得到模型,并进行评价;要求:1. 代码(只需要保留评价代码,建模代码,数据分割代码即可);2. 相关图表(建模截图(包含参数)、评价截图、不同k值precesion、recall表格及图);3. 测试数据集保留不超过10个用户即可;4. 不同模型对比(1,2,3再做一遍,对比,可选)
2016-12-24 21:21:32
1753
原创 基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统(二)代码实现
上接基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统(一)1. 设置不打印一堆INFO信息(减少打印量 保证Shell页面清晰干净) sc.setLogLevel("WARN")2. 导入相关recommendation包中相关类,加载数据,并解析到RDD【Rating】对象①导入相关recommendation包,
2016-12-24 21:15:43
2096
原创 flume流(二)如何在hadoop集群中安装flume流?(待补充图片)
二、如何在hadoop集群中安装flume流?1)将下载的flume包上传到/usr/local,解压到/usr/local目录中tar –zxvf apache-flume-1.6.0-bin.tar.gz -C /usr/localls后看到apache-flume-1.6.0-bin2)修改 flume-env.sh 配置文件,主要是JAVA_HOME变量设置
2016-12-24 21:09:39
636
原创 法律网推荐(二) 用Pig进行数据预处理
上接法律网推荐(一) 用Hive进行数据探索分析 3)数据预处理 1. 数据清洗 2. 数据变换 3. 属性规约通过上述网址类型分布分析,后续分析中,选取其中占比最多的两类(咨询内容页、知识内容页)进行模型分析。可以发现一些与分析目标无关的数据清洗规则:实验内容:数据清
2016-12-24 21:06:00
1085
原创 flume流(三)如何用flume流从本地传输文件到hdfs?
flume流有三篇文章一、flume流是什么?.properties文件内部应该怎么写?二、如何在hadoop集群中安装flume流?三、如何用流从本地传输文件到hdfs??本篇讲解如何用流从本地传输文件到hdfs??1.新建/flume_data目录,在该目录下新建名为2014的文件夹,将law_utf8.csv文件放入flume_demo中,与2014文
2016-12-24 18:06:35
2077
原创 基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统(一) 协同过滤算法概述&&基于模型的协同过滤的算法思想(算法模型和结构待补充)
本文基于Spark MLlib平台实现一个向用户推荐电影的简单应用。其中,主要包括三部分内容:一、协同过滤算法概述二、基于模型的协同过滤应用---电影推荐三、实时推荐架构分析一、协同过滤算法概述 关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电
2016-12-24 16:53:02
2299
原创 我为什么整理算法?
2016年12月21日我登录优快云,看到优快云对我说:编程中最没用的东西是源代码,最有用的东西是算法和数据结构。我决定把我知道的算法整理一下。
2016-12-21 12:12:48
422
原创 Pig Hive相关小问题学习网址
1.PageRank算法简介及Map-Reduce实现http://blog.jobbole.com/71431/2. pig学习笔记http://blog.youkuaiyun.com/shifenglov/article/details/385845273.Hive 学习笔记(三)http://blog.youkuaiyun.com/gg584741/article/details
2016-12-13 16:47:08
292
原创 Pig flume流配置文件
1)将下载的flume包上传到/usr/local,解压到/usr/local目录中tar –zxvf apache-flume-1.6.0-bin.tar.gz -C /usr/localls后看到apache-flume-1.6.0-bin2)修改 flume-env.sh 配置文件,主要是JAVA_HOME变量设置[root@master apache-flume-1
2016-12-13 16:46:20
331
原创 scala交互式操作 reduceByKey mapValues
scala> val c = sc.parallelize(List("aaa","b","b","c"))c: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[8] at parallelize at :21//做一个映射scala> c.map(x => (x,x.length))res7: org.ap
2016-12-13 16:44:55
8358
原创 scala_ALS
import org.apache.spark.mllib.recommendation._val data = sc.textFile("/root/cccc.txt").map(_.split(",") match {case Array (user,product,rating) => Rating (user.toInt,product.toInt,rating.toDouble)})
2016-12-13 16:44:20
630
原创 IDEA+MR实现ALS
1.环境导入spark-1.4.1-bin-hadoop2.6压缩包lib目录下的spark-assembly-1.4.1-hadoop2.6.02.IDEA代码package demoimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.recommenda
2016-12-13 16:42:29
741
原创 hadoop出错后如何查看logs 然后格式化
cd $HADOOP_HOME sbin/start-dfs.sh jpscd /data/cd cd $HADOOP_HOME lscd $HADOOP_HOMElscd logs/ls cat hadoop-root-namenode-master.centos.com.log tail -n 500 hadoop-root-namenode-ma
2016-12-13 16:40:30
1565
原创 ALS思路+代码(全) (待整理)
sc.setLogLevel("WARN")//设置不打印一堆INFO信息(减少打印量 保证Shell页面清晰干净)一:导入相关recommendation包中相关类,然后加载数据,并解析到RDD【Rating】对象①导入包,recommendation._是导入recommendation包中全部的类scala> import org.apache.spark
2016-12-13 16:39:00
2427
原创 Centos6.7虚拟机配置Spark1.4.1(安装包链接待整理)
1. 通过xmanager的Xftp上传spark-1.4.1-bin-hadoop2.6.tgz文件到/usr/local目录2. 解压缩spark-1.4.1-bin-hadoop2.6.tgz文件tar -zxf spark-1.4.1-bin-hadoop2.6.tgz解压后即可,看到/usr/local/spark-1.4.1-bin-hadoop2.6文件夹
2016-12-13 16:37:56
442
原创 用Hive+Hadoop集群实现《飞机票购买人群分类案例》思路+代码 (实验数据待整理)
当今社会,事事存在竞争,航空公司也不例外。想要从林立的航空公司中立足,就要有稳定且增长的盈利。怎么保证这个盈利呢?这就要从营销策略上下手了,针对不同的客户采取不同的营销策略,才能保证最大的盈利。那怎么找出不同的客户群呢?这就是这篇文章首先要探索的。整体思路如下:1.根据航空公司的客户数据,对客户进行分类。 2.对不同的客户类别进行特征分析,比较不同类客户的客户价值。 3.对不同价值的客户类
2016-12-13 16:35:09
1869
原创 hive中日期与时间戳转换
从1970-01-01 00:00:00 UTC到指定时间的秒数。总结:时间戳到日期时间,日期时间到时间戳,日期时间到日期。获取时间戳:select distinct unix_timestamp() from test_date;时间戳>>>>日期:select distinct from_unixtime(1441565203,'yyyy/MM/dd HH:mm:
2016-12-13 16:34:17
144178
原创 hive_1.2.1安装及配置(相关安装文件待整理)
配置Hive:1)解压缩apache-hive-1.2.1-bin.tar.gz 文件,tar -zxf apache-hive-1.2.1-bin.tar.gz,这里解压在/opt目录下。2)配置Hive,进入/opt/apache-hive-1.2.1-bin/conf目录,cp hive-env.sh.template hive-env.sh,vi hive-env.sh,添
2016-12-13 16:31:39
552
原创 用Pig实现sougou需求分析 (差作业里的那一小段)
数据格式如下:20111230000005 57375476989eea12893c0c3811607bcf奇艺高清 1 1 http://www.qiyi.com/20111230000005 66c5bb7774e31d0a22278249b26bc83a凡人修仙传 31 http://www.booksky.org/BookDetail.aspx?BookID
2016-12-13 16:09:15
788
原创 如何在Hadoop集群中配置Pig?(安装包连接待补充)
1. HADOOP集群:使用第4章的Hadoop集群2. 下载pig-0.15.0.tar.gz,解压到/usr/local目录下。tar –zxvf pig-0.15.0.tar.gz -C /usr/local3. 配置环境变量:export PIG_HOME=/usr/local/pig-0.15.0export PATH=$PIG_HOME/bin:$PATH
2016-12-13 16:03:35
423
原创 十一Java作业 按要求处理数据(代码待补充。。。)
给出数据源文件data.txt数据格式为:每行数据用逗号分隔代码要求:代码的美观性、易读性、复用性等尽量在代码中体现实现如下要求:1.按行抽取数据2.将文本中所有数据,进行去重操作,并输出去重后的数据个数3.将文本中的数值型数据,每行数据分别求和,输出结果4.将文本中的数值型数据按行进行排序,倒叙。输出结果5.将文本中的字符串型数据提取出来放
2016-12-13 15:59:00
271
原创 MySQL不太记得什么的笔记。。。待补充整理
RPC:远程过程调用 序列化包:从内存序列化到硬盘的过程 类似于java中类一次写入多次读取:mapreduce 规约 键值 把相同键的的值整合在一起/usr /usr的区别???是hodoop还是lINUXusr是user的缩写,是曾经的HOME目录,然而现在已经被/home取代了,现在usr被称为是Unix System Resour
2016-12-13 15:46:12
222
原创 SQL练习 demo8_子查询
[子查询(嵌套查询): 将某个查询作为再查询的数据来源。即:将某个查询作为一张表来看待。]1、在emp表中,哪个员工的工资最高。SQL>select ename, sal from emp where sal = (select max(sal) from emp );2、在emp表中,哪些员工的工资高于平均工资。SQL>select ename, sal
2016-12-13 15:44:23
353
原创 SQL练习 demo7_表自连接查询
1、从emp表中查找每个员工对应的经理人是谁并要求按经理人排序。SQL>select e1.ename 员工, e2.ename 对应的经理人 from emp e1, emp e2 where e1.mgr = e2.empno order by 对应的经理人;
2016-12-13 15:43:34
437
原创 SQL练习 demo6_group by_having分组约束的应用
[group by中采用having来添加条件]1、将各部门的平均薪水找出来。SQL>select avg(sal), deptno from emp group by deptno;2、将平均薪水大于2000的部门找出来。先按部门分组SQL>select avg(sal), deptno from emp group by deptno;
2016-12-13 15:41:54
471
原创 SQL练习 demo5_function_大小平均总和及统计等主函数
1、查看emp表中最高的薪水。SQL>select max(sal) from emp;2、查看emp表中最低的薪水是多少。SQL>select min(sal) from emp;3、查看emp表中平均薪水是多少。SQL>select avg(sal) from emp;4、查看emp表中平均薪水是多少并按指定格式显示。SQL>select t
2016-12-13 15:41:01
393
原创 SQL练习 demo4_order_by_排序
2、查看dept部门表中的所有记录SQL>selec * from dept;3、按部门编号升序排列[默认asc为升序]SQL>select * from dept order by deptno;再按部门编号降序排列SQL>select * from dept order by deptno desc;4、先无序查看emp表中所有记录,再按员工编号
2016-12-13 15:40:07
506
原创 SQL练习 demo3_where_条件查询与运算符
5、查看emp表中薪水大于1500的记录所有信息。SQL>select ename, sal from emp where sal > 1500;6、查看emp表中姓名等于CLARK的记录信息。SQL>select * from emp where ename = 'CLARK';7、查看emp表中部门编号不等于10的记录所有信息。SQL>select enam
2016-12-13 15:38:23
743
原创 SQL练习 demo2_select_distinct查询语句
1、查看emp表中所有员工所在的部门情况SQL>select deptno from emp;2、去掉1、中重复的部门SQL>select distinct deptno from emp;3、当部门编号和工作组合后,有重复的就去掉。SQL>select distinct deptno, job from emp;
2016-12-13 15:37:25
376
原创 SQL练习 demo1_select_查询语句
1、查询emp表中所有记录的雇员编号,雇员姓名,部门编号;SQL>select empno, ename, deptno from emp;[数学表达式的应用]2、查询emp表中所有雇员的年薪;SQL>select ename, sal*12 from emp;3、以emp表为基础计算并查看2*3表达式的值。SQL>select 2*3 from e
2016-12-13 15:36:22
461
原创 inux安装Mysql步骤+Navicat Premiun连接虚拟机mysql+mysql常用命令集+mysql常用操作
一、Linux安装Mysql步骤:1.yum install -y mysql-server mysql mysql-devel 安装mysql2.service mysqld start 启动mysql3.mysqladmin -u root password 'root' 设置MySQL用户名和密码4.mysql -uroot -p 登录MySQL
2016-12-13 14:33:08
574
原创 如何在Linux中安装Mysql?
Linux安装Mysql:方式一,在线安装:1)yum search mysql2) yum install mysql-server.x86_64 -y方式二,离线安装:1)下载MySQL-server-5.6.28-1.el6.x86_64.rpm,MySQL-client-5.6.28-1.el6.x86_64.rpm,MySQL-devel-5.6.
2016-12-13 14:31:58
331
原创 Linux操作练习 demo
201311639李爽2016/9/6 中作业Linux1.进入/tmp目录,创建mytest目录,在其下创建两个目录dir1,dir2;$cd /tmp$mkdir mytest$cd /tmp/mytest$mkdir dir1 dir2$ls2.把/etc/passwd文件拷贝到/tmp/mytest目录中,再次拷贝使用-i选项看是否会有提示;
2016-12-13 14:29:17
2888
原创 ????待完善 找不到题目要求了
要求按一下步骤执行:操作命令如下:1.cd /tmp;mkdir vitest;2.cd vitest;3.cp/etc/man.config .;4.vi man.config;5.:set nu;6.58G;40l; 双引号中看到的是"/dir/bin/foo"7. gg /bzip2 答
2016-12-13 14:26:02
278
原创 Linux操作练习 demo(待完善)
head -n -2 lishuang.txt |tail -n +5第一步是把无关文字全掉sort -n -k 2 -t ‘ ’ lishuangshuang.txt以第二列排序-r反序
2016-12-13 14:25:24
263
原创 请执行命令取出linux中eth0的IP地址
2016/9/6作业1.昨天交的作业:ifconfig eth0|grep "inet addr"|awk '{print $2}'|awk-F:'{print $2}'shell命令获取linux下eth0的IP地址,用到的命令有ifconfig、awk、grep。2.网上找到的更全的!!!简直感动!!!请执行命令取出linux中eth0的IP地址
2016-12-13 14:24:08
2306
原创 Shell启动时可添加的可爱图案~
( ) (@@) ( ) (@) () @@ O @ O @ (@@@) ( ) (@@@@) ( ) ==== ________ _____
2016-12-13 14:21:24
1167
原创 Linux操作小练习 demo
3. 完成1. 使用root用户建立/tmp/test目录;su rootmkdir /tmp/test2. 使用tom用户进入/tmp/test目录,并在其下建立文件夹{a~z}{1~100};su tomcd /tmp/testmkdir {a~z}{1~100}如果建立不了,则把/tmp/test的所属用户及用户组改为tom;3. /t
2016-12-13 14:18:44
536
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人