- 博客(34)
- 收藏
- 关注
原创 Spark编程案例——DataFrame
Spark SQL1、相应于Hive: SQL —> MapReduce2、底层依赖RDD: SQL —> RDD一、Spark SQL基础1、什么是Spark SQL?参考官网2、核心概念:DataFrame(表)= Schema(表结构) + Data(表数据) (*)就是表,是Spark SQL对结构化数据的抽象 ...
2019-05-29 17:25:25
916
原创 解决Xshell连接不上CenterOS的问题
问题的根源:没安装ssh解决方案:在ubuntu下安装SSH可以:apt-get install openssh-server就是说在centos上可以这样来安装ssh:# yum -y install openssh-server
2019-05-27 09:25:09
905
原创 大数据学习29:Spark Core编程案例
案例一:分析tomcat的访问日志,求访问量最高的两个网页 1、对每个jps的访问量求和 2、排序 3、取前两条记录 结果:ArrayBuffer((oracle.jsp,9), (hadoop.jsp,9))案例二:分析tomcat的访问日志,根据网页的名字进行分区(类似MapReduce中的自定义分区) 结果: 网页的名字 访问日志 oracle.jsp ...
2019-05-20 15:43:47
2772
1
原创 解决resourceManager启动后进程自动杀死问题
可能是Yarn的节点配置的不对 <property> <name>yarn.resourcemanager.hostname</name> <value>bigdata124</value> </property> ...
2019-05-16 11:10:44
2508
原创 解决Zookeeper org.apache.zookeeper.server.quorum.Learner.registerWithLeader
将/opt/module/zookeeper-3.4.10/tmp 目录下非myid文件删除,然后重启zookeeper
2019-05-14 17:23:16
440
原创 大数据学习27:Spark体系结构及全分布环境搭建及Word Count程序编写及原理分析
三部分的内容1、Spark Core:内核,是Spark中最重要的内容,相当于MapReduce Spark Core和MapReduce都是进行离线计算 Spark Core的核心:RDD(弹性分布式数据集),由分区组成 2、Spark SQL:相当于Hive、Pig 支持SQL和DSL语句 ----->...
2019-05-14 11:29:22
137
原创 大数据学习26:Scala泛型及隐式转换
(一)泛型 1.泛型类:定义类的时候,可以带有一个泛型的参数For Exampleobject GenericClass { def main(args: Array[String]): Unit = { //定义一个Int 类型 var v1 = new GenericClass[Int] v1.set(1) println(v1.get()) ...
2019-05-10 17:25:17
217
原创 大数据学习25:Scala常用集合、样本类
一、可变集合、不可变集合二、列表三、序列四、Set:不重复元素的集合,默认是:HashSet五、模式匹配:就相当于switch … case 语句六、样本类:case class,支持模式匹配,就相当于支持switch … case 语句 相当于 instanceof...
2019-05-10 11:12:10
150
原创 大数据学习24:Scala面向对象:类似Java
第二章:Scala面向对象:类似Java一、复习:面向对象的基本概念 (*)定义:把数据和操作数据的方法放到一起,作为一个整体(类 class) (*)面向对象的特质: (1)封装 (2)继承 (3)多态二、定义类class三、属性的get和set方法class StudentBean {//定义属性 private var stuName = "Tom" pr...
2019-05-09 16:16:32
283
原创 大数据学习23:Spark:大数据的计算引擎(Scala开发环境安装)
第一部分:Scala编程语言第二部分:Spark Core内核(最重要的内容)—> 概念RDD:相当于MapReduce第三部分:Spark SQL:相当于Hive,也支持SQL语句 -----> 底层依赖Spark Core ----> 依赖RDD第四部分:Spark Streaming:相当于Storm用于流式计算 - ----> 底层依赖Spark Core -...
2019-05-09 09:53:13
256
原创 hadoop格式化namenode然后启动不了的问题
多次对namenode进行格式化导致节点无法启动的解决 多次格式化namenode造成了namenode和datanode的clusterID不一致!每次格式化时,namenode会更新clusterID,但是datanode只会在首次格式化时确定,因此就造成不一致现象。这里提供了两种解决办法:1.打开core-site.xml文件里面配置的目录打开namenode 对应的curren...
2019-05-01 10:08:07
1993
原创 大数据学习22:大数据实时计算框架——Storm
一、大数据实时计算框架1、什么是实时计算?流式计算? 举例:自来水厂处理自来水(特点:持续性、流式计算))2、对比:离线计算和流式计算 (*)离线计算:MapReduce和Spark Core, 数据的批量处理(Sqoop-->HDFS-->MR(SparkCore)--->HDFS) (*)流式计算:Storm和Spark Streaming, 数据的实时性 ...
2019-04-25 14:24:24
546
原创 大数据学习21:Redis安装配置、基本操作、持久化、Redis事务、主从复制
Redis1、Redis简介和特点 (*) 前身:MemCached (*) 区别:支持持久化:RBD、AOF 丰富的数据类型2、安装配置Redis:需要gcc tar -zxvf redis-3.0.5.tar.gz make make PREFIX=/root/training/redis install 命令脚本 redis-benchmar...
2019-04-24 19:42:18
139
原创 大数据学习20:MemCached
1、NoSQL数据库:Redis基于内存NoSQL数据库前身是MemCached2、大数据的实时计算:Apache Storm集成Storm和Redis一、为什么要把数据存入内存?1、原因:快2、举例:在B/S如何从架构的角度上,提高性能3、常见的内存数据库 (*)MemCached:严格来说,不是数据库,只能叫缓存,因为不支持持久化 (*)Redis:支持持久化(RDB、AOF...
2019-04-24 19:34:11
163
原创 大数据学习19:HDFS的联盟和HA
一、安装配置HUE(待完成)二、利用ZooKeeper实现秒杀系统:分布式锁的功能 private static int mNumber = 5; public static void main(String [] args){ RetryPolicy policy = new ExponentialBackoffRetry(10,1000); //创...
2019-04-22 09:48:26
193
原创 大数据学习18:HUE、Zookeper
管理工具:HUE一、Hadoop中的管理工具HDFS: NameNode网页 http://ip:50070SecondaryNameNode网页: http://ip:50090Yarn: http://ip:8088 HBase: http://ip:16010Hive http://ip:9999/hwi/Spark http://ip:8080二、演示...
2019-04-17 17:52:06
196
原创 大数据学习17:数据分析引擎:Pig
数据分析引擎:Pig一、什么是Pig?安装和配置1、最早由Yahoo开发,后来给Apache2、支持语句PigLatin语句,类似SQL3、翻译器:PigLatin语句 ----> MapReduceSpark(从0.17开始支持)4、安装和配置tar -zxvf pig-0.17.0.tar.gz -C ~/training/设置环境变量PIG_HOME=/root/tr...
2019-04-17 16:35:35
275
原创 大数据学习16:Hive环境搭建及内部表、分区表
大数据分析引擎:Hive大数据的终极目标:使用SQL语句处理大数据1、Hadoop的终极目标:使用SQL语句来处理大数据()Hive:支持SQL;()Pig:支持PigLatin2、Spark的体系架构中:(*)Spark SQL:类似Hive支持SQL、支持DSL语句3、另一个impala一、什么是Hive 1、Hive是基于HDFS之上的一个数据仓库 Hive ...
2019-04-14 01:10:18
267
原创 大数据学习15:Hbase进阶(使用Java操作HBase,搭建HBase全分布)
3、全分布模式:bigdata112 bigdata113 bigdata114 修改文件:hbase-env.sh export JAVA_HOME=/root/training/jdk1.8.0_144 HBASE_MANAGES_ZK true ---> 使用HBase自带的ZK 核心配置文件: conf/hbase-site.xml <!--HBa...
2019-04-10 23:53:41
374
原创 大数据学习14:MapReduce小结
问题:1、偏移量是什么?k1是这一行在文本文件中的位置(字节数)举例=====================================一、课程概述依赖jar包 $HADOOP_HOME/share/hadoop/common $HADOOP_HOME/share/hadoop/common/lib $HADOOP_HOME/share/hadoop/mapreduc...
2019-04-10 10:05:43
265
原创 大数据学习13:MapReduce编程案例2(倒排索引,MRUnit)
MapReduce编程案例2文档倒排算法简介Inverted Index(倒排索引)是目前几乎所有支持全文检索的搜索引擎都要依赖的一个数据结构。基于索引结构,给出一个词(term),能取得含有这个term的文档列表(the list of documents)Web Search中的问题主要分为三部分:crawling(gathering web content) ,网页爬虫,收集数据i...
2019-04-08 14:26:28
235
原创 大数据学习12:MapReduce案例1-模拟多表查询(等值连接,自连接)
MapReduce编程案例一、MapReduce的核心:Shuttle 1、Hadoop 3.x以前:会有落地(产生I/o操作)二、MapReduce编程案例:顺便复习关系型数据库的相关知识(SQL等等) 1、数据去重 (*)复习SQL:distinct实现去重,作用于后面所有的列 一个列: ...
2019-04-06 21:52:42
623
原创 大数据学习11:昨晚太累休息
2019年4月2日 星期二1.平安好医生发布全新代餐品牌“瘦满分”,切入千亿级体重管理消费市场2.雄安新区将推动数据资源深度融合和跨领域应用,率先大规模商用5G,全面部署IPV63.唯品会在天津、沈阳、安徽开出3家线下店百度上线情侣智能社交助手“丘比特”,进军社交领域5.娃哈哈:成立机器人公司主要从事智能机器人产品与解决方案的开发...
2019-04-02 09:42:01
112
原创 大数据学习09:MapReduce基础
第六章:MapReduce问题:1、清空HDFS的回收站-expungePermanently delete files in checkpoints older than the retention threshold from trash directory, and create new checkpoint.2、课程回看===========================...
2019-03-31 00:03:01
137
原创 大数据学习08:HDFS的底层原理:代理对象和RPC
Java的代理对象废话不多说上手源码public interface MyBusiness { public void method1(); public void method2();}public class MyBusinessImpl implements MyBusiness { @Override public void method1() { Sys...
2019-03-29 10:19:59
148
原创 大数据学习06:操作HDFS
操作HDFS1、Web Console:端口50070 2、命令行:类似Linux命令 (1)操作命令 hdfs dfs ***** -mkdir 创建目录 举例:hdfs dfs -mkdir /aaa hdfs dfs -mkdir -p /bbb/ccc -p 表示如果父目录不存在 先创建父目录 -ls ...
2019-03-27 14:43:12
173
原创 大数据学习05:HDFS数据的存储
HDFS:数据存储(一)HDFS的体系架构1、NameNode:名称节点 (*)职责: (1)是HDFS的主节点、管理员 (2)接收客户端(命令行、Java程序)的请求:创建目录、上传数据、下载数据、删除数据 (3)管理和维护HDFS的日志和元信息 (*)日志文件(edits文件...
2019-03-25 13:58:44
719
原创 大数据学习04:搭建Hadoop环境
搭建Hadoop的环境2019年3月25日 星期一今日头条App多频道超24小时未更新,字节跳动回应:很快恢复京东汽车业务自有品牌“京安途”正式上线,深挖汽车后市场李嘉诚旗下欧洲电信运营商“3公司”力挺华为,禁购将让5G商用推迟一年半复旦大学与BOSS直聘合作,人才大数据助力高校职业教育大学生艺术教育平台「36艺」获Pre-A轮3000万元融资more /etc/...
2019-03-25 13:52:15
237
原创 大数据学习03:MapReduce及Bigtable简单介绍
MapReduce及Bigtable简单介绍MapReduce的编程模型:先拆分、再合并HDFS = NameNode+SecondaryNameNode+DataNode求和:大任务=小任务1+小任务2+......完事再合并BigTable:大表------NoSQL数据库:HBase1、关系型数据库:Oracle、MySql等等----->行式数据库----->i...
2019-03-22 10:10:37
653
转载 转载:APP产品经理必须要懂的30条原则
张小龙演讲PPT:APP产品经理必须要懂的30条原则2014-02-18 14:49 汪汪 分类:产品经理 微信二维码手机是肢体的延伸,和人是一体的(通过各种传感器);而PC是外物,即外部环境。移动互联网产品不是简单的PC到手机的移植。做没有web的移动互联网产品该怎么做?这对中国IT人来说是全新的课题。下面整理出的30条原则中,可以看到一些对于APP产品设计和推识,它们来自微信创始人张小龙的...
2019-03-21 11:25:53
285
原创 大数据学习02:大数据课程概述与大数据背景知识
Hadoop2.X管理与开发每日关注 2019年3月21日 星期四1. 阿里AI labs成立方言保护专项小组,投入1亿元保护汉语方言2. 小红书上线“品牌号”,并进行五大模块升级3. 知乎否认内测“知乎百科”产品,“百科”是知乎话题的简介4. 民政部:养老院查询APP“养老通”在北京地区上线一、什么是大数据 举例: 1、电商的推荐系统: (问题1)大量的订单如何存储...
2019-03-21 09:59:44
460
原创 大数据学习01:Linux基础
Linux基础2019年3月20日 星期三1. 网易云课堂和中国大学MOOC并入网易有道,重点聚焦K12培训2. 腾讯回应禁止微信头像昵称用于多闪:无稽之谈,已提起诉讼3. 淘宝将开放购后服务视频,解决商品安装问题4. 字节跳动回应搭建直播大中台:在技术、运营上做统一学习路线和课程简介 1、基础:Java语言(Java SE):变量、循环、if等等 ...
2019-03-20 10:11:20
176
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人