weixin_44804248-优快云博客

原创 Spark编程案例——DataFrame

Spark SQL1、相应于Hive: SQL —> MapReduce2、底层依赖RDD： SQL —> RDD一、Spark SQL基础1、什么是Spark SQL？参考官网2、核心概念：DataFrame（表）= Schema（表结构） + Data（表数据）（*）就是表，是Spark SQL对结构化数据的抽象 ...

2019-05-29 17:25:25 955

原创解决Xshell连接不上CenterOS的问题

问题的根源：没安装ssh解决方案：在ubuntu下安装SSH可以：apt-get install openssh-server就是说在centos上可以这样来安装ssh：# yum -y install openssh-server

2019-05-27 09:25:09 942

原创大数据学习29：Spark Core编程案例

案例一：分析tomcat的访问日志，求访问量最高的两个网页 1、对每个jps的访问量求和 2、排序 3、取前两条记录结果：ArrayBuffer((oracle.jsp,9), (hadoop.jsp,9))案例二：分析tomcat的访问日志，根据网页的名字进行分区（类似MapReduce中的自定义分区）结果：网页的名字访问日志 oracle.jsp ...

2019-05-20 15:43:47 2802 1

原创大数据学习28：RDD定义及体系架构

1

2019-05-17 10:21:37 343

原创解决resourceManager启动后进程自动杀死问题

可能是Yarn的节点配置的不对 <property> <name>yarn.resourcemanager.hostname</name> <value>bigdata124</value> </property> ...

2019-05-16 11:10:44 2578

原创解决Zookeeper org.apache.zookeeper.server.quorum.Learner.registerWithLeader

将/opt/module/zookeeper-3.4.10/tmp 目录下非myid文件删除，然后重启zookeeper

2019-05-14 17:23:16 467

原创大数据学习27：Spark体系结构及全分布环境搭建及Word Count程序编写及原理分析

三部分的内容1、Spark Core：内核，是Spark中最重要的内容，相当于MapReduce Spark Core和MapReduce都是进行离线计算 Spark Core的核心：RDD（弹性分布式数据集），由分区组成 2、Spark SQL：相当于Hive、Pig 支持SQL和DSL语句 -----&gt...

2019-05-14 11:29:22 161

原创大数据学习26：Scala泛型及隐式转换

(一)泛型 1.泛型类：定义类的时候，可以带有一个泛型的参数For Exampleobject GenericClass { def main(args: Array[String]): Unit = { //定义一个Int 类型 var v1 = new GenericClass[Int] v1.set(1) println(v1.get()) ...

2019-05-10 17:25:17 253

原创大数据学习25：Scala常用集合、样本类

一、可变集合、不可变集合二、列表三、序列四、Set：不重复元素的集合，默认是：HashSet五、模式匹配：就相当于switch … case 语句六、样本类：case class，支持模式匹配，就相当于支持switch … case 语句相当于 instanceof...

2019-05-10 11:12:10 208

原创大数据学习24：Scala面向对象：类似Java

第二章：Scala面向对象：类似Java一、复习：面向对象的基本概念（*）定义：把数据和操作数据的方法放到一起，作为一个整体（类 class）（*）面向对象的特质：（1）封装（2）继承（3）多态二、定义类class三、属性的get和set方法class StudentBean {//定义属性 private var stuName = "Tom" pr...

2019-05-09 16:16:32 317

原创大数据学习23：Spark:大数据的计算引擎(Scala开发环境安装)

第一部分：Scala编程语言第二部分：Spark Core内核（最重要的内容）—> 概念RDD：相当于MapReduce第三部分：Spark SQL：相当于Hive，也支持SQL语句 -----> 底层依赖Spark Core ----> 依赖RDD第四部分：Spark Streaming：相当于Storm用于流式计算 - ----> 底层依赖Spark Core -...

2019-05-09 09:53:13 290

原创 hadoop格式化namenode然后启动不了的问题

多次对namenode进行格式化导致节点无法启动的解决多次格式化namenode造成了namenode和datanode的clusterID不一致！每次格式化时，namenode会更新clusterID，但是datanode只会在首次格式化时确定，因此就造成不一致现象。这里提供了两种解决办法:1.打开core-site.xml文件里面配置的目录打开namenode 对应的curren...

2019-05-01 10:08:07 2047

原创大数据学习22：大数据实时计算框架——Storm

一、大数据实时计算框架1、什么是实时计算？流式计算？举例：自来水厂处理自来水（特点：持续性、流式计算）)2、对比：离线计算和流式计算（*）离线计算：MapReduce和Spark Core，数据的批量处理（Sqoop-->HDFS-->MR(SparkCore)--->HDFS）（*）流式计算：Storm和Spark Streaming，数据的实时性 ...

2019-04-25 14:24:24 593

原创大数据学习21：Redis安装配置、基本操作、持久化、Redis事务、主从复制

Redis1、Redis简介和特点 (*) 前身：MemCached (*) 区别：支持持久化：RBD、AOF 丰富的数据类型2、安装配置Redis：需要gcc tar -zxvf redis-3.0.5.tar.gz make make PREFIX=/root/training/redis install 命令脚本 redis-benchmar...

2019-04-24 19:42:18 168

原创大数据学习20：MemCached

1、NoSQL数据库：Redis基于内存NoSQL数据库前身是MemCached2、大数据的实时计算：Apache Storm集成Storm和Redis一、为什么要把数据存入内存？1、原因：快2、举例：在B/S如何从架构的角度上，提高性能3、常见的内存数据库（*）MemCached：严格来说，不是数据库，只能叫缓存，因为不支持持久化（*）Redis：支持持久化（RDB、AOF...

2019-04-24 19:34:11 193

原创大数据学习19：HDFS的联盟和HA

一、安装配置HUE（待完成）二、利用ZooKeeper实现秒杀系统：分布式锁的功能 private static int mNumber = 5; public static void main(String [] args){ RetryPolicy policy = new ExponentialBackoffRetry(10,1000); //创...

2019-04-22 09:48:26 223

原创大数据学习18：HUE、Zookeper

管理工具：HUE一、Hadoop中的管理工具HDFS: NameNode网页 http://ip:50070SecondaryNameNode网页: http://ip:50090Yarn: http://ip:8088 HBase: http://ip:16010Hive http://ip:9999/hwi/Spark http://ip:8080二、演示...

2019-04-17 17:52:06 225

原创大数据学习17：数据分析引擎：Pig

数据分析引擎：Pig一、什么是Pig？安装和配置1、最早由Yahoo开发，后来给Apache2、支持语句PigLatin语句，类似SQL3、翻译器：PigLatin语句 ----> MapReduceSpark（从0.17开始支持）4、安装和配置tar -zxvf pig-0.17.0.tar.gz -C ~/training/设置环境变量PIG_HOME=/root/tr...

2019-04-17 16:35:35 308

原创大数据学习16：Hive环境搭建及内部表、分区表

大数据分析引擎：Hive大数据的终极目标：使用SQL语句处理大数据1、Hadoop的终极目标：使用SQL语句来处理大数据（）Hive：支持SQL；（）Pig：支持PigLatin2、Spark的体系架构中：（*）Spark SQL：类似Hive支持SQL、支持DSL语句3、另一个impala一、什么是Hive 1、Hive是基于HDFS之上的一个数据仓库 Hive ...

2019-04-14 01:10:18 304

原创大数据学习15：Hbase进阶（使用Java操作HBase,搭建HBase全分布）

3、全分布模式：bigdata112 bigdata113 bigdata114 修改文件：hbase-env.sh export JAVA_HOME=/root/training/jdk1.8.0_144 HBASE_MANAGES_ZK true ---> 使用HBase自带的ZK 核心配置文件: conf/hbase-site.xml <!--HBa...

2019-04-10 23:53:41 398

原创大数据学习14：MapReduce小结

问题：1、偏移量是什么？k1是这一行在文本文件中的位置（字节数）举例=====================================一、课程概述依赖jar包 $HADOOP_HOME/share/hadoop/common $HADOOP_HOME/share/hadoop/common/lib $HADOOP_HOME/share/hadoop/mapreduc...

2019-04-10 10:05:43 297

原创大数据学习13：MapReduce编程案例2（倒排索引，MRUnit）

MapReduce编程案例2文档倒排算法简介Inverted Index(倒排索引)是目前几乎所有支持全文检索的搜索引擎都要依赖的一个数据结构。基于索引结构，给出一个词(term)，能取得含有这个term的文档列表(the list of documents)Web Search中的问题主要分为三部分：crawling(gathering web content) ,网页爬虫，收集数据i...

2019-04-08 14:26:28 258

原创大数据学习12：MapReduce案例1-模拟多表查询(等值连接，自连接)

MapReduce编程案例一、MapReduce的核心：Shuttle 1、Hadoop 3.x以前：会有落地（产生I/o操作）二、MapReduce编程案例：顺便复习关系型数据库的相关知识（SQL等等） 1、数据去重（*）复习SQL：distinct实现去重，作用于后面所有的列一个列： ...

2019-04-06 21:52:42 651

原创大数据学习11：昨晚太累休息

2019年4月2日星期二1.平安好医生发布全新代餐品牌“瘦满分”，切入千亿级体重管理消费市场2.雄安新区将推动数据资源深度融合和跨领域应用，率先大规模商用5G，全面部署IPV63.唯品会在天津、沈阳、安徽开出3家线下店百度上线情侣智能社交助手“丘比特”，进军社交领域5.娃哈哈：成立机器人公司主要从事智能机器人产品与解决方案的开发...

2019-04-02 09:42:01 127

原创大数据学习09：MapReduce基础

第六章：MapReduce问题：1、清空HDFS的回收站-expungePermanently delete files in checkpoints older than the retention threshold from trash directory, and create new checkpoint.2、课程回看===========================...

2019-03-31 00:03:01 159

原创大数据学习08：HDFS的底层原理：代理对象和RPC

Java的代理对象废话不多说上手源码public interface MyBusiness { public void method1(); public void method2();}public class MyBusinessImpl implements MyBusiness { @Override public void method1() { Sys...

2019-03-29 10:19:59 190

原创大数据学习07：HDFS数据上传及下载流程及原理

HDFS数据上传原理图HDFS数据下载

2019-03-28 10:06:36 295

原创大数据学习06：操作HDFS

操作HDFS1、Web Console：端口50070 2、命令行：类似Linux命令（1）操作命令 hdfs dfs ***** -mkdir 创建目录举例：hdfs dfs -mkdir /aaa hdfs dfs -mkdir -p /bbb/ccc -p 表示如果父目录不存在先创建父目录 -ls ...

2019-03-27 14:43:12 207

原创大数据学习05：HDFS数据的存储

HDFS：数据存储（一）HDFS的体系架构1、NameNode：名称节点（*）职责：（1）是HDFS的主节点、管理员（2）接收客户端（命令行、Java程序）的请求：创建目录、上传数据、下载数据、删除数据（3）管理和维护HDFS的日志和元信息（*）日志文件（edits文件...

2019-03-25 13:58:44 760

原创大数据学习04：搭建Hadoop环境

搭建Hadoop的环境2019年3月25日星期一今日头条App多频道超24小时未更新，字节跳动回应：很快恢复京东汽车业务自有品牌“京安途”正式上线，深挖汽车后市场李嘉诚旗下欧洲电信运营商“3公司”力挺华为，禁购将让5G商用推迟一年半复旦大学与BOSS直聘合作，人才大数据助力高校职业教育大学生艺术教育平台「36艺」获Pre-A轮3000万元融资more /etc/...

2019-03-25 13:52:15 269

原创大数据学习03：MapReduce及Bigtable简单介绍

MapReduce及Bigtable简单介绍MapReduce的编程模型：先拆分、再合并HDFS = NameNode+SecondaryNameNode+DataNode求和：大任务=小任务1+小任务2+......完事再合并BigTable：大表------NoSQL数据库：HBase1、关系型数据库：Oracle、MySql等等----->行式数据库----->i...

2019-03-22 10:10:37 695

转载转载：APP产品经理必须要懂的30条原则

张小龙演讲PPT：APP产品经理必须要懂的30条原则2014-02-18 14:49 汪汪分类：产品经理微信二维码手机是肢体的延伸，和人是一体的(通过各种传感器);而PC是外物，即外部环境。移动互联网产品不是简单的PC到手机的移植。做没有web的移动互联网产品该怎么做?这对中国IT人来说是全新的课题。下面整理出的30条原则中，可以看到一些对于APP产品设计和推识，它们来自微信创始人张小龙的...

2019-03-21 11:25:53 318

原创大数据学习02：大数据课程概述与大数据背景知识

Hadoop2.X管理与开发每日关注 2019年3月21日星期四1. 阿里AI labs成立方言保护专项小组，投入1亿元保护汉语方言2. 小红书上线“品牌号”，并进行五大模块升级3. 知乎否认内测“知乎百科”产品，“百科”是知乎话题的简介4. 民政部：养老院查询APP“养老通”在北京地区上线一、什么是大数据举例： 1、电商的推荐系统：（问题1）大量的订单如何存储...

2019-03-21 09:59:44 483

原创大数据学习01：Linux基础

Linux基础2019年3月20日星期三1. 网易云课堂和中国大学MOOC并入网易有道，重点聚焦K12培训2. 腾讯回应禁止微信头像昵称用于多闪：无稽之谈，已提起诉讼3. 淘宝将开放购后服务视频，解决商品安装问题4. 字节跳动回应搭建直播大中台：在技术、运营上做统一学习路线和课程简介 1、基础：Java语言（Java SE）：变量、循环、if等等 ...

2019-03-20 10:11:20 203

weixin_44804248的博客