- 博客(45)
- 收藏
- 关注
原创 Spark计算模型RDD, RDD编程实战, RDD函数详解!
什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的查询能够重用这些数据,这极大地提升了查询速度。Dataset:一个数据集合,用于存放数据的。Distributed:RDD中的数据是分布式存储的,可用于分布式计算。Resilient:RDD
2020-10-27 17:42:35
614
1
原创 Spark 入门, 看这一篇就够了!
熟悉 Spark 相关概念什么是 Spark(官网:http://spark.apache.org)Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大 学伯克利分校 AMPLab,2010 年开源,2013 年 6 月成为 Apache 孵化项目,2014 年 2 月成为 Apache 顶级项目。目前,Spark 生态系统已经发展成为一个包含多个 子项目的集合,其中包含 SparkSQL、Spark Streaming、GraphX、MLlib 等子项目, Spark 是.
2020-10-27 16:02:12
717
2
原创 Scala编程实战,使用Akka实现一个简易版的spark通信框架
使用Akka实现一个简易版的spark通信框架目前大多数的分布式架构底层通信都是通过RPC实现的,RPC框架非常多,比如前我们学过的Hadoop项目的RPC通信框架,但是Hadoop在设计之初就是为了运行长达数小时的批量而设计的,在某些极端的情况下,任务提交的延迟很高,所以Hadoop的RPC显得有些笨重。Spark 的RPC是通过Akka类库实现的,Akka用Scala语言开发,基于Actor并发模型实现,Akka具有高可靠、高性能、可扩展等特点,使用Akka可以轻松实现分布式RPC功能.
2020-10-26 14:46:17
340
1
原创 Scala高级特性之高阶函数和柯里化和隐式转换和隐式参数
高阶函数Scala混合了面向对象和函数式的特性,我们通常将可以作为参数传递到方法中的表达式叫做函数。在函数式编程语言中,函数是“头等公民”,高阶函数包含:作为值的函数、匿名函数、闭包、柯里化等等。作为值的函数, 可以像任何其他数据类型一样被传递和操作的函数,每当你想要给算法传入具体动作时这个特性就会变得非常有用。定义函数时格式:val 变量名 = (输入参数类型和个数) => 函数实现和返回值类型“=”表示将函数赋给一个变量“=>”左面表示输入参数名称、类型和个数,右边表示.
2020-10-23 17:20:04
298
原创 Scala Actor实战练习!
需求:用actor并发编程写一个单机版的WordCount,将多个文件作为输入,计算完成后将多个任务汇总,得到最终的结果。大致的思想步骤:1、通过loop +react 方式去不断的接受消息2、利用case class样例类去匹配对应的操作其中scala中提供了文件读取的接口Source,通过调用其fromFile方法去获取文件内容4、将每个文件的单词数量进行局部汇总,存放在一个ListBuffer中5、最后将ListBuffer中的结果进行全局汇总。package com.chuang
2020-10-23 14:01:45
138
原创 Hello Scala! Scala入门, 看这一篇就够了!
声明变量package com.chuangobject Hello { def main(args: Array[String]) { //使用val定义的变量值是不可变的,相当于java里用final修饰的变量 val i = 1 //使用var定义的变量是可变得,在Scala中鼓励使用val var s = "hello scala" //打印 println(s) //Scala编译器会自动推断变量的类型,必要的时候可以指定类型.
2020-10-22 17:44:42
590
原创 sqoop导入mysql表数据到HIVE
导入mysql表数据到HIVE将关系型数据的表结构复制到hive中bin/sqoop create-hive-table –connect jdbc:mysql://node-1:3306/userdb –table emp_add –username root –password hadoop –hive-table itcast.emp_add_sp其中 --table emp_add为mysql中的数据库sqoopdb中的表–hive-table emp_add_sp 为hive中新
2020-07-09 10:38:34
343
原创 VMware虚拟机黑屏解决, 提示关机/挂起提示虚拟机繁忙
问题: 虚拟机开机黑屏, 关机/挂起提示虚拟机繁忙.解决方法: 依次点击 , 编辑 首选项 设备 打开虚拟机 虚拟打印打开
2020-07-08 17:42:57
1007
原创 新建vue项目的信息
E:\vueSpace>npm install -g @vue/cli-initnpm WARN deprecated vue-cli@2.9.6: This package has been deprecated in favour of @vue/clinpm WARN deprecated request@2.88.2: request has been deprecated, see https://github.com/request/request/issues/3142npm WA
2020-06-29 16:38:31
283
原创 Command vue init requires a global addon to be installed. Please run yarn global add @vue/cli-init
创建项目报错Command vue init requires a global addon to be installed. Please run yarn global add @vue/cli-init解决方法先执行这个命令npm install -g @vue/cli-init 再创建项目
2020-06-29 16:27:13
5785
1
原创 CentOS 忘记root密码的解决办法
在开机启动的时候按键盘上的“E”键选择相应的内核,再次按“E”,选择第二项(kernel),再次按“E”键经过第二步,可以编辑,在信息的最后加“空格”,然后键入“single”,或者直接输入数字的“1”并回车确定进入下一步。操作完第三步,会出现回到第二步了, 并不是,这里按键盘的"B"键,进入引导系统。注意,这儿是“B”键#”后输入“passwd root”,重新设置root的密码,密码输入一遍,确认输入一遍,共2遍重置密码成功会有一个修改成功的提示,然后输入reboot重启系统,root密码重.
2020-06-16 16:52:50
356
原创 网站流量日志数据分析系统---网站流量日志数据自定义采集
网站流量数据统计分析,可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息,并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。从而帮助提高网站流量,提升网站用户体验,让访客更多的沉淀下来变成会员或客户,通过更少的投入获取最大化的收入。 技术上可以合理修改网站结构及适度分配资源,构建后台服务器群组,比如 a、辅助改进网络的拓扑设计,提高性能 b、在有高度相关性的节点之间安排快速有效的访问路径 c、帮助企业更好地设计网站主页和安排网页内容 业务上 a、帮助.
2020-06-16 16:09:48
996
原创 分布式系统简单介绍
概述 分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统。简单来说就是一群独立计算机集合共同对外提供服务,但是对于系统的用户来说,就像是一台计算机在提供服务一样。 分布式意味着可以采用更多的普通计算机(相对于昂贵的大型机)组成分布式集群对外提供服务。计算机越多,CPU、内存、存储资源等也就越多,能够处理的并发访问量也就越大。 初代的 web 服务网站架构往往比较简单,应用程序、数据库、文件等所有的资源都在一台服务器上。 从分布式系统的概.
2020-06-16 11:19:09
407
原创 数据分析简单入门
数据分析定义 数据分析离不开数据,计量和记录一起促成了数据的诞生。伴随着数据记录的发展(尤其是技术),人类受益也越来越多,计算机出现带来的数字测量,更 加大大的提高了数据化的效率。人们的重点也逐渐移向了记录下来的庞大数据,对这些数据进行研究、分析,以期获取更大的利益。 数据分析是指用适当的统计分析方法对收集来的数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。..
2020-06-16 11:09:24
315
2
原创 ZooKeeper入门学习
ZooKeeper 概述 Zookeeper 是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题,例如怎样避免同时操作同一数据造成脏读的问题。 ZooKeeper 本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。诸如:统一命名服务、分布式配置管理、分布式消息队列、分布式锁、分布式协调等功能。ZooKee.
2020-06-15 17:36:55
223
原创 Shell 编程入门基础带案列
Shell 是一个用 C 语言编写的程序,通过 Shell 用户可以访问操作系统内核服务。它类似于 DOS 下的 command 和后来的 cmd.exe。Shell 既是一种命令语言,又是一种程序设计语言。 Shell script 是一种为 shell 编写的脚本程序。Shell 编程一般指 shell 脚本编程,不是指开发 shell 自身。 Shell 编程跟 java、php 编程一样,只要有一个能编写代码的文本编辑器和一个能解释执行的脚本解释器就可以了。 Linux 的 Shel
2020-06-15 11:19:38
152
原创 Linux 增强
查找命令1.1 grep grep 命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。 格式:grep [option] pattern [file] 可使用 —help 查看更多参数。 使用实例:ps -ef | grep sshd #查找指定 ssh 服务进程ps -ef | grep sshd | grep -v grep #查找指定服务进程,排除 gerp 本身ps -ef | grep sshd –c #查找指定进程个数cat a..
2020-06-12 17:24:29
158
原创 Vmware、Linux 基础
VMware 虚拟网络1.1 虚拟网卡、虚拟交换机 当使用 VMware Workstation 安装一个虚拟机时就会自动安装一块虚拟网卡,此外还可手动给虚拟机添加多块虚拟网卡。 交换机用于电(光)信号的转发。可以为接入交换机的任意两个网络节点提供独享的电信号通路。简单的理解可以把一些电脑连接在一起组成一个局域网。 安装 VMware Workstation 12 时就自动安装了 20 台虚拟交换机。 常用的交换机是 VMnet0、VMnet1、VMnet8,分别对应 VMware..
2020-06-12 15:21:01
654
原创 FusionInsight HD V100R002C80SPC200 安装记录
上传安装包制作本地yum源参考之前的文章传送门安装环境必备安装包(没有测试是不是全部需要, 反正装了)yum install javayum install ipmitoolyum install glibcyum install json-cyum install libestryum install libitmyum install libtopologyyum install lsscsiyum install m2cryptoyum install ne..
2020-06-08 10:58:20
520
原创 学习FusionInsight HD 安装与部署文档
政府项目一般都会用到华为的项目, 所以必须学习华为的东西. 这里学习的是FusionInsight HD 6.5.1的安装与部署文档. 相关文档可以在华为官网下载.1. FusionInsight HD安装流程2. FusionInsight HD安装前准备3. FusionInsight HD安装过程具体步骤3.1 校验软件包tar -zxvf FusionInsight_Manager_6.5.1_RHEL.tar.gztar -zxvf FusionInsight_SetupTo
2020-05-26 17:23:05
2937
2
原创 Usage of API documented as @since 1.6+ less..
问题解决方法:打开工程配置,修改language level为6以上的版本即可File ->Project Structure->Project Settings -> Modules -> (需要修改的工程名称) -> Sources -> Language Level->选6以上的版本。...
2020-04-20 13:30:33
203
原创 Scala开发工具安装
目前Scala的开发工具主要有两种:Eclipse和IDEA,这两个开发工具都有相应的Scala插件,如果使用Eclipse,直接到Scala官网下载即可地址。由于IDEA的Scala插件更优秀,大多数Scala程序员都选择IDEA,可以到地址下载,点击下一步安装即可,安装时如果有网络可以选择在线安装Scala插件。这里我们使用离线安装Scala插件:安装IDEA,点击下一步即可下载IE...
2020-02-29 15:07:36
197
原创 centos6.7安装jdk1.8
查看系统自带的jdk, 有就卸载查看命令: rpm -qa | grep java删除命令: rpm -e --nodeps 名字上传安装包解压到指定目录tar -zxvf jdk-8u144-linux-x64.tar.gz -C /bigdata/java/改名字(名字太长,不想改可以跳过)配置环境变量vim /etc/profile#内容expo...
2019-12-10 17:29:50
244
原创 制作本地yum源
CentOS-6.7-x86_64-bin-DVD1.iso 完整版的安装盘CentOS-6.7-x86_64-bin-DVD2.iso 对完整版安装盘的软件进行补充和升级创建相关目录/mnt/dvd1和/mnt/dvd2 分别用于挂载 Centos 镜像/mnt/dvd3 合并后的镜像文件mkdir -p /mnt/dvd1 /mnt/dvd2 /mnt/dvd3上...
2019-12-10 16:28:02
269
原创 虚拟机组内网
选择“编辑”->“虚拟网络编辑器”, 点击“添加网络”添加网络配置信息, 子网IP改成192.168.2.0配置DHCP服务信息, 起始IP要和上一步子网IP前三位对应, 上一步设置的192.168.2.0, 这里要改成在192.168.2.*里面选择虚拟机, 点击 “网络适配器”进行配置, 选择刚才配置的 vnet19网络最后,启动虚拟机,在网卡选择自动获取ip地址。按此...
2019-12-10 15:22:46
529
原创 生产环境最小化安装centos6.7需要选择的组件
正式的生产环境,不要选择desktop或者GUI的选项,不需要图形界面,需要的是字符界面,选择minimal最小化安装,之后选择现在就去选择系统所需要的组建(选择customize now) 在选择的时候只需要安装四个基本的组建 1:base system中的base和compatibility libraries。 :which javals ...
2019-11-11 13:22:13
1394
原创 Hive命令总结...
Hive启动方式一:启动shell交互Hive交互shellbin/hive方式二:Hive服务,与传统数据库JDBC类似前台启动bin/hiveserver2后台启动nohup bin/hiveserver2 1>/var/log/hiveserver.log 2>/var/log/hiveserver.err &远程连接./beel...
2019-11-04 17:36:39
183
原创 [问题解决]/bin/bash^M: bad interpreter: 没有那个文件或目录
错误提示bin/bash^M: bad interpreter: 没有那个文件或目录错误原因在windows编辑过脚本, 因为操作系统是windows,我在windows下编辑的脚本,所以有可能有不可见字符。脚本文件是DOS格式的, 即每一行的行尾以 来标识, 其ASCII码分别是0x0D, 0x0A.解决依次输入命令vim 文件名:set ff? #可以看到dos或unix...
2019-10-11 17:09:26
137
原创 maven添加oracle jdbc驱动jar包
由于Oracle授权问题,Maven3不提供Oracle JDBC driver,为了在Maven项目中应用Oracle JDBC driver,必须手动添加到本地仓库。一.首先要得到Oracle JDBC Driver1.通过Oracle官方网站下载相应版本: 下载地址2.通过Oracle的安装目录获得,位置在“{ORACLE_HOME}\jdbc\lib\ojdbc14.jar”二....
2019-10-08 13:57:05
339
原创 java获取sqlserver所有库名, 库里所有表名, 表里所有字段名
package com.sb.test;import org.junit.Before;import org.junit.Test;import java.sql.*;public class SQLserverTest { //这里可以设置数据库名称 private final static String URL = "jdbc:sqlserver://数据库服务器...
2019-09-29 17:30:53
2467
原创 java获取Oracle所有库名, 库里所有表名, 表里所有字段名
package com.sb.test;import org.junit.Before;import org.junit.Test;import java.sql.*;public class OracleTest { //jdbc:oracle:thin:@localhost:1521:zhyl private String url="jdbc:oracle:t...
2019-09-29 17:17:37
3419
原创 Linux常用命令
启动cdh在主节点/opt/cm-5.1.3/etc/init.d/cloudera-scm-server start/opt/cm-5.1.3/etc/init.d/cloudera-scm-agent start在从节点/opt/cm-5.1.3/etc/init.d/cloudera-scm-agent start停止cdh先把所有服务停止把启动的start换成stop...
2019-09-28 14:17:56
112
原创 HBase集群搭建
Hbase集群部署下载地址操作步骤说明:下载安装包修改配置文件regionservershbase-site.xmlhbase-env.sh拷贝hadoop配置文件分发配置文件启动集群2.1 下载安装包wget http://mirrors.hust.edu.cn/apache/hbase/1.3.1/hbase-1.3.1-bin.tar.gztar -zxv...
2019-09-25 15:22:09
143
原创 1 个验证警告:必须在 HBase 服务中配置 Thrift Server 角色以使用 Hue HBase Browser 应用程序
解决办法:给HBase添加Thrift Server角色, 为了方便, 将Thrift Server添加到Hue同一主机确定之后点击右下角继续,这一步没有截图设置后实例列表变成下面重启, 警告变成:Hue: 在 HBase Thrift Server 属性中选择服务器以使用 Hue HBase Browser 应用程序。就在Hue配置选项卡下往下滚, 找到如下所示, 选中即可,...
2019-09-10 15:29:34
675
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人