呼和浩特-大数据-白胖子-优快云博客

原创 scala基础语法小结

个人总体理解：编程思想：1.面向对象编程2.面向接口编程（java、eg：匿名构造类）3.面向函数编程（scala、数据库-存储过程编程中，引用函数也有点像）scala-面向函数编程方法入参是函数，函数在方法中才计算，类似有点像for循环套循环，自己意会超级简化开发过程，放飞自我，适合有想法的编程人员使用。package day02object 小结 { def ma...

2019-04-10 22:06:42 337 1

我搞JAVA也有些日子了, 因为我比较贪玩,上进心不那么强, 总是逼不得已为了高薪跳槽才去学习, 所以也没混成什么大牛, 但好在现在也已经成家立业, 小日子过的还算滋润, 起码顶得住一月近万元的吃喝拉撒玩各种贷款信用卡不为金钱过于发愁了。我特别感谢当初贴吧遇见的那位大神, 虽然每个月也就聊那么几句, 但是他总能在我不知道该学啥, 该怎么走的时候, 给我方向, 毫不夸张的说,我现在的衣食无忧, ...

2019-04-10 10:27:28 510 1

原创 Scala初体验~

学习scala需要先安装scala，官网：https://www.scala-lang.org安装教程不要太多，百度一下，关键字带csdn即可学习环境，dos+IDEA（这里IDEA不要汉化了，汉化的不好，很多设置位置也改了，不然英文版通用，百度易学）需要安装JDK注意，这里是JDR不是JRE，同时需要配置java环境变量，忘记了没关系，还是百度吧目前就写这么多，再学习再深入总结...

2019-04-08 22:52:24 237

原创 spark与scala

今天开始学习spak的workcount编程，第一个例子就是scala写的，这里发现，spark与scala紧密结合。所以spark课程先放缓，开始scala学习，写完scala再回来学习spark。...

2019-04-02 21:45:55 546

原创 spark任务执行过程&spark与yarn的对比

spark任务执行过程如下图Yarn和Spark的StandAlone调度模式对比ResouceManager Master 管理子节点、资源调度、接收任务请求NodeManger Worker 管理当前节点，并管理子进程YarnChild Executor 运行真正的计算逻辑的（Task）Clie...

2019-04-01 22:54:35 396

原创 spark的Spark Shell练习

定于：Spark Shell（是一个交互式的命令行，里面可以写spark程序，方便学习和测试，他也是一个客户端，用于提交spark应用程序）启动（本地单机版-非集群）：./bin/spark-shell上面的方式没有指定master的地址，即用的是spark的local模式运行的（模拟的spark集群用心的过程）./bin/spark-shell --master spark://hdp...

2019-04-01 22:49:23 617

原创提交第一个spark程序，以及中间遇到的坑

首先启动zookeeper集群（前面4天偷懒没搞，刚开始忘记启zookeeper= =！）./zkmanage.sh start/storp启动spark集群./sbin/start-all.shhdp02上启动master./sbin/start-master.sh运行语句bin/spark-submit --master spark://hdp01:7077 --class or...

2019-04-01 22:20:26 1970

原创 spark部署安装

在之前hadoop的五台虚拟机上，继续安装spark，具体操作步骤如下1.准备环境2.安装JDK3.上传spark安装包4.解压spark并修改配置文件（两个配置文件，第一个配置文件添加了3个配置文件）mv spark-env.sh.template spark-env.shvi spark-env.shexport JAVA_HOME=/usr/java/jdk1.8.0_11...

2019-03-27 21:00:12 156

原创 Spark个人理解

什么是spark：1.他能干MapReduce的活，区别主要放在内存技术，更快，如果内容满了，就内存+磁盘。2.支持编程语言：top1-scala、top2-python、top3-java、top4-R3.大数据计算框架全家桶，包含：批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）4.兼容性...

2019-03-26 22:48:21 198

原创 ElasticSearch中Java的APIdemo

java连接集群demopackage cn.edu360.es;import org.elasticsearch.action.get.GetResponse;import org.elasticsearch.client.transport.TransportClient;import org.elasticsearch.common.settings.Settings;imp...

2019-03-24 22:14:35 839

原创 ElasticSearch的SQL插件安装

es安装SQL插件./bin/elasticsearch-plugin install https://github.com/NLPchina/elasticsearch-sql/releases/download/5.4.3.0/elasticsearch-sql-5.4.3.0.zip#然后将解压到plugins目录下的内容拷贝到其他es的节点的plugins目录下载SQL的Server...

2019-03-24 21:00:38 198

原创 ElasticSearch的IK分词器下载&安装&操作demo

安装IK分词器下载对应版本的插件https://github.com/medcl/elasticsearch-analysis-ik/releases首先下载es对应版本的ik分词器的zip包，上传到es服务器上，在es的安装目录下有一个plugins的目录，在这个目录下创建一个叫ik的目录然后将解压好的内容，拷贝到ik目录将ik目录拷贝到其他的es节点重新启动所有的es#创建索引名...

2019-03-24 20:59:23 3056

原创 ElasticSearch安装head插件

#更新sudo yum update -y安装2个rpm包sudo rpm -ivh http://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpmsudo rpm -ivh https://kojipkgs.fedoraproject.org//packages/http-parser/2.7.1/3.el7/...

2019-03-22 23:08:07 196

原创 ElasticSearch个人理解以及基础的增删改成简单案例

RESTful接口URL的格式：http://192.168.10.16:9200///[]其中index、type是必须提供的。id是可选的，不提供es会自动生成。index、type将信息进行分层，利于管理。index可以理解为数据库；type理解为数据表；id相当于数据库表中记录的主键，是唯一的。下面是基础的增删改成#向store索引中添加一些书籍curl -XPUT 'ht...

2019-03-22 22:12:57 173

原创 ElasticSearch的集群安装实例

http://www.elastic.co/guide/en/elasticsearch/reference/current/setup-configuration.htmlhttps://github.com/elastic/elasticsearch###【在多台机器上执行下面的命令】####es启动时需要使用非root用户，所有创建一个xiaoniu用户：useradd xiaoni...

2019-03-21 23:01:19 222

原创 Elasticsearch的单机安装实例

1.安装JDK（1.8）2.上传解压Elasticsearch-5.4.33.创建一个普通用户，然后将对于的目录修改为普通用户的所属用户和所属组4.修改配置文件config/elasticsearch.ymlnetwork.host: 192.168.100.2115.启动ES，发现报错bin/elasticsearch#出现错误[1]: max file descriptors ...

2019-03-21 23:00:22 264

原创 echars-大数据展示框架-个人理解

echars个人理解，类似js+jquery+json+html，已经做好的框架，用来展现大数据官网中，操作简单，实例多echars官网：https://echarts.baidu.com/

2019-03-20 22:40:38 1984

原创 CentOS7与7之前版本一些命令的区别

新命令如下，熟悉一下即可，如果常用，百度大法#查看服务状态systemctl status NetworkManager#停止服务systemctl stop NetworkManager#启动服务systemctl start NetworkManager#禁止服务开机启动systemctl disable NetworkManager#设置服务开机启动systemctl e...

2019-03-19 22:21:39 1059

原创 lucene概念与自我理解

lucene是干什么的：文件搜索系统，例如可以用lucene+hdfs做一个百度lucene约等于domino==文档型数据库lucene存储方式是，把文件存成索引+文档的形式，索引里面有主键和关键字，主键关联文档，文档的存储就和domino文档型数据库一样了，但是他不是存在数据库中，而可以把数据放在hdfs上（PC/liunx磁盘都可以）。文档的存储方式就是key+value。...

2019-03-18 21:37:38 186

原创 sqoop中的2个大坑，注意避免

字符集必须统一--注意：将库和表的编码集改成utf8,命令如下：修改库的编码：mysql> alter database db_name character set utf8;修改表的编码：mysql> ALTER TABLE table_name CONVERT TO CHARACTER SET utf8 COLLATE utf8_general_ci; sqoo...

2019-03-16 20:53:38 1056

原创 sqoop常用命令

测试数据库连接bin/sqoop list-databases --connect jdbc:mysql://hdp20-04:3306/app --username root --password rootsqoop create-hive-table --connect jdbc:mysql://hdp20-04:3306/app --table uv_info --username...

2019-03-16 20:50:08 428

转载 sqoop错误ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied for

今日练习sqoop时，遇到如下错误ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied for user '经过百度后发现解决办法如下Warning: /usr/local/sqoop/…/hcatalog does not exist! HCatalog jobs...

2019-03-16 20:49:20 8858

原创 sqoop实战练习

安装，不必多说，上次服务器，解压即可操作数据库需导入支持jar包，eg：本次操作mysql，把mysql的jar包放到lib文件夹中测试sqoop与mysql是否互通测试数据库连接测试数据库连接 bin/sqoop list-databases --connect jdbc:mysql://hdp20-04:3306/app --username root --password root...

2019-03-16 20:47:11 442

原创 sqoop之个人理解

sqoop就是一个jdbc与MapReduce之间的桥梁，同时把他们封装起来了。底层就是MapReduce+jdbc的代码，让数据在他们之间互传。我们仅通过安装配置，然后简单的敲命令就可以完成数据互通（导入、导出）。下面是官方的一个简述qoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HI...

2019-03-14 22:55:16 230

原创 HIVE常用窗口分析函数-oracle也可同理

hive 窗口分析函数0: jdbc:hive2://localhost:10000> select * from t_access;±---------------±--------------------------------±----------------------±-------------±-+| t_access.ip | t_access.u...

2019-03-14 20:29:02 172

原创 FLUME导入数据到HDFS，HIVE建立外部表-载入外部表数据

FLUME采集数据到apps_log/clean/2019-03-12目录下HIVE创建外部表CREATE EXTERNAL TABLE ods_app_log ( sdk_ver string ,time_zone string ,commit_id string ... ) partitioned BY (day string ,os strin...

2019-03-12 23:45:28 758

原创今晚继续做app项目，FLUME报错java.lang.OutOfMemoryError: GC overhead limit exceeded

经百度，发现原因：进入flume bin目录下，修改flume-ng文件，如下图：红框的地方默认是20m，可以根据自己服务器内存大小设置，我这里设置的是10240m(也就是10个g)原文地址：https://blog.youkuaiyun.com/yybk426/article/details/80409173...

2019-03-12 22:48:16 502

原创 FLUME启动报错ERROR - org.apache.flume.source.SpoolDirectorySource$SpoolDirectoryRunnable.run(SpoolDirect

昨晚做项目，一切正常，今天重新执行，报错如下[ERROR - org.apache.flume.source.SpoolDirectorySource$SpoolDirectoryRunnable.run(SpoolDirectorySource.java:256)] FATAL: Spool Directory source source1: { spoolDir: /home/hdp01/a...

2019-03-12 20:32:26 3834 1

原创 hadoop项目实战-app后台日志数据统计系统

整体架构和数据处理流程如下图：本周末准备将其作为项目实战进行练习

2019-03-07 21:49:40 751

原创 HBase的java客户端2个实例java类

DDL实例类package cn.edu360.hbase.demo;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apa...

2019-03-06 21:54:27 161

原创 FLUME的2种配置

FLUME主要用的两种配置方法：1：spooldir - 用来一取某个文件夹下的所有日志。不断生成日志2：exec - 用来一取一个文件夹下的追加日志。eg-log4j打印日志到aaa.log最后一行启动命令：bin/flume-ng agent -c conf -f conf/tail-hdfs.conf -n a1spooldir 的配置#定义三大组件的名称ag1.s...

2019-03-05 23:12:55 218

原创 FLUME原理

FLUME是一个分布式采集组件通过简单的，安装，配置，即可实现夸平台采集数据FLUME采集主要分三部分：读数据（source）、缓存数据（channel）、写数据（sink）...

2019-03-04 22:19:10 288

原创大数据技术扫盲，你必须会的这些点

原博主禁止转载，只能存连接了https://blog.youkuaiyun.com/m0_37803704/article/details/87885817

2019-03-04 16:47:53 174

原创 HBASE命令行常用代码常用代码

集群启停集群启动 bin/start-hbase.sh单独启动master bin/hbase-daemon.sh start master增删改查进入命令行 bin/hbase shell显示表 list建表 create ...

2019-03-03 22:06:35 171

原创 HBase原理以及个人理解

HBase个人理解a.HBASE是一个分布式-数据库，可以提供数据的实时随机读写。b.HBASE是一个no-sql的数据库，需要用java来控制c.HBASE底层把数据都转换成byte类型进程存储，读取和写入都需要进行转换d.HBASE存储fangs，表里面row-id主键，列簇-collection集合-存放k-y：key-value的（cell-存储单元），底层存储还是k-y形式。...

2019-03-02 22:10:12 242

原创 FLUME工作原理

简单的说，flume就是一个采集框架，程序员通过配置配置文件，即可实现从hdfs的集群采集其他地方的数据，例如：mysql、hbase、log、json等。

2019-03-02 21:35:53 1087

原创启动zookeeper报错：Error contacting service. It is probably not running

几天不用zookeeper，重启集群报错Error contacting service. It is probably not running检查集群后发现是myid被删除导致，重新创建/zkdata/myid 重启zookeeper，系统恢复正常。...

2019-02-28 23:17:03 199

原创 HBase集群搭建

安装zookeeper集群（之前已安装好）安装hbasea.上次压缩包-解压缩b.修改配置文件修改hbase-env.shexport JAVA_HOME=/root/apps/jdk1.7.0_67 export HBASE_MANAGES_ZK=false修改hbase-site.xml&lt;configuration&gt; &lt;!-- 指定hbase在HDFS上存储...

2019-02-28 22:08:43 106

原创 Hive的学习心得-个人理解什么是hive

hive约等于sql+java→可以为所欲为的插入、查询读取数据。hql约等于sql主语法+java部分语法（array，map，stuct，字符类型、contacts等）hql约等于oracle里面的sqlshell约等于oracle中的存储过程+job定时任务（同样定时执行）自定义函数约等于用java写oralce里面的自定义函数...

2019-02-27 23:25:24 3137

原创 hive基础语法示例

create table t_a(name string,numb int)row format delimitedfields terminated by ‘,’;create table t_b(name string,nick string)row format delimitedfields terminated by ‘,’;load data local inpath ‘/...

2019-02-27 20:38:22 305

SSO单点登录Spring-Security+CAS+使用手册.doc

ExtJs教程.pdf

空空如也