- 博客(78)
- 资源 (6)
- 收藏
- 关注
原创 Hadoop手把手教你生态搭建及项目实战系列(十)Hadop I/O
CompressionCode有两个方法可以用于轻松地压缩或解压缩数据。要想对正在被写入一个输出流的数据进行压缩,我们可以使用createOutputStream(OutputStream out)方法创建一个CompressionOutputStream,将其以压缩格式写入底层的流。相反,要想对从输入流读取而来的数据进行解压缩,则调用createInputStream(InputStream in)函数,从而获得一个CompressionInputStream,从而从底层的流读取未压缩的数据。
2024-11-11 13:26:59
449
原创 Hadoop手把手教你生态搭建及项目实战系列(九)Hadoop序列化
序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。
2024-11-11 13:25:51
760
原创 Hadoop手把手教你生态搭建及项目实战系列(七)HDFS API客户端操作
整个系列的内容包括:(一)环境准备(二)Hadoop伪分布式集群模式初步实现(三)Hadoop伪分布式集群模式整体实现(四)Hadoop完全分布式集群模式初步实现(五)Hadoop完全分布式集群模式整体实现(六)HDFS Shell命令(七)HDFS API客户端操作(八)MapReduce案例(九)Hadoop序列化(十)Hadop I/O。
2024-11-11 13:11:51
834
原创 Hadoop手把手教你生态搭建及项目实战系列(六)HDFS Shell命令
把hdfs上/hello/hello1/daxiongmao.txt文件复制到/hello/下。把hdfs中/hello/daxiongmao.txt文件移动到/下。修改文件xiaoxiongmao.txt所在的组为hadoop。修改文件xiaoxiongmao.txt文件具有处理的权限。把文件daxiongmao.txt副本数量设置为10个。把hdfs中/daxiongmao.txt下载到本地。首先创建/hello/hello2/这个空目录。副本,只有节点数的增加。显示文件夹大小带单位。
2024-11-11 12:54:04
698
原创 Hadoop手把手教你生态搭建及项目实战系列(五)Hadoop完全分布式集群模式整体实现
在 Hadoop 的完全分布式集群模式中,集群中的各个节点分布在多台物理机器上,实现真正的分布式计算。这种模式适用于大规模数据处理的生产环境,能够充分利用多台机器的资源,实现高效的数据存储和处理。(分布式文件系统):负责数据的分布式存储。NameNode 管理文件系统的元数据,多个 DataNode 分布式地存储数据块,并通过复制机制提高数据可靠性。(资源调度和管理系统):负责计算资源的分配和任务管理。
2024-11-11 12:26:26
69
原创 Hadoop手把手教你生态搭建及项目实战系列(四)Hadoop完全分布式集群模式初步实现
在 Hadoop 的完全分布式集群模式中,集群中的各个节点分布在多台物理机器上,实现真正的分布式计算。这种模式适用于大规模数据处理的生产环境,能够充分利用多台机器的资源,实现高效的数据存储和处理。(分布式文件系统):负责数据的分布式存储。NameNode 管理文件系统的元数据,多个 DataNode 分布式地存储数据块,并通过复制机制提高数据可靠性。(资源调度和管理系统):负责计算资源的分配和任务管理。
2024-11-11 12:16:56
863
原创 Hadoop手把手教你生态搭建及项目实战系列(三)Hadoop伪分布式集群模式整体实现
伪分布式集群模式是一种在单台机器上模拟分布式环境的模式,适合学习和开发。它介于完全分布式和单节点模式之间,通过在一台计算机上配置多个 Hadoop 节点(如 NameNode、DataNode、ResourceManager、NodeManager 等),实现 Hadoop 集群的基础操作。伪分布式模式适合新手初步了解 Hadoop 的架构和运行机制,熟悉之后可以向完全分布式模式过渡。
2024-11-11 11:45:35
869
原创 Hadoop手把手教你生态搭建及项目实战系列(二)Hadoop伪分布式集群模式初步实现
伪分布式集群模式是一种在单台机器上模拟分布式环境的模式,适合学习和开发。它介于完全分布式和单节点模式之间,通过在一台计算机上配置多个 Hadoop 节点(如 NameNode、DataNode、ResourceManager、NodeManager 等),实现 Hadoop 集群的基础操作。伪分布式模式适合新手初步了解 Hadoop 的架构和运行机制,熟悉之后可以向完全分布式模式过渡。
2024-11-11 11:18:36
708
原创 远程调试、git相关操作及初工作的心得体会(git中的相关问题及解决方法)
服务器端的bootstrap.sh 或者 start.sh 需要加上调试参数-Xdebug -Xrunjdwp:transport=dt_socket,address=8883,server=y,suspend=n 其中8883是服务器的调试端口,需要和服务的启动端口例如8880不一致才行。eclipse端:当两者都配置完即可进行远程调试。好多技巧都已经忘记了...
2019-08-15 13:48:15
262
原创 java面试题目整理
1、Java中int占多少个基本字节,有哪几个基本类型?int占4个字节,32位,8个基本类型包括四种整数类型(byte、short、int、long);两种浮点数类型(float、double);一种字符类型(char);一种布尔类型(boolean)2、java面向对象的特征?几多抽风 (继承,多态,抽象,封装)3、java的装箱和拆箱因为面向对象的语言的基本特征是封装,所以...
2019-06-09 17:23:47
512
原创 python
参考链接 https://www.cnblogs.com/jin-xin/p/9076242.html pass continue break 三个的区别注意多引号不光是注释 如果是在最开始的多行引号就是注释,如果是在里面的多行引号则是换行符while else:当 while 循环被break 打断的时候 else不会被执行%%只是单纯的显示%Unico...
2018-09-07 19:59:34
946
1
原创 企业级大数据平台构建
edt搭建环境要求操作系统均为CentOS6.4、JDK版本为1.7、Python版本为2.6。 注意创建虚拟机的时候要多给些内存最好80G或者更大,因为默认情况下可能只会分配20G1. 搭建本地yum源仓库(1)    下载离线安装包因为是离线安装,所以我们首先需要下载Ambari和HDP的离线安装包。这里使用的是Ambari2.4...
2018-07-18 08:47:33
2549
转载 使用优快云-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...
2018-07-18 08:44:07
157
原创 ElasticSearch+ElasticSearch的搜房网实战(在windows搭建的es分布式环境)
可以参考windows环境下ElasticSearch5以上版本安装head插件 两个重点的链接!!!!点击打开链接 点击打开链接 es和head插件分属于两个不同的东西,两个东西的访问时有跨域的问题,需要有跨域问题的一些配置。elasticsearch-5.6.5\config\elasticsearch.yml的配置master的配置http...
2018-06-16 21:37:37
1986
1
原创 从天气项目看Spring Cloud微服务治理 中遇到的问题和知识点总结
要记住的几个注解@SpringBootApplication这是程序的入口@Configuration@Bean这是需要配置文件所用到的注解@RestController@RequestMapping("/weather")这是 controller层常用的注解@Service这是service层常用的注解...
2018-06-13 21:30:40
1570
转载 杂记
java类中serialversionuid 作用 是什么?举个例子说明serialVersionUID适用于Java的序列化机制。简单来说,Java的序列化机制是通过判断类的serialVersionUID来验证版本一致性的。在进行反序列化时,JVM会把传来的字节流中的serialVersionUID与本地相应实体类的serialVersionUID进行比较,如果相同就认为是一致的,可以进行反序...
2018-06-04 19:22:33
183
原创 spark streaming 学习(和flume结合+和kafka 的结合)
spark streaming 是实时计算spark core 之类的涉及到rdd的是离线计算所以说spark即是实时计算,又有离线计算spark streaming 的第一个例子利用 nc -lk 8888 在192.168.235.128的8888端口开启一个输入消息的应用在IDEA上建立一个spark streaming的程序package com.wxa.spark.fourimpor...
2018-05-27 14:56:15
1128
原创 spark结合hive
如果mysql是安装在windows上的话,hive在Linux上,要保证两者能通信的话需要改变windows上的字符集形式为latin1方法如下alter database hive character set latin1;话不多说码代码(hive shell里面 机器只启动了hdfs没有启动yarn所以没有启动hadoop的mapreduce程序)create table pe...
2018-05-27 10:16:06
706
原创 再探spark之二
spark的cache缓存其中的方法 (保存在内存中) .cache() //进行缓存.unpresist(true) //对资源进行释放spark的checkpoint机制(保存在hdfs中)(checkpoint和cache都属于transformation 需要action才能执行)sc.setCheckpointDir("hdfs://hadoop01:9000/ck2018523")v...
2018-05-24 17:25:08
511
原创 再探spark之一(复习之前)加spark如何实现远程调试代码
没启动spark的话。可以通过 sbin/start-all.sh 来启动spark按crtl+c来终止任务,而不是ctrl+zspark-shell --master spark://192.168.235.128:7077 连接到spark上 spark-shell --master spark://192.168.235.128:7077 --total-executor-cores 3 ...
2018-05-15 18:30:26
612
原创 redis 学习之一(数据结构)
通用方法 incr decr incrby decrbyredis string方法 get set mset mget setex expire保存对象的两种方式 //保存序列化之后的对象 jedis.set("user:liudehua:obj".getBytes(), getBytesByProduct(person) ); //j...
2018-05-13 16:58:58
309
转载 java爬虫的几个实例
单个网页爬取package redis.list;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.select.Elements;/** * 访问单个新闻页: * http://www.huxiu.com/article/102062/1.html 需要:标题,内容 */publi...
2018-05-13 15:57:53
4887
2
原创 storm+kafka的实战
分为本地模式如果是本地的话可以直接将代码运行起来如果是在集群上跑的话,最好将打了包的jar传上来,这样可以防止一些没有的jar包上面本身就有。需要注意的是 provide是将包不打进来 compile是默认的打包方式,是将包都打进来storm jar wxaStormwordcount-1.0.jar cn.itcast.storm.kafkaAndStor...
2018-05-10 17:36:19
712
原创 再探kafka+flume实战
命令启动zookeeper启动两台机器上的kafakanohup kafka-server-start.sh $KAFKA_HOME/config/server.properties &启动kafka的消费端kafka-console-consumer.sh --zookeeper hadoop01:2181 --topic test启动flume端(kafka是两个机器都要启动,flu...
2018-05-10 13:01:10
504
原创 IDEA用法总结之三(以及总结今天用IDEA实现spring+springmvc+mongodb的后台项目)
在IDEA上使用IDEA的时候:先创建一个maven-archtype-webapp的maven然后再在项目里面新建一个 resouces ,然后标记为Resource root;新建一个名为java的directory,然后将其标为Sources root 将configfile例如springmvc.xml,applicationContext.xml放到Sources root ...
2018-05-08 23:45:33
1198
转载 IDEA总结之二(用IDEA新建一个spring结构的web项目)
先建一个普通的web项目,如果不会的话可以参考之前的IDEA总结之一(如何新建 普通的maven +web项目以及如何运行mavenweb项目)点击打开链接然后右键项目 Add Framwork Support...这里也说一下如何快速的新建springboot点击New Project后,选择Spring Initializr点击打开链接...
2018-05-08 14:41:16
1214
转载 IDEA总结之一(如何新建 普通的maven +web项目以及如何运行mavenweb项目)
新建maven web 项目的时候,在新建maven的时候选择 maven-archtype-web就可以了运行mavenweb项目的时候用下面的网址 需要注意的是这里用的不是pom里配置的tomcat 而是自己配置的本地的tomcat参考下面的链接https://www.cnblogs.com/Fly-Bob/p/7240153.html...
2018-05-08 13:25:03
1682
原创 pom文件范例
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0....
2018-05-08 12:56:27
1713
原创 windows服务的一些命令(安装mongdb时候遇到的)
SC Delete 服务名 可以删除服务CMD命令行中,文件名有空格怎么输入?把文件名用"" 引号引起来就可以了,例如"c:\Program Files"。用来启动服务mongod --config "D:\Program Files\MongoDB\Server\3.4\conf\mongodb.config"参考https://www.cnblogs.com/khoe/p/7457345....
2018-05-07 22:42:05
152
原创 kafka 和storm Java api编程中 pom文件范例
要注意的是运行的时候可能会遇到日志文件jar包重复的情况,这里要用到<exclusions>排除如下 <exclusion> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifact...
2018-05-07 17:03:56
842
原创 kafka java api
kafka java api生产者package com.wxa.storm.kafka;import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig;import java.util.Properties;import ja...
2018-05-07 16:43:56
511
原创 再探kafka之二!!(重要!!)
启动kafka!!!!!!!!!!(通过kafka-server-start.sh $KAFKA_HOME/config/server.properties启动)kafka是要先启动的!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!(重要的事情说三遍)telnet不通9092不一定是开不开放端口的问题有可能是端口上的程序没有启动的原因,只有先启动了程序才能判断这个端口是...
2018-05-07 16:38:54
605
原创 linux 学的一些需要记得命令
history命令 可以用!加上命令的行号,执行历史纪录的命令more命令查看文件中,f命令向下翻页,b命令向上翻页cd ~ 快速回家cd - 回到上次的位置ctr +c 不想删可用来中止换行软连接 相当于新建了一个文件,硬连接相当于新建了一个引用CentOS 是一个基于Red Hat Linux 提供的可自由使用源代码的企业级Linux发...
2018-05-06 21:07:30
187
原创 redis相关
https://blog.youkuaiyun.com/jinwufeiyang/article/details/52156817https://www.cnblogs.com/springlight/p/6288902.html config set requirepass "123" 设置redis的密码 config get requirepass (下面的链接)Hbase中构造过滤器 https://...
2018-05-06 21:06:46
129
原创 关于telnet的一些事情
windows要实现telnet要打开一些服务才行Linux也需要实现某些服务才行,要先安装telnet和telnet-server服务,然后再在/etc/xinetd.d/telnet将禁用个屏蔽掉就可以了netstat -lnp|grep 2181 表示端口被什么进程所占用vi /etc/sysconfig/iptables...
2018-05-06 21:06:14
281
原创 Hive学习笔记
beeline可以用!connect jdbc:hive2://localhost:10000 用来连接hiveserver2启动的hive服务建表操作CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_co...
2018-05-06 21:05:34
379
原创 再探kafka之一
启动kafka!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!kafka是要先启动的!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!下面是server.properties的配置文件 server.properties的配置文件#broker的全局唯一编号,不能重复broker.id=0#用来监听链接的端口,produce...
2018-05-06 21:04:17
131
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人