
hadoop
文章平均质量分 80
流萤的花火
这个作者很懒,什么都没留下…
展开
-
Spark中的Spark Shuffle详解
Spark中的Spark Shuffle详解 Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消耗和内存,磁盘IO的消耗。通常shuffle分为两部分:Map阶段转载 2022-03-21 23:45:20 · 786 阅读 · 0 评论 -
Eclipse运行wordcount程序时报Connection timed out: no further information
Eclipse运行wordcount程序时报错,信息如下: 2020-08-15 16:12:32,580 INFO [main] mapreduce.Job (Job.java:monitorAndPrintJob(1367)) - map 0% reduce 0% 2020-08-15 16:12:52,739 WARN [LocalJobRunner Map Task Executor #0] hdfs.BlockReaderFactory (BlockReaderFactory.java:g...原创 2020-08-15 16:59:39 · 679 阅读 · 0 评论 -
flink
https://www.cnblogs.com/importbigdata/p/10747061.html转载 2020-06-18 09:53:27 · 387 阅读 · 0 评论 -
solr
环境:cloudera-quickstart-vm-5.13.0-vmware solr版本:4.10.3 solr web操作: 插入数据: 导入csv格式文件: 1.cd /var/lib/solr/test_conf/conf 编辑schema.xml和solrconfig.xml这两个文件: schema.xml: <field name="id" ty...原创 2019-12-12 15:20:17 · 140 阅读 · 0 评论 -
HDP
https://www.cnblogs.com/sanyuanempire/p/6164116.html?utm_source=itdadao&utm_medium=referral转载 2019-12-11 10:56:53 · 342 阅读 · 0 评论 -
vm-quick-start使用
根据需要去官网下载所需cdh vm-quick-start镜像用虚拟机打开进入以后发现连接打不开: 其实是cloudera-manger没有启动,切换至如下目录:/home/cloudera, ./cloudera-manager --force --express,命令成功执行后如图所示: ,重新进入即可 常用端口:7180,8088,50070 hadoop e...原创 2019-09-15 21:08:15 · 356 阅读 · 0 评论 -
利用 Docker 搭建单机的 Cloudera CDH 以及使用实践
利用 Docker 搭建单机的 Cloudera CDH 以及使用实践:https://www.cnblogs.com/piperck/p/9917118.html转载 2019-04-28 16:02:50 · 921 阅读 · 0 评论 -
hive爬坑
hadoop: 1.core-site.xml 配置ip和port的时候不能用localhost,必须用ip或者主机名; 2.必须进行格式化,特别是namenode 名称发生变化的时候:bin/hdfs namenode -format 3.成功启动后,可以访问 Web界面http://ip:50070查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文...原创 2019-03-23 16:28:43 · 211 阅读 · 0 评论 -
Hive
HIVE建表: 1.txtfiel格式存储: 存储方式为行存储,磁盘开销大 ,数据解析开销大,但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。 例子:CREATE EXTERNAL TABLE page_view_stg(viewTime INT, userid BIGINT, page_url STRING, referrer_url...原创 2019-03-24 20:51:37 · 168 阅读 · 0 评论 -
zookeeper
zookeeper节点关系:http://www.cnblogs.com/dream-to-pku/p/9513188.html转载 2019-02-14 09:54:47 · 135 阅读 · 0 评论 -
Hbase
Hbase: row key: column family: qualifier column: ---------- create 'emp','personal data','professional data'; put 'emp','1','personal data:name','raju'; disrcibe 'em...原创 2019-01-29 13:18:25 · 233 阅读 · 0 评论 -
zookeeper+sorl 伪分布式搭建
1 什么是SolrCloud SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud。当一个系统的索引数据量少的时候是不需要使用SolrCloud的,当索引量很大,搜索请求并发很高,这时需要使 用SolrCloud来满足这些需求。 SolrCloud是基于Solr和Zookeeper的分布式搜索方案,...原创 2018-09-12 15:02:27 · 215 阅读 · 0 评论