
大数据
文章平均质量分 62
前行中632
不想被淘汰的码农
展开
-
安装hadoop3.0版本踩坑
1、hdfs的web页面默认端口是9870 yarn的web页面端口是8088 2、配置文件中的slaves文件没了,变成了workers文件,在里面配置datanode节点 3、在进行namenode格式化是有几个Fail,不要因此怀疑自己,只要common.Storage: Storage directory /usr/local/hadoop-3.0.2/hdfs/name has b...原创 2018-06-29 17:26:08 · 16969 阅读 · 7 评论 -
互联网时代的IP技术
IP技术是整个互联网中心的核心技术它能够如此盛行的两个原因简单整个IP技术都十分简单,让人容易理解,运用,即使不懂技术的人,也很容易明白它的原理分布式控制架构IP技术可分为三个平面:管理面,数据面,分发面IP技术作用于各个路由器上,最初由人为的去配置路由表,实现路由,但是这样很容易出问题,一旦其中一个环节坏了,那整个网络都不通了动态路由协议的出现,解决了这个...原创 2018-07-02 08:35:45 · 2084 阅读 · 0 评论 -
spark消费kafka时自助管理offset方法
offset的保存位置 在Kafka0.9版本之前消费者保存的偏移量是在zookeeper中/consumers/GROUP.ID/offsets/TOPIC.NAME/PARTITION.ID。新版消费者不再保存偏移量到zookeeper中,而是保存在Kafka的一个内部主题中“__consumer_offsets”,该主题默认有50个分区,每个分区3个副本,分区数量有参数offset.to...原创 2018-07-28 12:02:03 · 4757 阅读 · 1 评论 -
Spark Streaming的Batch Duration优化
Spark Streaming 是微批处理。 SparkConf sparkConf = new SparkConf().setAppName("SparkStreaming").setMaster("local[*]"); JavaStreamingContext javaStreamingContext = new JavaStreamingContext(sparkConf, Dur...原创 2018-09-01 14:02:58 · 7461 阅读 · 0 评论 -
Spark-Streaming+kafka实现零丢失
kafka和sparkstreaming是两种适配很好的技术,两者都是分布式系统适用于处理大量数据,两者对于实现数据的零丢失并没有提供现成的解决方案,所以这篇文章就是希望可以帮助你完成这个目标注:使用Spark Streaming的Direct Stream方式连接kafka,并通过存储偏移量到zookeeper中,来实现数据零丢失,不要使用CheckPoints问题介绍:Spark Stre...翻译 2018-09-22 13:03:03 · 551 阅读 · 0 评论 -
ES数据类型:type与keyword
_mappingGET /megacorp/_mapping/employee获取megacorp索引中的employee类型进行mapping,模式定义ES中数据类型在最新版本中,Filed datatypes 官网链接简单的类型有 text、keyword、date、long、double、boolean和ip复杂类型有:object和nested较特殊的类型:geo_poi...原创 2019-03-30 12:07:47 · 28331 阅读 · 0 评论 -
Ubuntu18配置elasticsearch服务开机自启踩坑
Ubuntu18.4TLS实现ES服务自启动的详细步骤在/etc/init.d目录下,添加执行的脚本,并指明RUNLEVEL以及abort等内容避免类似下面的报错update-rc.d: error: mydaemonDefault-Start contains no runlevels, aborting给出elasticsearch的样例脚本elasticsearch.serv...原创 2019-04-03 19:27:11 · 6125 阅读 · 4 评论