
物联网&大数据知识的思考,总结和拓展
物联网&大数据知识的思考,总结和拓展
优惠券已抵扣
余额抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
牵牛刘先生
曾任职于用友政务软件JAVA大数据工程师,目前任职于河南丰博计量创新研究院云平台部部长,河南丰博水联网研发部智慧水务项目负责人及产品经理,河南丰博智能水联网有限公司技术研发部部长。
展开
-
【大数据技术干货】(还不懂数仓,数据中心?看这一篇就够了!)在实际的开发生产中,让你了解企业级数据中心整体架构(DB+ETL+ODS+DW+DM)的各个层次的过程详解,数据联系及功能区分
一 企业级数据中心架构数据仓库的整体架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。二 DB三 ETL(Extract-Transform-Load)ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ET原创 2020-05-27 10:26:40 · 1145 阅读 · 0 评论 -
【大数据技术干货】CDH6.3.1企业集群真正离线部署(使用Cloudera官方只提供rpm+http file部署方式部署),详尽图片步骤,生产可实践
一部署mysqlRPM部署MYSQL在生产上基本上用tar包安装装,原因如下1.MYSQLRPM安装:一般是个人学习 测试 快速部署使用RPM包安装完是在四目录下的,万一这个目录空间不够了,问题严重,所以需要蒋这个目录挂载到空间大的盘下tar安装:是定制化 企业级 (公司生产安装基本上用这种)如果我们提前使用prm安装好了mysql,那我们只需要加一个配置文件就好了my.cnf...原创 2020-05-12 17:33:28 · 476 阅读 · 0 评论 -
【大数据技术干货】集群中hive的企业级调优策略的五种出发点:1 Fetch抓取,2本地模式,3表的优化,4数据倾斜,5严格模式
hive企业级调优1 Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是mo...原创 2019-12-22 23:35:22 · 169 阅读 · 0 评论 -
【大数据技术详解】在实际开发应用中教你分别使用Hive的两种方式(自带函数get_json_object和udf自定义函数)来处理海量的Json数据
一json数据模型(100条)/rating.json :{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}{"movie":"661","rate":"3","timeStamp":"978302109","uid":"1"}{"movie":"914","rate":"3","timeStamp":"978301...原创 2019-12-22 21:34:04 · 551 阅读 · 0 评论 -
【大数据技术详解】当使用sqoopcreate-hive-table创建SQL表一样的hive表时容易的错误EncounteredIOExceptionrunning create table job
一解决使用sqoop create-hive-table创建SQL表一样的hive表表时容易遇到的错误:Encountered IOException running create table job1sql表city_info为:2使用sqoop创建SQL表一样的hive表hivecity:sqoop create-hive-table --connect jdbc:mysql://sh...原创 2019-12-21 23:19:24 · 1263 阅读 · 1 评论 -
【大数据技术详解】搭建redis集群服务的步骤和配置以及解决创建集群时会遇到的错误:NodeX replied with error:ERRInvalid node address specified
在redis节点创建完成之后,开始进行集群的搭建进入任意redis节点的src目录执行指令:./redis-cli --cluster create shuang:7000 shuang:7001 dashuang:7002 dashuang:7003 xiaoshuang:7004 xiaoshuang:7005 --cluster-replicas 1 --cluster-replic...原创 2019-12-18 19:56:43 · 2477 阅读 · 0 评论 -
【大数据技术干货】一次性完全总结分析spark中的三种抽象数据集(RDD、DataFrame和DataSet)的源码,定义,创建,用法,共性,区别,以及它们相互之间的联系
一RDD、DataFrame和DataSet的定义1Spark RDD①RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、弹性、里面的元素可并行计算的集合。在 Spark 中,对数据的所有操作不外乎创建 RDD、转化已有RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区,这些分...原创 2019-12-13 23:38:26 · 379 阅读 · 0 评论 -
【大数据技术干货】在kafka集群中,帮你更好的掌握productor产生数据,consumer消费数据的时候,都需要从哪些层面来考虑和优化产生消费数据的过程。
一在Kafka中无论是producer往topic中写数据,还是consumer从topic中读数据,都避免不了和offset打交道,关于offset主要有以下几个概念:①Last Committed Offset:consumer group最新一次 commit 的 offset,表示这个 group 已经把 Last Committed Offset 之前的数据都消费成功了。②Cu...原创 2019-12-13 00:10:04 · 456 阅读 · 0 评论 -
【大数据技术详解】scala写kafka的consumerAPI,在while里使用迭代器中的iterator().hasNext,iterator.next()函数为什么会出现无限循环消费数据的坑?
一kafaka的productor代码如下:import java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord}object kafkaproductor { def main(args: Array[String]): Unit = { val ...原创 2019-12-12 23:36:15 · 646 阅读 · 0 评论 -
【大数据技术详解】kafka集群中选择采用 “同group多consumer”+“同consumer多Thread”的方式来更好的来消费productor产生的数据
一如何更好的消费数据1多个consumer, 一个consumer group,数量小于等于partition的数量每个consumer都要维护一个独立的TCP连接,如果分区数和创建consumer线程的数量过多,会造成不小系统开销。但是如果处理消息足够快速,消费性能也会提升,如果慢的话就会导致消费性能降低。2一个consumer,多线程处理事件采用一个consumer,多个消息处理线...原创 2019-12-12 14:26:10 · 332 阅读 · 0 评论 -
【大数据技术干货】理解SparkContext,SparkSession,StreamingContext在实际开发的过程中的对各类数据库的应用点
一最大化效率从rdd中向mysql数据库中添加数据1代码如下:object sparksql { def main(args: Array[String]): Unit = { Logger.getLogger("org.apache.spark").setLevel(Level.WARN) //设置日志级别 var config = new SparkConf().s...原创 2019-12-10 13:39:33 · 992 阅读 · 1 评论 -
【大数据技术详解】理解spark的三种运行模式与SparkConf,SparkContext,SparkSession它们三者之间相互的属性关系及其初始化过程
1.Spark 属性Spark应用程序的运行是通过外部参数来控制的,参数的设置正确与否,好与坏会直接影响应用程序的性能,也就影响我们整个集群的性能。参数控制有以下方式:(1)直接设置在SparkConf,通过参数的形式传递给SparkContext,达到控制目的。(通过set()方法传入key-value对)比如:...原创 2019-12-09 20:58:36 · 1552 阅读 · 0 评论 -
【大数据技术干货】消除kafka等大数据框架启动运行都会出现警告:OpenJDK 64-Bit Server VM warning:If the number of processors.......
OpenJDK 64-Bit Server VM warning: If the number of processors is expected to increase from one, then you should configure the number of parallel GC threads appropriately using -XX:ParallelGCThreads=N...原创 2019-12-09 16:15:10 · 1365 阅读 · 0 评论 -
【大数据技术干货】帮你解决凡是window操作hadoop都会遇到的问题异常:Failed to locate the winutils binary in the hadoop binarypath
一异常:java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.1我每次在idea中操作spark,hbase,hdfs,mapreduce等与服务器集群中的搭建的hadoop集群有关联的时候,都会报出这个错误,例如当我准备把spark:rdd中的数据上传到mys...原创 2019-12-09 14:50:48 · 198 阅读 · 0 评论 -
【大数据技术干货】教你如何快速启动spark,巧妙化解hdfs,yarn,spark等框架时有关启动命令和关闭命令相互冲突的问题
默认命令:单独dfs的启动的关闭start-dfs.shstop-dfs.sh单独的yarn的启动和关闭start-yarn.shstop-yarn.shdfs,yarn一同的启动和关闭start-all.shstop-all.sh单独的spark的启动关闭start-all.shstop-all.sh...原创 2019-11-28 14:04:19 · 517 阅读 · 0 评论 -
【大数据技术详解】集群中(外置zookeeper)和(hbase)各自的基本配置,基本shell用法操作和它们(外置zookeeper)+(hbase)之间相互整合配置以及协同工作中的过程与联系大数据
一 Zookeeper1.1 概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现集群中类似...原创 2019-11-27 11:30:46 · 250 阅读 · 1 评论 -
【大数据技术干货】在java语言和scala语言中,在正则表达式中,我们习惯使用反斜杠(“\“)使使后面的字符具有特殊的意义,但你有没有思考过正斜杠(“/”)是否也代表某种匹配模式?
一首先了解java/scala语言在正则表达式上的特殊性1不同语言正则表达式语法的异同①在其他语言中:\(双反斜杠) 表示:我想要在正则表达式中插入一个普通的(字面上的)反斜杠,请不要给它任何特殊的意义。②在 Java /scala中:\(双反斜杠) 表示:我要插入一个正则表达式的反斜线,所以其后的字符具有特殊的意义。根据 Java Language Specification 的要求...原创 2019-11-18 15:17:53 · 533 阅读 · 2 评论 -
【大数据技术干货】教你如何设置hdfs文件系统用户目录,以便轻松使用hdfs dfs -ls命令快速访问对于当前目录下相对路径的hdfs文件
一 命令 hdfs dfs -ls 和hdfs dfs -ls /1当我们习惯使用hdfs dfs -ls / 访问hdfs文件系统的文件,有没有曾想过hdfs还可以快速直接以当前目录访问文件,当我们在shell端输入 hdfs dfs -ls 或者hdfs dfs -ls ....原创 2019-11-16 00:08:28 · 1822 阅读 · 0 评论 -
【大数据技术详解】在使用Mysql替换Deby作为Hive的matastore过程中需要注意的问题和容易发生的错误
需要关闭防火墙,开放3306端口service iptables status (功能描述:查看防火墙状态)chkconfig iptables --list (功能描述:查看防火墙开机启动状态)service iptables stop (功能描述:临时关闭防火墙)chkconfig iptables off (功能描述:关闭防火墙开机启动)chkconfig iptables on ...原创 2019-11-14 14:31:27 · 260 阅读 · 0 评论 -
【大数据技术详解】“在MapReduce框架的规约流程中,为什么不把Combiner功能作为默认配置?“的问题
一 执行mapreduce的两种驱动流程1 无combiner功能时的驱动流程 //加载配置类 Configuration configuration = new Configuration(); //实例JOB Job job = Job.getInstance(configuration); //打Jar包 ...原创 2019-11-06 22:10:57 · 181 阅读 · 0 评论 -
【大数据技术详解】HADOOP的资源调度平台YARN基本架构的工作机制和其中三种Scheduler资源资源调度器不同的调度机制
一 Yarn概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。二 Yarn基本架构YARN主要由ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM)和Container等组组成。ResourceManager基本...原创 2019-11-06 13:08:04 · 309 阅读 · 0 评论 -
【大数据技术详解】HADOOP系统Linux端中HDFS的配置与JAVA客户端Configuration类的初始化过程的联系与意义
1 了解HadoopDistributed File System**Hadoop分布式文件系统(HDFS)**被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。分布式文件系统(Distributed File S...原创 2019-10-30 17:49:20 · 568 阅读 · 1 评论 -
【大数据技术干货】安装hadoop的过程中,轻松三个步骤解决使用hadoop version 命令后出错(java: No such file or directory)的问题
[一,在linux下测试hadoop是否安装成功的方法:使用hadoop version命令查看hadoop版本信息]如上图所示,出现以上错误,可以看出linux系统找不到java命令,我们可以去检查一下linux系统下的 PATH路径是不是没有配置该路径。[二,echo $PATH 查看 path路径]确认已经配置该路径。[三,确认path下的 javahome 路径是否配置错误]...原创 2019-10-28 10:21:51 · 4858 阅读 · 0 评论