
大数据
文章平均质量分 71
Mingsheng Zhang
20年开始工作于金山云调度算法,主要是做优化算法,包括运筹优化,机器学习优化
展开
-
HIve 常见数据压缩方式对比
转自:https://blog.youkuaiyun.com/weixin_36714575/article/details/8009157五.结论1.在压缩存储时间上,除Sequencefile外基本都相差无几。2.数据压缩比例上ORC最优,相比textfile节省了50倍磁盘空间,parquet压缩性能也较好。3.SQL查询速度而言,ORC与parquet性能较好,远超其余存储格式。综合上述各种性能指标,建议工作中原始日志写入hive的存储格式都采用ORC或者parquet格式,这和目前主...转载 2021-03-06 15:26:06 · 1283 阅读 · 0 评论 -
Hadoop 权威指南学习笔记(十一)
HIVEHiveQL 一般是大小写无关的(除了字符串比较以外)hive 新建表:ROWFORMAT 子句是 HiveQL所特有的。这个子句所声明的是数据文件的每一行是由制表符分隔的文本。 Hive 按照: 每行三个字段,分别对应于表中的三列,字段间以制表符分隔 每行以换行符分隔,这一格式读取数据。LOADDATA 语句中的 OVERWRITE 关键字告诉 Hive 删除表所对应目录中已有的所有文件。如果省去这一关键字, H...原创 2021-01-24 20:45:36 · 174 阅读 · 0 评论 -
Hadoop 权威指南学习笔记(十)
关于Pig pig为大型数据集的处理提供了更高层次的抽象,Pig 是作为一个客户端应用程序运行的原创 2021-01-23 18:32:45 · 178 阅读 · 0 评论 -
Hadoop 权威指南学习笔记(九)
管理 Hadoopdfs.name.dir 属性描述了一组目录,VERSION文件包含:namespaceID=134368441 cTime=0 storageType=NAME_NODE layoutVersion=-18 属性 namespaceID 是文件系统的唯一标识符,是在文件系统首次格式化时设置的。cTime 属性标记了 namenode 存储系统的创建时间,...原创 2021-01-21 23:15:17 · 187 阅读 · 0 评论 -
HIveql 常用语法
Hive 删除表中部分数据1、hive表删除数据不能使用DELETEFROM table_name中SQL语句2、hive表删除数据要筛选出数据覆盖原来的数据INSERT OVERWRITE TABLE table_name PARTITION(dt='v3')SELECT column1,column2 FROM table_nameWHERE dt='v3' AND category is not null;二、无partiton表INSERT OVERWRITE T..原创 2021-01-19 22:10:16 · 220 阅读 · 0 评论 -
Hadoop 权威指南学习笔记(八)
构建Hadoop集群尽管建议采用 RAID(Redundant Array of Independent Disk,) 作为 namenode 的外部存储器以避免元数据冲突,但在 datanode 中使用 RAID 作为外部存储器井不会 HDFS 带来好处。因为 HDFS 所提供的节点间复制技术己满足了数据备份需求,无需使用 RAID 的冗余机制。如果 JBOD 配置的某一磁盘出现故障, HDFS 还可以忽略该磁盘,继续工...原创 2021-01-17 17:33:25 · 208 阅读 · 0 评论 -
Hadoop 权威指南学习笔记(七)
MapReduce 的特性7.1 计数器 计数器是一种收集作业统计信息的有效手段,用于质量控制或应用级统计。计数器还可辅助诊断系统故障。Hadoop 为每个作业维护若干内置计数器,以描述该作业的各项指标。任务计数器 在任务执行过程中,每个作业的所有任务的结果都会被任务计数器聚集起来。计数器由其关联任务维护,井定期传到 tasktracker .再由 tasktracker 传给 jobtracke...原创 2021-01-16 22:08:08 · 133 阅读 · 0 评论 -
Hadoop 权威指南学习笔记(六)
MapReduce 的类型与格式默认的输入格式是 TextlnputFormat ,它产生的键类型是 LongW table( 文件中每行中开始的偏移量值),值类型是 Text( 文本行)。这也解释了最后输出的整数的 含义:它们是行偏移量。map 任务是由 MapRunner 负责运行的, MapRunner MapRunnable 的默认实现,它顺序地为每一条记录调用一次 Mapper map() 方法。默认的输出格式是 TextOut...原创 2021-01-16 18:29:44 · 294 阅读 · 0 评论 -
Hadoop 权威指南学习笔记(五)
MapReduce 的工作机制5.1剖析 MapReduce 作业运行机制客户端:提交 MapReduce 作业。 jobtracker: 协调作业的运行。 jobtracker 是一个 Java 应用程序,tasktracker: 运行作业划分后的任务。 tasktracker Java 应用程序,分布式文件系统(一般为 HDFS),用来在其他实体间共享作业 文件。maperd.job.tracker: 如果被设置为local,则在本地测...原创 2021-01-10 18:12:16 · 330 阅读 · 0 评论 -
Standby NameNode 一直重启不成功
不知道怎么把Standby NameNode 搞挂了之后就一直重启不成功,可能是由于执行了一次格式化,尝试了把Standby NameNode的clusterID保持一致,但是还是怎么都没重启成功,还是要好好看报错信息,很多次执行hdfs namenode -bootstrapStandby有报错,但是没注意看,以为成功了,接着执行后面的。方案确保Active NameNode是正常工作 不要从Active NameNode节点/hadoop/hdfs/namenode目录下拷贝任何数据到Sta.原创 2021-01-02 16:49:58 · 622 阅读 · 0 评论 -
Hadoop 权威指南学习笔记(四)
MapReduce 应用开发MapReduce 来编写程序,有一个特定的流程。首先写 map 函数和 reduce 函数,最好使用单元测试来确保函数的运行符合预期。然后,写一个驱动程序来运行作业,要看这个驱动程序是否可以运行,可以从本地 IDE 用一个小的数据集来运行它。如果驱动程序不能正确运行,就用本地 IDE 调试器来找出问题根源。通过这 些调试信息,可以加大单元测试使其覆盖这一测试用例,从而改进 mapper,reducer ,尽可能正确地处理...原创 2020-12-27 22:00:53 · 151 阅读 · 0 评论 -
refresh table 和 msck repair table 的区别
https://stackoverflow.com/questions/45107866/aws-athena-msck-repair-table-takes-too-long-for-a-small-datasethttps://athena.guide/articles/msck-repair-table/https://www.jianshu.com/p/c1b0dc86f9b0S3https://zhuanlan.zhihu.com/p/112057573原创 2020-12-21 22:29:06 · 8776 阅读 · 0 评论 -
Sqoop 常用参数解释
sqoop import --connect \jdbc:mysql://IP:端口/数据库?useSSL=false \--driver com.mysql.jdbc.Driver \--hive-import \--hive-overwrite \--hive-database model_info \--hive-table schedule_cutpeak_node \--target-dir /user/sff/schedule_cutpeak_node/d=$partition_d原创 2020-12-19 18:08:27 · 517 阅读 · 0 评论 -
metabase Both left and right aliases encountered in JOIN
有的软件不支持left join 语句on 条件中有不等式操作(zepplin中支持,但是metabase中不支持)。解决办法(需要验证条件在on中的结果和在where中的结果是否一致):1、把不相等条件拿到where语句中2、如果第一中方法不适用,可以在select字段中判断本人使用了第一种方法,发现所得出的结果是有差异的.-- 代码一select a.*, b.flag, b.date from test_a a left join(select flag, date..原创 2020-11-07 17:02:24 · 250 阅读 · 1 评论 -
Hadoop 权威指南学习笔记(三)
第四章 I/O4.1 数据完整性检测数据是否损坏的常见措施是,在数据第一次引入系统时计算校验和(checksum) , 井在数据通过一个不可靠的通道进行传输时再次计算校验和,这样就能发现数据是否损坏。HDFS 会对写入的所有数据计算校验和,井在读取数据时验证校验和。...原创 2020-11-02 22:03:38 · 217 阅读 · 0 评论 -
hive 中的序列化和反序列化
Hive支持多种数据存储的格式,序列化/反序列化只是其中的一种格式,其他类型可参考:https://www.cndba.cn/dave/article/3405 当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;接收方则需要把字节序列恢复为对象,称为对象的反序列化。序列化是对象转化为字节序列的过程;反序列化是字节码恢复为对象的过程;序列化的作用主要有两个...原创 2020-10-18 17:16:56 · 1947 阅读 · 0 评论 -
Hadoop 权威指南学习笔记(二)
第三章当数据集的大小超过一台独立物理计算机的存储能力时,就有必要对它进行分区 (partition) 井存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件 系统称为分布式文件系统(distributed filesystem) 。该系统架构于网络之上,势必会 引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂。流式数据访问HDFS 的构建思路是这样的:一次写入、多次读取是最高效的访问模式,Hadoop 井不需要运行在昂贵且高可靠的硬件上,低时间延迟的数据访问,由于namen.原创 2020-10-17 23:19:07 · 195 阅读 · 0 评论 -
Hadoop 权威指南学习笔记(一)
第一章 初始Hadoop由于寻址时间的提升远远不及传输速率的提升,所以不能用数据库来对大量硬盘上的大规模数据进行分析,许多情况下,MapReduce可以视为关系型数据库的补充。MapReduce适合一次写入,多次读取的应用,关系型数据库适用于持续更新的数据集。MapReduce的核心假设之一是可以进行高速的流读写操作,MapReduce是一种线性的可伸缩编程模型,需要Map函数和Reduce函数来处理数据,如果输入的数据量是原来的两倍,那么运行时间也是原来的两倍,但如果集群是原来的两倍,作业的运行.原创 2020-10-11 23:33:38 · 611 阅读 · 0 评论 -
2020-09-07
## 创建数据表create table orders( user_id string, device_id string, user_type string, price float, sales int);## 添加数据orders.txtzhangsa test1 new 67.1 2lisi test2 old 43.32 1wanger test3 new 88.88 3liliu .转载 2020-09-22 21:20:35 · 163 阅读 · 0 评论 -
hive 不能识别子查询 cannot recognize input near in subquery
在metabase编写hive,出现下面问题,或者在其他代码中也会遇到相同的问题,Error while compiling statement: FAILED: ParseException line 159:9 cannot recognize input near '<EOF>' '<EOF>' '<EOF>' in subquery source这是因为你没有给子查询写别名,记住,给每一个子查询都写上别名,才能避免出现一些问题,如:select * f原创 2020-08-27 10:31:58 · 20707 阅读 · 0 评论 -
在shell中利用curl给接口传参
在linux下 curlhttp://mywebsite.com/index.php?a=1&b=2&c=3 GET只能获取到参数a由于url中有&,其他参数获取不到,在linux系统中& 会使进程系统后台运行。必须对&进行下转义才能$_GET获取到所有参数curlhttp://mywebsite.com/index.php?a=1\&b=2\&c=3...原创 2020-06-17 16:06:23 · 1390 阅读 · 0 评论 -
sqoop参数详解
Import和export参数解释Common arguments:--connect <jdbc-uri> :连接RDBMS的jdbc连接字符串,例如:–connect jdbc:mysql:// MYSQL_SERVER:PORT/DBNAME。--connection-manager <class-name> :--hadoop-home <hdir> :--username <username> :连接RDBMS所使用的用户名。转载 2020-05-20 19:53:23 · 3070 阅读 · 0 评论 -
field.delim 和serialization.format作用
field.delim是表的两个列字段之间的文件中的字段分隔符.其中serialization.format是文件序列化时表中两个列字段之间的文件中的字段分隔符.原创 2020-04-21 17:53:05 · 9354 阅读 · 0 评论 -
SemanticException Column xx Found in more than One Tables/Subqueries hivesql
hivesql 中出现报错:SemanticException Column xx Found in more than One Tables/Subqueries(1)首先检查自己给某一个表起的别名是不是这个表中或者联合的表中字段的名,如果是的话改正就OK。select city.city, hotel.hotel, hotel.hotelname from temp city,...原创 2020-04-09 16:47:33 · 13998 阅读 · 0 评论 -
Hive,SQL,MapReduce,Hadoop,Spark等这些关系及理解
由于数据量巨大,单机无法存储,所以我们需要将用很多台机器存储数据,HDFS(Hadoop Distributed FileSystem)就应用而生,它是专门负责管理这么多台单机之间的数据,你存取数据都是和单机一样的操作流程,但实际上这些数据都是在多台单机上存储的,相当于HDFS是一个帮你管理大数据的界面,你不用管它后面是怎么的关系,只需要在它这儿操作就可以了。光有数据也不行啊,数据我们是要...原创 2020-03-13 21:54:04 · 7383 阅读 · 0 评论