
大数据进阶
文章平均质量分 92
code_xuan
这个作者很懒,什么都没留下…
展开
-
Linux实战总结
vmware安装Linux虚拟机时需选择的三种网络连接方式:桥接:与宿主机在同一网段,可以与局域网内设备进行通信,缺点是可能造成ip冲突,因为同一网段下除去网关x.x.x.1和广播地址x.x.x.255只有253个地址。nat(网络地址转换):Linux可以访问外网,但局域网中的设备无法访问到Linux,不会占用局域网内的路由表。(实际常用)主机模式:Linux是一个独立的主机,不能访问外网。centos分区创建Linux一般都要三个分区:1. /boot分区:200MB足矣2. ..原创 2020-08-31 21:15:43 · 709 阅读 · 0 评论 -
HDFS文件系统以及Hbase、Cassendra、TiDB比较
HDFS、Ceph差异对比HDFS设计目标存储非常大的文件:这里非常大指的是几百M、G、或者TB级别。实际应用中已有很多集群存储的数据达到PB级别。根据Hadoop官网,Yahoo!的Hadoop集群约有10万颗CPU,运行在4万个机器节点上。更多世界上的Hadoop集群使用情况,参考Hadoop官网.采用流式的数据访问方式: HDFS基于这样的一个假设:最有效的数据处理模式是一次写入、多...原创 2019-11-23 16:14:30 · 3694 阅读 · 0 评论 -
HBase-4-Hbase与传统数据库的区别
项目刚开始,人不多,压力也不大,搞一台数据库服务器就搞定了,此时所有的东东都塞进一个Server里,包括web server,app server,db server,但是随着人越来越多,系统压力越来越多,这个时候可能你把web server,app server和db server分离了,好歹这样可以应付一阵子,但是随着用户量的不断增加,你会发现,数据库这哥们不行了,速度老慢了,有时候还会宕掉...原创 2019-11-22 19:28:03 · 850 阅读 · 0 评论 -
HBase-2.0 MOB解决海量图片存储方案
随着互联网、云计算及大数据等信息技术的发展,越来越多的应用依赖于对海量数据的存储和处理,如智能监控、电子商务、地理信息等,这些应用都需要对海量图片的存储和检索。由于图片大多是小文件(80%大小在数MB以内),以GFS、HDFS为代表的适用于流式访问大文件的分布式存储系统,若直接用来存储图片,由于元数据膨胀,在扩展性和性能方面均存在严重问题。为了解决HDFS在小文件存储方面的问题,通常的做法是...原创 2019-11-22 17:54:28 · 1425 阅读 · 0 评论 -
图片服务器搭建方案
FTP优点: 可以使用任意服务器或云服务作为FTP服务端。 FTP服务端没有操作系统限制。 代码完成后形成模块,任意程序都可使用。 读取图片时不占用应用服务器资源。缺点:需要编写的代码较多。 前端显示图片会暴露FTP服务器的地址。 FTP服务器需要做端口映射。 传输速度一般。 同步上传思路需要修改的方法较多。使用技术:FTP服务端,JDK1.6中rt.jar包自带的F...原创 2019-11-22 17:38:34 · 4908 阅读 · 0 评论 -
什么是pageRank
什么是pageRankpageRank是google提出的算法,用于衡量特定网页相对于搜索引擎中的其它网页而言的重要程度实现了将链接价值概念作为排名因素算法原理:入链 === 投票pageRank让链接来投票,到一个页面的超链接相当于对该页投一票入链数量如果一个页面节点接收到的其它网页指向的入链数量越多,那么这个页面越重要入链质量指向页面A的入链质量不同...原创 2019-11-20 15:57:40 · 2671 阅读 · 0 评论 -
HBase-3-优化
protocol Buffer:是一种轻便高效的结构化数据存储格式,可用于结构化数据串行化,或者说序列化。它很适合做数据存储或RPC数据交换格式。可用于通讯协议,数据存储等领域的语言无关,平台无关,可扩展的序列化结构数据格式,目前提供了java,c++,Python等三种语言的API。表的设计:预分区:默认情况下,创建HBase表时会自动创建一个region分区,当导入数据时,所有的H...原创 2019-11-16 09:21:55 · 195 阅读 · 0 评论 -
HBase-2-表设计案例
案例1:案例2案例三:原创 2019-11-15 16:51:00 · 473 阅读 · 0 评论 -
HBase-1-概述
Hbase 特点1)海量存储Hbase 适合存储 PB 级别的海量数据,在 PB 级别的数据以及采用廉价 PC 存储的情况下能在几十到百毫秒内返回数据。这与Hbase 的极易扩展性息息相关。正式因为Hbase 良好的扩展性,才为海量数据的存储提供了便利。2)列式存储这里的列式存储其实说的是列族存储,Hbase 是根据列族来存储数据的。列族下面可以有非常多的列,列族在创建表的时候就必须指...原创 2019-11-14 19:33:31 · 221 阅读 · 0 评论 -
sparkStreaming整合flume
flume作为日志实时采集的框架,可以与SparkStreaming实时处理框进行对接,flume实时产生数据,sparkStreaming做实时处理。Spark Streaming对接FlumeNG有两种方式,一种是FlumeNG将消息Push推给Spark Streaming,还有一种是Spark Streaming从flume 中Poll拉取数据。安装flume1.6以上版本pom...原创 2019-11-13 17:44:16 · 457 阅读 · 0 评论 -
增量数据->flume->kafka->sparkStreaming->hbase
模拟日志生成代码:#coding=UTF-8import randomimport timeurl_paths=[ "class/112.html", "class/128.html", "class/145.html", "class/130.html", "class/146.html", "class/131.html", ...原创 2019-11-12 21:35:34 · 277 阅读 · 0 评论 -
Hue部署
不推荐将hue和mysql装在同一台机器,因为会有依赖冲突,不好解决安装在root用户下用yum安装所依赖的系统包[root@hadoop001 hue-3.12.0]# yum -y install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libx...原创 2019-11-09 19:42:14 · 506 阅读 · 0 评论 -
ETL-scala-读取文件夹中所有csv文件的第二行数据,保存至新的文件
数据格式:直接上代码:object CSVSecLine { def main(args: Array[String]): Unit = { val fileNames: ListBuffer[String] = getFileName("H:\\csv") //遍历文件夹中所有文件名,读取其第二行数据,写入新的文件 for (fileName <- fil...原创 2019-11-07 14:33:31 · 1214 阅读 · 0 评论 -
spark-1-spark core
本文内容:spark core:spark概念/集群/基本操作spark的RDD 是什么/怎么创建/怎么用/RDD上的算子spark任务的运行机制spark的高级特性:缓存,持久化,广播变量,累加器spark on yarn zookeeperspark HASpark SQLkafka+sparkStreaming实时处理flume 数据采集工具Spark一个...原创 2019-11-04 10:15:26 · 1094 阅读 · 0 评论 -
spark-2-spark SQL
简介:SparkSQL是Spark中处理结构化数据的一个模块。SparkSQL是sql解析引擎优点:易整合:使用SQL/DataFrame API,支持多种语言统一的数据访问形式,不管什么数据库,都用同样的方式访问兼容Hive:Hive on spark 将Hive SQL解析成Spark 任务,运行在Spark集群标准的数据连接:使用BI工具连接数据库Spark SQL A...原创 2019-11-04 10:15:01 · 318 阅读 · 0 评论 -
spark-3-Spark Streaming
概述Spark Streaming是Spark中用于实时数据处理的模块Spark Streaming是Spark Core API的扩展,它支持弹性的,高吞吐的,容错的实时数据流的处理。数据可从多种数据源获取,例如Kafka,Flume,Kinesis及TCP Socket。也可以通过例如map,reduce,join,window等的高阶函数组成的复杂算法处理。最终将处理后的数据输出到文件系...原创 2019-11-04 10:14:24 · 608 阅读 · 0 评论 -
kafka-详解
kafka内部实现原理两种消费模式点对点点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理,即使有多个消息监听者也是如此。发布/订阅发布订阅模型则是一个基于推送的消息传送模型。发布订阅模型可以有多种不同的订阅者,临时订阅者只在主动监听主题时才接收消息,而持久订阅...原创 2019-08-26 16:03:28 · 1727 阅读 · 0 评论 -
linux虚拟机固定ip
查看本地ip查看BROADCAST名称:ip add找到ens33cd /etc/sysconfig/network-scriptsvi之:BOOTPROTO 改为static并添加如下配置:ONBOOT="yes"DNS1=114.114.114.114NETMASK=255.255.255.0GATEWAY=192.168.230.2IPADDR=192.168....原创 2019-10-30 09:00:59 · 131 阅读 · 0 评论 -
编写集群管理脚本
批量执行服务命令的脚本[root@hadoop000 ~]# vi /usr/bin/xcall.sh[root@hadoop000 ~]# [root@hadoop000 ~]# chmod +x /usr/bin/xcall.sh #千万别忘记添加执行权限哟[root@hadoop000 ~]# [root@hadoop000 ~]# more `wh...原创 2019-10-21 16:35:33 · 199 阅读 · 0 评论 -
大数据技术栈
大数据处理流程:数据采集 -> 清洗标注 -> 存储聚合 -> 分析挖掘 -> 数据应用平台架构示例:数据集成技术栈:shell脚本定制shell脚本将数据导入到HDFShadoop fs -put适用场景:离线处理,实时性要求不高简单的数据源Webserver LogRDMSApplication Logflume作...原创 2019-10-21 14:16:35 · 554 阅读 · 0 评论