
大数据
文章平均质量分 81
大数据技术栈
朝闻道-夕死可矣
朝闻道,夕死可矣!
展开
-
大数据架构简介
大数据技术其实是分布式技术在数据处理领域的创新性应用,其本质和此前讲到的分布式技术思路一脉相承,即用更多的计算机组成一个集群,提供更多的计算资源,从而满足更大的计算压力要求。大数据技术讨论的是,如何利用更多的计算机满足大规模的数据计算要求。大数据就是将各种数据统一收集起来进行计算,发掘其中的价值。这些数据,既包括数据库的数据,也包括日志数据,还包括专门采集的用户行为数据;既包括企业内部自己产生的数据,也包括从第三方采购的数据,还包括使用网络爬虫获取的各种互联网公开数据。面对如此庞大的转载 2021-09-17 23:30:29 · 5790 阅读 · 0 评论 -
元数据是数据治理的基石
背景据说,英语中元数据meta一词最早出现于1968年,其是对希腊语前缀"meta-"的粗略翻译,用于表明更抽象层次的事物。尽管元数据一词只有几十年的历史,然而几千年的图书馆管理员们一直在工作中使用着元数据,只不过我们先所谓的“元数据”是历史上被称为"图书馆目录信息"。图书目录中的信息解决了一个十分关键的问题,就是如何帮助用户在图书馆快速地、准确地找到想要的资料。图为爱尔兰最古老的都柏林圣三一学院图书馆图书目录中依然延续至今的信息片段:书名、作者或整理、主题、简介和篇幅。但如今其含有更...转载 2021-09-17 23:29:31 · 487 阅读 · 0 评论 -
基于spark的车辆分析
自2012年以来,公安部交通管理局在全国范围内推广了机动车缉查布控系统(简称卡口系统),通过整合共享各地车辆智能监测记录等信息资源,建立了横向联网、纵向贯通的全国机动车缉查布控系统,实现了大范围车辆缉查布控和预警拦截、车辆轨迹、交通流量分析研判、重点车辆布控、交通违法行为甄别查处及侦破涉车案件等应用。在侦破肇事逃逸案件、查处涉车违法行为、治安防控以及反恐维稳等方面发挥着重要作用。随着联网单位和接入卡口的不断增加,各省市区部署的机动车缉查布控系统积聚了海量的过车数据。截至目前,全国32个省(区、市)已完成转载 2021-08-10 09:25:07 · 1546 阅读 · 0 评论 -
基于Hadoop技术进行地理空间分析
交通领域正产生着海量的车辆位置点数据。将这些车辆位置信息和道路进行关联的统计操作则是一项颇为浩大的工作,而随着Hadoop技术的成熟和普及,使得在海量数据中进行该统计运算的工作变得相对容易了很多。本文将介绍一种通过使用地理网格进行数据关联,并利用Shuffle过程的二次排序实现高效的统计各条道路上位置点分布情况的方法。中华人民共和国交通运输部、中华人民共和国公安部、国家安全生产监督管理总局于2014年1月28日公布了《道路运输车辆动态监督管理办法》,在该文件中规定,自2014年7月1日起,国内道路运输车转载 2021-08-10 09:21:35 · 849 阅读 · 0 评论 -
【POSTGRESQL】POSTGRES13 CITUS10 POTGIS3.1制作离线(无网络)安装
先在有网络的机器上下载rpmcitus10 + postgresql13# Add Citus repository for package managercurl https://install.citusdata.com/community/rpm.sh | sudo bash# 安装使用yumdownloader下载安装包yum -y install yum-utils# 下载安装包以及依赖yumdownloader citus100_13 --resolve --destdir转载 2021-05-07 21:41:45 · 539 阅读 · 0 评论 -
Apache Doris (Incubating) 原理与实践
Apache Doris 简介Doris(原百度 Palo)是一款基于大规模并行处理技术的分布式 SQL 数据库,由百度在 2017 年开源,2018 年 8 月进入 Apache 孵化器。本次将主要从以下三部分介绍 Apache Doris.Doris 定位:即 Doris 所要面临的业务场景及解决的问题 Doris 关键技术 Doris 案例介绍01 Doris 定位实时数据仓库 Doris产品定位我们首先看一下 Doris 整个的定位。MPP 架构的关系型分析数据库转载 2021-04-19 16:25:42 · 790 阅读 · 0 评论 -
深度解析WordCount,入门Flink
要想熟练掌握一个大数据框架,仅仅是学习一些网络上的样例程序是远远不够的,我们必须系统地了解它背后的设计和运行原理。本文将以WordCount的案例为主线,主要介绍Flink的设计和运行原理。关于Flink WordCount程序可以参考我之前的文章:Flink 01 | 十分钟搭建第一个Flink应用和本地集群。原创不易,转载请注明出处。本文内容主要包括:Flink的数据流图,以及如何将数据流图从逻辑视角转化为物理执行图;Flink分布式架构;Flink时间处理机制;Flink状态与检转载 2021-02-22 10:07:17 · 593 阅读 · 0 评论 -
Hadoop2.9.2高可用环境搭建
1.环境准备和部署规划硬件和规划序号 主机 内存 系统 组件规划 进程 1 10.110.172.151 32 Centos6.5 jdk-8u221、hadoop2.9.2 DataNode、NodeManager、JournalNode 2 10.110.172.152 32 Centos6.5 jdk-8u221、hadoop2.9.2 DataNode、NodeManager、JournalNod转载 2020-09-23 09:11:49 · 313 阅读 · 0 评论 -
hadoop文件格式和压缩算法
需要考虑的因素文件格式对存储空间利用率, 程序性能都有很大的影响. 具体表现在:文件和压缩算法的组合是否支持可分片, MapReduce在读取数据的时候需要并行, 这就要求压缩后的文件可以分片读取.在考虑如何压缩那些将由MapReduce处理的数据时,考虑压缩格式是否支持分割是很重要的。考虑存储在HDFS中的未压缩的文件,其大小为1GB,HDFS的块大小为64MB,所以该文件将被存储为16块,将此文件用作输入的MapReduce作业会创建1个输人分片(split,也称为“分块”。对于block,转载 2020-09-15 08:36:27 · 682 阅读 · 0 评论 -
关于Pulsar与Kafka的一些比较和思考
在本系列的Pulsar和Kafka比较文章中,我将引导您完成我认为重要的几个领域,并且对于人们选择强大,高可用性,高性能的流式消息传递平台至关重要。消息传递模型(Messaging model)是用户在选择流式消息传递系统时应首先考虑的事情。消息传递模型应涵盖以下3个方面: Message consumption(消息消费):如何发送和消费消息 Message Acknowledgement(消息确认):如何确认消息 Message Retention(消息保留):消息要保留.转载 2020-09-27 18:22:39 · 3692 阅读 · 0 评论 -
大数据血缘分析系统设计
数据血缘关系介绍定义Data Lineage 数据血统,也叫做Data Provenance 数据起源或Data Pedigree 数据谱系从数据的产生,ETL处理、流转流通,到最终消亡,数据之间自然会形成一种关系,类似于人类社会的血缘关系,我们称之为数据血缘关系。数据血缘关系有一些明显的特征 归属性。一般来说,特定的数据归属特定的团队或者个人 多源性。同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。 可追溯转载 2020-09-03 14:40:50 · 8866 阅读 · 1 评论 -
centos7 伪分布hadoop安装
没有说明,都是root操作1,安装对应版本的jdk比如我的:[root@localhost ~]# whereis javajava: /usr/bin/java /usr/lib/java /etc/java /usr/share/java /usr/java/jdk1.8.0_45/bin/java /usr/share/man/man1/java.1/usr/share/man/m...原创 2015-12-31 13:56:17 · 889 阅读 · 0 评论 -
离线安装Cloudera
下载文件:1,下载CDH,http://archive.cloudera.com/cdh5/parcels/latest 注意版本问题parcel, parcel.sha1, manifest.json2,下载CM http://archive-primary.cloudera.com/cm5/cm/5/ 3,下载JDK 使用7.79版本配置:如果没有说明都是root操作原创 2016-07-03 22:48:11 · 473 阅读 · 0 评论 -
hbase简单操作
进入shell[root@n3 ~]# /usr/bin/hbase shell16/07/06 21:09:18 INFO Configuration.deprecation: hadoop.native.lib is deprecated. Instead, use io.native.lib.availableHBase Shell; enter 'help' for list原创 2016-07-06 21:30:27 · 737 阅读 · 0 评论 -
MPP
MPP即大规模并行处理(Massively Parallel Processor )。 在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据 库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势当前使用的 O原创 2017-01-12 16:49:11 · 9825 阅读 · 1 评论 -
云计算,大数据,人工智能三者有何关系?
云计算最初的目标是对资源的管理,管理的主要是计算资源,网络资源,存储资源三个方面。想象你有一大堆的服务器,交换机,存储设备,放在你的机房里面,你最想做的事情就是把这些东西统一的管理起来,最好能达到当别人向你请求分配资源的时候(例如1核1G内存,10G硬盘,1M带宽的机器),能够达到想什么时候要就能什么时候要,想要多少就有多少的状态。这就是所谓的弹性,俗话说就是灵活性。灵活性分两个方面,想什么时转载 2017-10-11 15:24:43 · 13515 阅读 · 0 评论 -
MaxTemperature
数据下载,参考:https://blog.youkuaiyun.com/jc_benben/article/details/86020114将gz后缀的文件放到一个文件中,zcat *.gz >sample.txt,或者手动编辑一个文件做测试用,内容如下:0067011990999991950051507004+68750+023550FM-12+038299999V0203301N006...原创 2019-01-10 16:32:58 · 423 阅读 · 0 评论 -
使用python处理美国气象数据
1,下载,可以使用wget或者python,这里是python2.7的版本说明:这里是下载目录ftp://ftp.ncdc.noaa.gov/pub/data/noaa/的原始没有处理过的文件,如果想要看处理过的从这个目录下载ftp://ftp.ncdc.noaa.gov/pub/data/noaa/isd-lite/python:#!/usr/bin/python # -*- co...原创 2019-01-07 19:13:04 · 7950 阅读 · 3 评论 -
编译并运行hadoop的URLCat示例
本篇简要说明了怎样从hdfs中读取文件并显示。要使java识别出hdfs开头的URL标示需要一点额外的工作要做:通过URL的setURLStreamHandlerFactory()方法为 java设置一个FSUrlStreamHandlerFactory。这个方法在每个JVM中只能调用一次,所以它通常会被放在一个static block中执行(如下所示),但是如果你的某部分程序(例如一个你无法修...原创 2019-01-18 14:27:07 · 301 阅读 · 0 评论 -
solr8.1的简单搭建
目录一,简单部署二,搭建中文分词器三,从数据库导入数据一,简单部署1.1 下载准备官网下载http://lucene.apache.org/solr/ 我这里下载的是windows下8.1版本;然后解压到一个目录,我这里是C:\solr-8.1.11.2,创建核心core这里的核心可以理解为数据库,里面的cocument可以理解为表在跟目录的serve...原创 2019-07-21 12:42:51 · 1014 阅读 · 0 评论 -
大数据困惑
算起来,接触大数据、和互联网之外的客户谈大数据也有快2年了。也该是时候整理下一些感受,和大家分享下我看到的国内大数据应用的一些困惑了。云和大数据,应该是近几年IT炒的最热的两个话题了。在我看来,这两者之间的不同就是:云是做新的瓶,装旧的酒; 大数据是找合适的瓶,酿新的酒。云说到底是一种基础架构的革命。原先用物理服务器的应用,在云中变成以各种虚拟服务器的形式交付出去,从而计算、存储、网络资源转载 2013-11-07 10:27:42 · 833 阅读 · 0 评论