
大数据技术
包括hadoop体系相关组件及技术
lty_sky
这个作者很懒,什么都没留下…
展开
-
爬虫解析库:XPath
XPath XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言。最初是用来搜寻 XML 文档的,但同样适用于 HTML 文档的搜索。所以在做爬虫时完全可以使用 XPath 做相应的信息抽取。1. XPath 概览 XPath 的选择功能十分强大,它提供了非常简洁明了的路径选择表达式。另外,它还提供了超过 10...转载 2020-04-11 17:46:23 · 429 阅读 · 0 评论 -
Python:Xpath
https://www.cnblogs.com/zhangxinqi/p/9210211.html原创 2020-04-01 21:43:28 · 158 阅读 · 0 评论 -
hive简介及hive+mysql 初始化
1、Hive简介Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用戶查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reduc...转载 2020-02-28 16:25:12 · 1244 阅读 · 0 评论 -
MPP (Massively Parallel Processing),即大规模并行处理
MPP是一种海量数据实时分析架构。 MPP作为一种不共享架构,每个节点运行自己的操作系统和数据库等,节点之间信息交互只能通过网络连接实现。MPP架构目前被并行数据库广泛采用,一般通过scan、sort和merge等操作符实时返回查询结果。目前采用MPP架构的实时查询系统有EMC Greenplum、HP Vertica和Googlwww.jdjdzj.come Dremel,这些都是实时数据处...转载 2019-04-29 16:28:36 · 2494 阅读 · 0 评论 -
数据立方体----维度与OLAP
数据立方体----维度与OLAP前面的一篇文章——数据仓库的多维数据模型中已经简单介绍过多维模型的定义和结构,以及事实表(Fact Table)和维表(Dimension Table)的概念。多维数据模型作为一种新的逻辑模型赋予了数据新的组织和存储形式,而真正体现其在分析上的优势还需要基于模型的有效的操作和处理,也就是OLAP(On-line Analytical Processing,联机分...转载 2019-04-29 17:44:05 · 535 阅读 · 0 评论 -
【案例分享】唯品会海量实时OLAP分析技术升级之路(转)
【文章来源:DBAplus社群。本文根据谢麟炯老师在〖DAMS 2017中国数据资产管理峰会〗现场演讲内容整理而成】讲师介绍谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。分享大纲: 海量数据实时OLAP场景的困境...转载 2019-05-05 15:34:09 · 413 阅读 · 0 评论 -
图像的下采样、上采样及插值分类
转自:http://baike.baidu.com/view/3038019.htm和http://blog.sina.com.cn/s/blog_672c5a470100pmj6.html一般情况下我们所说的采样,是下采样。原理:缩小图像(或称为下采样(subsampled)或降采样(downsampled))的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图...转载 2019-05-21 21:35:14 · 2609 阅读 · 0 评论