
大数据学习笔记
包彭芃
开始自己的逆袭之路,灿烂如夏花
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
storm 在redhat上的安装配置
storm是实现大数据的实时流计算的工具。流式计算:使用流计算,数据实时产生,实时传输,实时计算,实时显示。代表技术:flume 实时获取数据。Kafka/metag实时数据存储,storm/J storm实时数据计算,redis实时结果缓存,mysql持久化存储。storm搭建体系结构storm主要由主节点:nimbus 和从节点supervisor 构成,需要架构...原创 2018-11-12 21:10:03 · 230 阅读 · 0 评论 -
运行flink官网wikiipedia程序问题总结之一步一个脚印儿
DataStream API Tutorial一.Setting up a Maven Project(首先在虚拟机上要先装好maven并配置好setting文件和环境变量)mvn archetype:generate \ -DarchetypeGroupId=org.apache.flink \ -DarchetypeArtifactId=flink-quic...原创 2019-05-09 10:54:18 · 363 阅读 · 0 评论 -
flink maven 工程 pom.xml文件的基本统一配置
Setting up a Project: Basic Dependencies<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>1.8.0</version>...原创 2019-05-11 22:02:13 · 6856 阅读 · 3 评论 -
Spark编程指南
一。概观每个spark应用程序都包含一个驱动程序,通过main函数在集群上执行各种并行操作。1.Spark提供的是主要抽象是RDD,他是跨群集结点分区的元素的集合,可以并行操作(宽依赖)。RDD是通过从Hadoop文件系统(或其他Hadoop支持的文件系统)中的文件或驱动程序中的现有Scala集合开始并对其进行转换而创建的。用户还可以要求Spark在内存中保留RDD,允许它在并行操作中有效...翻译 2019-05-23 15:03:42 · 324 阅读 · 0 评论