
大数据处理
自由技艺
资深AI算法和C++软件工程师,专注于下一代分布式AI系统,曾就职于华为、百度,北邮土著博士
请关注知乎同名账号
展开
-
DPI — nDPI 开源的深度报文解析组件
nDPI官方网站:https://github.com/ntop/nDPIhttps://www.ntop.org/support/documentation/documentation/https://www.ntop.org/products/deep-packet-inspection/ndpi/https://github.com/ntop/nDPI/blob/dev/doc/nDPI_QuickStartGuide.pdfnDPI 从 OpenDPI 发展而来,是一款 C 语言开发的开转载 2020-08-21 16:01:15 · 2076 阅读 · 0 评论 -
Spark开发详细流程之四:基于Parquet文件数据开发微服务
https://blog.youkuaiyun.com/coding_hello/category_5839687.htmlhttps://zhuanlan.zhihu.com/p/37518037Dataset操作Dataset操作都是在操作列,官方Spark API文档介绍的比较详细。// Dataset usnchr = spark.read().load(paths);JavaRDD操作第一步就是创建一个初始的RDD。该RDD通常就代表和包含了Spark应用程序的输入源数据.Spark Core原创 2020-06-01 12:01:35 · 225 阅读 · 0 评论 -
Spark开发详细流程之三:命令行窗口查看Parquet文件
启动spark命令spark-shell执行以下操作读取parquet文件import org.apache.spark.sql.SparkSessionval spark = SparkSession.builder().appName(“Java Spark SQL basic example”).getOrCreate();val ufdr = spark.read.load(“hdfs://test/part1”);打印具体内容,显示5行数据udfr.show(5)打印pa.原创 2020-06-01 10:57:54 · 951 阅读 · 0 评论 -
Spark开发详细流程之二:如何写Parquet文件?
package App;import org.apache.commons.lang3.time.FastDateFormat;import org.apache.hadoop.fs.Path;import org.apache.parquet.column.ParquetProperties;import org.apache.parquet.example.data.Group;import org.apache.parquet.example.data.simple.SimpleGroup原创 2020-06-01 10:48:16 · 799 阅读 · 0 评论 -
分布式系统深度解析
参考链接:https://zhuanlan.zhihu.com/p/86059939https://www.cnblogs.com/starwater/p/6841807.html引言基本概念:集中式计算:移动数据、统一计算分布式计算:移动计算而不移动数据一个简单例子:从服务器的日志信息中统计访问量前10的IP与其对应的访问次数(PV)?两个核心问题:如何拆分计算逻辑?...原创 2020-08-20 20:07:34 · 207 阅读 · 0 评论 -
Spark开发详细流程之一:windows本地搭建JAVA Spark开发环境
JDK1.8 + Spark2.3 + Hadoop2.7.1安装JDK1.8安装Spark2.3.1解压路径:D:\Tools\spark-2.3.1-bin-hadoop2.7配置环境变量:1)系统变量:SPARK_HOME;变量值:D:\Tools\spark-2.3.1-bin-hadoop2.72)Path环境变量增加:%SPARK_HOME%\bin,%SPARK_HOME...原创 2020-04-15 14:58:02 · 436 阅读 · 0 评论 -
深入理解hdfs
hdfs被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块,除了最后一个,所有的数据块都是同样大小的。为了容错,文件的所有数据块都会有副本。每个文件的数据块大小和副本系数都是可配置的。hdfs的文件都是一次性写入的,并且严格要求在任何实收只能有一个写入者。...原创 2020-04-13 16:44:35 · 133 阅读 · 0 评论 -
基于Kafka的Spark流处理
Kafka准备工作启动Zookeeper服务启动Kafka服务创建自定义名称的topic,并指定Zookeeper默认端口号、分区数和备份的数量list列出所有创建的topics,检查上面创建的topics是否存在启动producer来产生一些数据启动consumer来查看刚才producer产生的数据Spark准备工作启动Spark编写Spark程序使用Kafka...原创 2020-04-09 16:30:12 · 186 阅读 · 0 评论 -
大数据并行处理技术
MapReduceMapReduce是一个并行计算与运行软件框架(Software Framework)HadoopMapReduce的一个经典实例是HadoopKafka数据管道。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。Hbase可用作hadoop数据库,提供分布式可伸缩大型数据存储。用户能随机、实时读写数据。存储十亿行 x 百...原创 2020-04-03 10:11:08 · 1837 阅读 · 0 评论