
大数据
dlphay
e-mail:740595707@qq.com
展开
-
rocksDB要点
rocksDB定义快速存储系统,充分挖掘 Flash or RAM 硬件的读写特性,支持单个 KV 的读写以及批量读写。本质:牺牲了一部分读的性能和增加了合并的开销,换取了高效的写性能。LSM-Tree(Log-Structured-Merge-Tree)的理解简述:内存中构建“小树”,到一定的规模,Merge到磁盘的“大树”。 多level的文件格式:最热最新的数据L0层,最冷...原创 2020-01-20 22:29:50 · 485 阅读 · 0 评论 -
Redis数据库
后续有待完善。。。。。。基本概念redis是一个key-value存储系统,支持push/pop、add/remove及取交集并集和差集,支持多种Value类型。配置内容daemonizeyespidfile/usr/local/redis/var/redis.pidport6379timeout300logleveldebuglogfile/usr/local/red...原创 2019-10-07 18:01:07 · 196 阅读 · 0 评论 -
Spark-SQL-Python编程
使用Pycharm来实现Spark-SQL。from pyspark import Rowfrom pyspark.sql import SparkSessionfrom pyspark.sql.types import StructField, StringType, StructTypeif __name__ == "__main__": spark = SparkSes...原创 2019-08-11 16:25:28 · 1087 阅读 · 0 评论 -
Spark-SQL-Scala编程
使用Scala语言编程例程:方式一:通过 case class 创建 DataFrames(反射)//定义case class,相当于表结构case class People(var name:String,var age:Int)object TestDataFrame1 { def main(args: Array[String]): Unit = { val con...原创 2019-08-07 18:55:08 · 375 阅读 · 0 评论 -
Spark-SQL-Java编程
认识:最核心的编程抽象就是DataFrame。原理:将Spark SQL 转化为 RDD, 然后提交到集群执行。SparkSession:统一的切入点,实质上是SQLContext和HiveContext的组合。允许用户通过它调用 DataFrame 和 Dataset 相关 API 来编写程序DataFrame:以RDD为基础的分布式数据集,二维表格。schemaRDD,比RDD多了...原创 2019-08-07 17:34:49 · 467 阅读 · 0 评论 -
SQL-DQL
我们在MySQL和Spark-SQL使用过程中,常用的DQL如下。// 查询SELECT xx FROM table;SELECT * FROM table;SELECT DISTINCT xx FROM table;// + - * / 运算SELECT xx*1.5 FROM table;SELECT xx+xx FROM table;// 条件查询SELECT xx...原创 2019-08-09 16:11:13 · 317 阅读 · 0 评论 -
Hadoop+Spark集群配置
重要参考文献:http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/准备工作操作系统:Ubuntu-14.04.1-desktop-amd64 Hadoop 版本:hadoop-2.7.2:包含文件管理系统 HDFS 和任务调度系统 YARN Spark 版本:spark-1.6.1-bin-without-hado...原创 2019-07-28 17:24:44 · 558 阅读 · 0 评论 -
CDN - 初理解
CDN背景:传统模式下,用户的URL请求由DNS域名解析,直接得到相应源站的IP地址,获取内容。源站在内容交付过程中,尤其是在相应大规模并发请求的情况下,由于源站本身资源受限,导致网络阻塞、相应速度缓慢的现状。相应的解决方案是:构建内容交付网络(CDN),首先通过负载均衡来调度获得距离用户最近路径的CDN节点,引入缓存Cache服务来替代租户源站,来交付用户请求的数据需求与内容,缓解源站压力,...原创 2019-07-27 09:46:08 · 514 阅读 · 0 评论 -
Spark - 初理解
计算引擎Spark是什么?专为大规模数据处理的快速通用的计算引擎(基于MapReduce算法实现的分布式计算)。Spark特性高级 API,可以更多精力专注于应用所要做的计算本身。Spark 提供了80多个高级运算符。 快,支持复杂算法和交互式计算。内存计算下:Spark比Hadoop快100倍。 通用引擎,运算:SQL 查询、文本处理、机器学习等。大量的库无缝组合使用:Sp...原创 2019-07-26 14:58:48 · 189 阅读 · 0 评论 -
PySpark实践
大数据入门与实战-PySpark的使用教程:https://www.jianshu.com/p/5a42fe0eed4dPySpark – SparkContextclass pyspark.SparkContext ( master = None, appName = None, sparkHome = None, pyFiles = None, e...原创 2019-08-03 23:52:54 · 266 阅读 · 0 评论 -
spark实践
最权威的官网:http://spark.apache.org/--master // master 的地址,提交任务到哪里执行,例如 spark://host:port, yarn, local--deploy-mode // 在本地 (client) 启动 driver 或在 cluster 上启动,默认是 client--class // 应用程序的主类,仅针对 java ...原创 2019-08-03 22:47:37 · 73660 阅读 · 0 评论 -
Hadoop - 初理解
Hadoop是什么?大量数据进行分布式处理的软件框架,存储HDFS和计算Map/Reduce,像使用单机一样使用分布式,用户可以不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速计算和存储。Hadoop背景与现状?大型企业将Hadoop 技术运用在自身的服务中。 Hadoop解决方案的商业型公司也纷纷跟进,提供Hadoop的商业服务。 越来越多的企业将Had...原创 2019-07-26 10:30:05 · 210 阅读 · 0 评论