- 博客(5)
- 收藏
- 关注
原创 两种列式存储格式的比较:ORC VS Parquet
列式存储 ORC VS Parquet关于列式数据库的一些说明列式存储格式的适用场景行列存储的优缺点ORC VS Parquet二者的文件结构图选择哪一种列式存储较好欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程
2020-07-26 01:03:08
1889
转载 Spark 两个RDD按key合并(join算子和cogroup算子)
在工作中经常遇到需要合并RDD的情况,记录下处理情况。join和cogroup算子都能达到要求,按key合并,只是当rdd存在多个相同的key时候,最终的输出结果不一样。网上找到了处理情况,自己也测试了,代码如下:object Test { def main(args: Array[String]): Unit = { val spark = SparkSession.buil...
2018-07-17 13:24:41
9410
原创 Intellij Idea远程调试利用docker部署的spark集群(standalone)的端口问题
因正式环境和本地网络策略不通(docker宿主机无法和我自己的电脑互相ping通),无法通过Idea直接调试任务,总不能每次都打包吧,太痛苦了。一直使用本地模式,也无法测试任务的真实运行情况。打开网络策略,运维需要指定端口号,借机了解了spark的两个参数:spark.driver.host、spark.driver.port和spark.blockManager.port。 host就...
2018-07-12 17:20:53
1335
原创 Python中 numpy.random和random.random的区别
工作中,遇到需要使用随机抽样的业务类型,然后就遇到了numpy.random和python自带的random包,查找了下二者本质上的区别,在此记录下。 总的来说,两个包本质上就是没有区别!我是在stackoverflow上面找到的,贴出来源: https://stackoverflow.com/questions/7029993/differences-between-numpy-...
2018-07-12 16:52:18
869
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人