- 博客(10)
- 收藏
- 关注
原创 pyspark 通过 JDBC 读写 mysql / postgresql
参考链接https://spark.apache.org/docs/latest/sql-data-sources-jdbc.htmlhttps://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.DataFrameWriter.jdbc.html准备工作下载 mysql / postgresql 驱动。将 xxxconnector.jar 放到 spark/jars 下面(或者在代码中指定 jar 文件路径
2022-04-02 17:28:31
3450
原创 python 对日期进行加减操作 / 求某一天的前(后)几天
1import datetime# 给出一个dte_str = '2020-01-31'dte_dte = datetime.datetime.strptime(dte_str, '%Y-%m-%d')
2020-12-12 16:19:58
683
原创 在 jupyter 中用 scala 编写 Spark 程序
0 前提条件JDKSparkScalaPythonjupyter 包1 安装 spylon-kernelpip install spylon-kernel常见问题:ERROR: Could not find a version that satisfies the requirement findspark (from spylon[spark]->spylon-kernel) (from versions: none)ERROR: No matching distribut
2020-11-29 16:14:32
982
原创 个人投资者的最大优势
在股市里面,个人投资者相对机构来说最大的优势就是时间。投资的本质是找到一家好公司,持有他们的股票,做他们的股东,跟随这家公司一起成长。所以个人投资者最优的投资策略就是在低位买入好公司的股票,然后就不再关注,不要盯盘。股价虽然会涨涨跌跌,但是它一定是围绕着公司的价值基准线上下波动,其余的,无非是一个波动幅度的问题,在牛市,就向上偏离基准线远一些,在熊市,就向下偏离基准线远一些。只要这家公司能持续盈利增长,那这个价值基准线一定是不断向上的,你也就跟随着这家公司一起盈利。那为什么说个人投资者最大的优势是时间
2020-08-21 08:47:21
517
原创 python 获取当前年份和月份
import datetimetoday = datetime.datetime.today()year = today.yearmonth = today.month
2020-08-21 08:42:05
32151
1
原创 发现自己的优势,并最大化利用这些优势,是最佳策略
几年前,网络上有一篇非常著名的职场热文,名为《以大多数人的努力程度之低,根本轮不到拼天赋》,这实在是一篇好的鸡汤文,当时深以为然,再过了两年,我再次回想起这篇文章的时候,还是觉得它几乎哪里都说得很好——除了它的基本前提。在文章中,我们可以认为作者设定的基本前提是——人是一种没有情绪的工作机器。在这个基本前提下,作者展开了自己的论述——只要你努力工作,你总能做到还算合格甚至优秀,你的下限其实是靠努力保障的,只有在行业内顶尖水平的那个段位,才需要拼天赋,而大多数人,努力都不够,谈何天赋呢?这道理其实是正确的
2020-08-17 15:15:09
861
原创 Hive 调优总结,让 Hive 调优想法不再碎片化
通过阅读比较多的Hive调优材料,并根据自己的实践,总结Hive 调优如下,让Hive调优想法不再凌乱、碎片化,而是形成结构。文章目录hive优化总结根据 MapReduce 运行全流程,对每个环节进行调优MapReduce运行流程图MapReduce运行流程关键环节及相关参数文件输入阶段MapMap 输出文件ReduceReduce 输出文件输出文件压缩join 操作调优a. Join 原则b. MapJoinc. SkewJoinGroup By 操作调优a Map 端部分聚合(预聚合)b 开启负载均
2020-07-15 07:29:56
646
原创 Spark 资源调优参数
资源调优了解完了Spark作业运行的基本原理之后,对资源相关的参数就容易理解了。所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使用的效率,从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数,每个参数都对应着作业运行原理中的某个部分。num-executors参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你
2020-07-15 06:58:56
297
原创 Java虚拟机的运行时数据区域功能概述
目录1 程序计数器2 Java虚拟机栈3 本地方法栈4 Java堆5 方法区6 总结1 程序计数器占用较小的内存空间,是当前线程执行的字节码的行号指示器,解释器就是通过这个来决定下一条执行的指令。程序计数器是线程私有的。因为程序有可能以多线程运行,为了保证程序正确执行,每个线程必须持有一个自己的程序计数器,因此程序计数器是线程私有内存。如果执行的是Java代...
2020-03-30 18:35:15
290
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人