- 博客(8)
- 收藏
- 关注
原创 数据挖掘案例
构造需要预测的新数据,并插入到数据库表ads_cscd_predict_profit_ratio_i_y 中;从数据库表ads_cscd_date_profit_total_asset_i_y中读取历史收益率数据;从数据库表ads_cscd_predict_profit_ratio_i_y中读取待预测的新数据;构造需要预测的新数据,并插入到数据库表ads_cscd_predict_profit_i_y中;将预测结果插入到数据库表ads_cscd_predict_profit_ratio_i_y中。
2024-01-02 23:24:56
627
原创 Azkaban+Spark资源调度
先创建dws_cscd数据库,然后创建dws_cscd数据库的外部表,接着创建ads_cscd数据库,最后创建ads_cscd数据库的外部表。首先在IDEA中分别编写创建DWS数据库、DWS库中外部表并导入数据、创建ADS数据库、ADS库中外部表并导入数据的代码。前提条件:各节点之间的免密、登录启动Hadoop集群、Spark、Azkaban、Hive。登录Azkaban,创建dws_and_ads项目并上传Azkaban_spark.zip压缩包。ADS层和ADS层外部表的创建方式与DWS层相同。
2024-01-02 11:23:31
643
原创 分区表创建及插入数据的操作
hive.exec.dynamic.partition:是否启动动态分区。默认false。hive.exec.dynamic.partition.mode:打开动态分区后,动态分区的模式为strict和nonstrict。strict可设置为静态和半动态,要求至少包含一个静态分区列。nonstrict可设置为静态、半动态和动态,动态必须设置此参数。hive.exec.max.dynamic.partitions:允许的最大的动态分区的个数。默认1000。
2023-12-21 17:27:37
1285
原创 数据仓库命名规范详解
小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)。实时(rt)、小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)、一次性任务(o)、无周期(n)实时(rt)、小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)、一次性任务(o)、无周期(n)实时(rt)、小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)、一次性任务(o)、无周期(n)实时(rt)、小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)、一次性任务(o)、无周期(n)
2023-12-21 17:11:11
5491
原创 数据仓库分层详解
从极端情况来说,可以为每一张报表在APP层构建一个模型来支持,达到以空间换时间的目的数据仓库的标准分层只是一个建议性质的标准,实际实施时需要根据实际情况确定数据仓库的分层,不同类型的数据也可能采取不同的分层方法。在这个过程中,数据经过了一定的清洗,比如字段的统一,脏数据的去除等,但是数据的粒度是不会变化的。这一层不是必须有的。而且便于维 护数据的准确性,当 数据出现问题之后, 可以不用修复所有的 数据,只需要从有问 题的步骤开始修复。随着业务的变化,只需 要调整底层的数据,对 应用层对业务的调整零 感知。
2023-12-20 18:39:19
653
1
原创 Kettle行转列详解
将每个指数简称的资产负债率的2013年到2022年的数据从资产负债率那一行转换成日期和资产负债率两列,以供后续分析。
2023-12-20 18:27:22
1616
1
原创 使用Datax将Hive中的表迁移到MySQL
3. 配置datax配置文件(下面文件和目录均以我自己的为例,可根据自己的需求自行修改)2.MySQL阶段(以下以我自己的数据库和文件为例,可根据需求自己做出相应修改)使用vim spark_1_hive_.json打开文件并写入下列内容。在该目录下创建spark_1_hive_1.json文件。创建一个新的数据库用来接收从Hive中传输过来的数据。(4)给hadoop用户datax权限。(5)去MySQL查询表中是否有数据。(1)下载datax安装包。(2)解压datax压缩包。(3)修改文件夹名称。
2023-06-23 13:32:04
1295
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人