selfond-优快云博客

原创 DolphiScheduler平台上运行spark程序时，外部参数设置

DolphiScheduler平台上运行spark程序时，外部参数设置近期使用DS平台执行spark程序，遇到了部分参数设置的问题，代码中需要外部传入一个参数procDate(处理日期)，具体设置如下：1. scala代码中需要传入时间和路径两个参数# scalaval procDate = args(0)val path= args(1)2. DS作业中设置这两个参数的格式在主程序参数栏中传递这两个参数的值：$[yyyy-MM-dd-1] /user/home/test/参数$[yyy

2022-05-10 14:39:30 1510 1

原创 java.io.IOException: (null) entry in command string: null ls -F E:\tmp\hive解决办法

### 问题：本地执行spark sql，生成数据是会出现java.io.IOException: (null) entry in command string: null ls -F E:\tmp\hive错误解决办法

2020-11-17 14:44:33 2771 4

原创 entry in command string: null chmod 0644 问题解决

问题：在WIndows操作系统中本地运行spark程序写文件操作时,报以下错误：....(null) entry in command string: null chmod 0644 ..(后面是目的目录)解决方法:下载hadoop.dll文件并拷贝到c:\windows\system32目录中然后重新运行代码程序即可hadoop.dll下载地址链接：https://pan.baidu.com/s/1Rb5ROUQMSqp7SeQINlLZkA 提取码：n8t6...

2020-11-11 17:12:13 2176 3

原创 Spark scala 一行转多行

Spark scala 一行转多行原始数据↓A a1,a2,a3B a4,a5C a3,a5D a1,a2,a3,a4E a1逻辑代码↓val data = source .map(s => { val tmp1 = arr(0) val tmp2 = arr(1).split(",") (tmp1, tmp2) }) .map(s => { s._2 .ma

2020-11-11 16:47:53 1651

原创 python连接sqlServer，报错：[IM002] [Microsoft][ODBC 驱动程序管理器] 未发现数据源名称并且未指定默认驱动程序

1. 在jupyter notebook连接sqlServer报错报错信息：InterfaceError: (‘IM002’, ‘[IM002] [Microsoft][ODBC 驱动程序管理器] 未发现数据源名称并且未指定默认驱动程序 (0) (SQLDriverConnect)’)2. 解决办法2.1 按win键搜索“设置ODBC数据源(64位)”2.2 在用户DSN中添加sqlServer ODBC驱动2.3 填写相关信息，server栏填写数据库服务器地址2.4 按照同样方法在系统

2020-05-14 09:22:46 6528

原创 windows安装pyltp

1、环境win10、python 3.6(这个很重要)2、安装vs 4.0++Visual C++ 2015 Build Tools3、下载pyltp的wheels文件pyltp-0.2.1-cp36-cp36m-win_amd64.whl4、在终端运行pyltp的wheels文件比如说文件在D盘的根目录，如下图5、测试from pyltp import ...

2019-06-11 15:29:58 2078

原创 windows手动安装pip

在终端使用pip安装文件时出现了上面的问题，解决方法如下：1、在终端输入 curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py ，出现如下进度条2、然后使用 python get-pip.py命令把下载下来的get-pip.py程序进行编译，3、输入pip list（展示pip下安装了哪些工...

2019-06-11 14:42:19 3804 1

原创 (自学大数据系列)第一章:初识Hadoop

1、数据现状2006年数字世界(digital universe)项目统计得出全球数据总量为0.18ZB，2011年将达到1.8ZB（1ZB = 1 000EB = 1 000 000PB = 1 000 000 000TB）数据增长速度也在加快。2、数据的存储数据读取速度慢：在硬盘容量不断提升的同时，数据的读取速度却没有与时俱进，目前数据的读取速度也仅为100MB/S。解决办法：可以把数据存放在...

2018-06-22 09:53:52 244

转载第三篇：数据仓库系统的实现与使用(含OLAP重点讲解)

转载来源：http://www.cnblogs.com/muchen/p/5318808.html第三篇：数据仓库系统的实现与使用(含OLAP重点讲解)阅读目录前言创建数据仓库ETL：抽取、转换、加载OLAP/BI工具数据立方体(Data Cube)OLAP的架构模式小结回到顶部前言上一篇重点讲解了数据仓库建模，它是数据仓库开发中最核心的部分。然而完整的数据仓库系统还会涉及其他一些...

2018-06-05 17:14:57 2304

转载第二篇：数据仓库与数据集市建模

转载来源：https://www.cnblogs.com/muchen/p/5310732.html#_labelTop第二篇：数据仓库与数据集市建模阅读目录前言维度建模的基本概念维度建模的三种模式实例：零售公司销售主题的维度建模更多可能的事实属性经典星座模型缓慢变化维度问题数据仓库建模体系之规范化数据仓库数据仓库建模体系之维度建模数据仓库数据仓库建模体系之独立数据集市三种数据仓库建模体系对比小结...

2018-06-05 17:11:45 1781

转载第一篇：数据库需求与ER建模

转载来源：http://www.cnblogs.com/muchen/p/5258197.html第一篇：数据库需求与ER建模阅读目录前言基本概念扩展概念高级话题其他说明小结回到顶部前言在数据库建设过程中，哪一步最重要？绝大多数资料会告诉你，是需求分析阶段。这一步的好坏甚至直接决定数据库项目的成败。需求分析阶段，也被称为ER建模(entity-relationshi...

2018-06-05 17:06:56 3862 2

原创 win7下安装XGBoost

前置环境：windows7,python3没有安装python3的可以下载anacoda进行安装（https://www.anaconda.com/download/），选择3.6版本1、https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 下载mingW64的安装包，选择xgboost-0.6-cp36-cp36m-win_amd64.whl文...

2018-04-14 19:14:17 386

转载【转载】用scikit-learn和pandas学习线性回归

点击打开链接

2018-02-28 14:47:39 489

转载【转载】十分钟搞定pandas

点击打开链接

2018-02-26 11:57:44 251

转载 Python 视频教程地址

Python 视频教程地址

2018-01-25 14:56:42 972

转载 Kaggle入门，看这一篇就够了

Kaggle入门，看这一篇就够了点击打开链接

2018-01-25 14:54:30 1717

转载 1、机器学习简介

机器学习简介点击打开链接

2018-01-24 15:10:14 618

selfond的博客