- 博客(12)
- 收藏
- 关注
原创 hdfs目录报错
hdfs目录名称包含特殊符号会提示目录不存在hadoop fs -ls /user/jiamin/report/20210409/金虹桥国际中心_<1h/part-00000bash: 1h/part-00000: No such file or directory解决办法:加\ 进行转义hadoop fs -ls /user/jiamin/report/20210409/金虹桥国际中心_\<1h/part-00000...
2021-04-14 14:50:05
332
原创 spark textfile函数
textfile函数参数可以是目录,但目录下必须都是文件,读取改目录下所有文件若想读取不同目录文件可以传list_str参数,形如:文件1,文件2,文件3。。。
2021-04-14 14:40:34
361
原创 mysql计算拼接率
拼接率计算公式:key关联条数/非空key条数实现:通过将两个表进行left join关联,分别计算count(左表key)即为非空条数not_null_count,count(右表key)即为关联条数join_count,则左表key拼接率为join_count/not_null_count*100%。好处:通过left join可以一条sql完成拼接率分子、分母计算,而不用分别计算分子、分母。实例:计算order_product表外键customer_code的拼接率select cou
2020-10-23 17:13:18
285
转载 Linux 启动jupyter
https://blog.youkuaiyun.com/qq_41126685/article/details/105524741?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.non
2020-09-14 16:03:53
1611
原创 python中单引号、双引号、三引号 区别
1、单引号表示字符串,可以包含双引号,包含单引号需转义2、双引号也可以表示字符串,可以包含单引号,包含双引号需转义3、三引号可以包含多行的字符串,可以包含单引号、双引号,均不需要转义...
2020-09-02 17:50:08
1886
原创 hive与mysql中join语句执行对比
本文的目的主要在于研究hive中left join与inner join带条件查询的结果差异,由于hive环境此时不具备,恰巧在研究过程中又发现一个新的问题,就顺道记下来了,正题稍后再补。原本是看到网上关于hive中join与where执行顺序的争议,这里,先对mysql中二者执行顺序进行验证;首先,两个test表原始数据如下:test_left:test_right:以上数据存粹只为验证结论编造,无条理性可言对于第一条sql来说,先对test_left与test_right
2020-08-08 23:57:06
456
原创 hive之group by相关技巧
在使用hive进行分组查询时,疑惑的一些地方进行验证,特此记录,也希望能给大家带来一点帮助!hive进行分组查询时,select多个字段,则也需要按该多个字段进行分组,例:select year,id_type ,count(1)from tableNamewhere 条件group byyear,id_type;如果select多个字段(year、id_type),而group by只有某个字段(month),则会报错:但是,可以select 指定内容,可不用进行g
2020-08-08 18:14:39
646
转载 Win7平台Python3使用impala连接HiveServer2遇到的坑
win7平台上使用impyla连接hive的缘由是Linux系统上hive客户端安装的机器没有python3环境,无法快速对多条sql语句进行查询,于是想通过在windows机器上直接连接hiveserver2进行hive查询,通过网上查找各种资料,踩了各种坑,终于实现hive连接,以下是安装要点; https://mp.youkuaiyun.com/console/editor/html/107585548安装内容该博文写的很明白,但需注意几点:(1)切记python版本为3.6...
2020-07-25 22:00:02
1032
3
原创 python之mysql安装
首先不同版本的python对应不同的模块:python3.6对应模块:pymysql;python2.7对应模块:mysqldb要先安装mysql,可以在mysql官网进行下载,下载下来的zip文件解压,里面可能会缺少my.ini文件(Mysql配置文件),需要在网上找到放到MySQL的路径下,文件中一些对应路径信息,也要进行修改,请自己仔细查看。可以在cmd下,检查Mysql是否启动:输入mys...
2018-03-24 15:28:26
549
原创 安装feedparser
在python中,安装feed parser模块时,首先要将python安装路径加到path下,检测是否成功的标志时:在cmd下输入python,提示python相关信息,表示可以在命令行下使用python。然后将路径切换到feed parser所在文件夹,输入python setup.py install(前提是已在python中打开setup.py,并将第一行换成了from distutils...
2017-12-29 09:42:52
1224
1
转载 自定义模块导入错误
当在python2.7 导入自定义模块,发生Importerror:No module named xxx时,可将模块所在路径拷贝到E:\xxx\python2.7\Lib\site-packages下,再进行导入则可解决问题。经过多方的摸索,花了半天时间终于解决了问题。
2017-10-19 16:15:29
1180
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人