- 博客(163)
- 收藏
- 关注
转载 CodeWar打怪升级-Python篇
CodeWar打怪升级-Python篇 1.The goal of this exercise is to convert a string to a new string where each character in the new string is"(...
2019-06-12 10:42:00
714
转载 电商数据分析指标体系
电商数据分析指标体系 https://blog.youkuaiyun.com/weixin_42619659/article/details/81905586 post...
2019-04-11 21:12:00
296
转载 Excel组合图表快速制作小功能
Excel组合图表快速制作小功能 1. 选中数据区域,插入推荐的图表2. 然后可以选择快速布局小工具进行布局微调选中图表 -> 设计(菜单) -> 快速布局(左边)个人特别喜欢带表格的那个组合图布局,清晰好看...
2019-03-16 11:00:00
347
转载 Hive随机取某几行数据
Hive随机取某几行数据 order by rand() limit 1001. 可用于普通随机筛选2. 也可用于row_number() 等函数的排序里作为随机排序。 ...
2019-01-28 20:13:00
2948
转载 Hive:map字段存储和取用 ( str_to_map函数 )
Hive:map字段存储和取用 ( str_to_map函数 ) str_to_map(字符串参数, 分隔符1, 分隔符2)使用两个分隔符将文本拆分为键值对。分隔符1将文本分成K-V对,分隔符2分割每个K-V对。对于分隔符1默认分隔符是 ',',对于分隔符2...
2018-12-24 14:24:00
7443
转载 Exce 快捷键 tips
Exce 快捷键 tips 1. 填充快捷键ctrl+R 向下填充CTRL+D 向右填充2. 筛选快捷键CTRL+SHIFT+L3. 移动到当前区域的边缘:Ctrl + shift + 方向箭头4. 字符连接:&...
2018-12-21 16:01:00
161
转载 sqoop 问题以及 小tips
sqoop 问题以及 小tips 1. Sqoop import 任务里把原来NULL的转化成字符串‘null’了。解决方法:先: alter table ${table_name} SET SERDEPROPERTIES('serialization.nu...
2018-12-21 15:18:00
171
转载 Hive 特殊日期截取 tips
Hive 特殊日期截取 tips 获取当前日期SELECT CURRENT_DATE, CURRENT_TIMESTAMP, from_unixtime(unix_timestamp());上个月1号concat(substr(date_sub('${b...
2018-12-20 16:13:00
1163
转载 Hive实现交叉二维分析的小语句
Hive实现交叉二维分析的小语句 1. 梳理出你要的列和行维度列维度: 每一周行维度: 年级 + 学科 + 班型2. 对数据按周增序进行聚合 (即根据列维度) ,生成listconcat_ws 和 collect_list (collect...
2018-12-18 16:42:00
380
转载 混淆矩阵、准确率、召回率
混淆矩阵、准确率、召回率 https://www.cnblogs.com/Zhi-Z/p/8728168.html posted on 2018-11-22 1...
2018-11-22 10:53:00
384
转载 python 获取中文拼音首字母;判断文件夹是否存在
python 获取中文拼音首字母;判断文件夹是否存在 1.如何获取中文字符串的首字母import pinyin#输入namedef get_pinyin_first_alpha(name): return "".join([i[0] f...
2018-09-19 09:41:00
214
转载 python 修改dataframe的列名
python 修改dataframe的列名 1. 修改全部列名 df.columnsbase_data_model.columns = [u'有效率',u'提交率',u'参与度',u'回放占比',u'主好评率',u'辅好评率',u'是否付费'] ...
2018-09-19 09:34:00
2263
转载 python 如何把小数变成百分数格式
python 如何把小数变成百分数格式 1. 数据样本,valid_rate,homework_rate,inter_rate,playback_rate,zhujiang_good_comment5_rate,fudao_good_comment5_rat...
2018-09-18 17:47:00
3123
转载 如何解决python 图表中文显示乱码问题(matlplotlib 包)
如何解决python 图表中文显示乱码问题(matlplotlib 包) 目前搜到的是,下载一个字体到程序路径,设置成默认字体。https://blog.youkuaiyun.com/irene_loong/article/details/68955485#图...
2018-09-11 18:00:00
281
转载 HDFS 常用命令行:
HDFS 常用命令行: 1. 查看各库的存储大小hdfs dfs -du -h /user/hive/warehouse2. 删除HDFS 文件hdfs dfs -rmr 绝对路径名例如:hdfs dfs -rmr /user/hive/war...
2018-07-19 11:55:00
177
转载 Hive表中的NULL值处理
Hive表中的NULL值处理 1 MySQL 到 Hive 表的sqoop任务把 原本的NULL 变成字符串 ‘null’ 了alter table ${table_name} SET SERDEPROPERTIES('serialization.null.fo...
2018-07-10 10:32:00
812
转载 Hive 任务优化 tips
Hive 任务优化 tips 1. 集群任务队列:一般有 root.default, root.online, root.offline, root.spark-thiftserverHue提交的任务一般默认在 default队列如果是紧急任务,可...
2018-07-10 10:27:00
104
转载 Titanic缺失数值处理 & 存活率预测
Titanic缺失数值处理 & 存活率预测 1.kaggle泰坦尼克数据titanic完整下载,原作者良心分享https://download.youkuaiyun.com/download/lansui7312/99368402. 缺失值处理...
2018-05-04 17:37:00
188
转载 pandas 存取数据小笔记
pandas 存取数据小笔记 import pandas as pd 1. 读取和保存 csv文件#读df = pd.read_csv(read_file_path, header=0) # 其中read_file_path ...
2018-04-28 16:33:00
106
转载 Hive表种map字段的查询取用
Hive表种map字段的查询取用 建表可以用 map<string,string>查询时可以按照 aaa[bbb], aaa 是map字段名,bbb是其中的参数名,就可以取到这个参数的值了 当参数名bbb是...
2018-04-18 17:07:00
4432
转载 hive 表锁和解锁
hive 表锁和解锁 场景:在执行insert into或insert overwrite任务时,中途手动将程序停掉,会出现卡死情况(无法提交MapReduce),只能执行查询操作,而drop insert操作均不可操作,无论执行多久,都会保持卡死状态临时解...
2018-04-12 11:28:00
1510
转载 jupyter notebook 小笔记
jupyter notebook 小笔记 安装直接按这个步骤了:https://hub.mybinder.org/user/ipython-ipython-in-depth-xj8fraz8/notebooks/binder/Index.ipynb然后...
2018-04-04 21:39:00
167
转载 python 小笔记
python 小笔记 1 删除非空文件夹import shutilshutil.rmtree('c:\\test')print 'ok'## 判断非空删除if os.path.exists('../'+kemu_name+'_data'): #拼...
2017-12-25 20:47:00
68
转载 excel表格如何打斜杠
excel表格如何打斜杠 https://jingyan.baidu.com/article/5bbb5a1b3f471613eba17908.html p...
2017-12-14 10:16:00
301
转载 互联网教育专业术语
互联网教育专业术语 K12 教育: kidgarden twelveth grade 指幼儿园起到十二年级(高三)的基础教育FAQ:frequently asked questions 常见问题解答http://www.tmtpost.com/2913...
2017-11-22 20:18:00
281
转载 hive执行报错:Both left and right aliases encountered in JOIN 's1'
hive执行报错:Both left and right aliases encountered in JOIN 's1' 原因:两个表join的时候,不支持两个表的字段 非相等 操作。可以把不相等条件拿到 where语句中。例如:right J...
2017-11-08 16:08:00
1559
转载 Hive Ntile分析函数学习
Hive Ntile分析函数学习 NTILE(n)用于将分组数据按照顺序切分成n片,返回当前记录所在的切片值NTILE不支持ROWS BETWEEN,比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY cr...
2017-09-19 15:34:00
360
转载 购买类目的概率预测
购买类目的概率预测 posted on 2017-09-19 15:30Suckseedeva 阅读(...) 评论(...) 编辑 收藏 ...
2017-09-19 15:30:00
215
转载 oozie 工作流调试及报错
oozie 工作流调试及报错 1. oozie 调用sql文件的workflow 错误汇总:1)hive2server密码错误。(有时设置可以无密码,有时需要登陆密码,有时是单独的hive2server密码)Connecting to jdbc:hive2...
2017-09-19 14:57:00
617
转载 hadoop/hdfs/yarn 详细命令搬运
hadoop/hdfs/yarn 详细命令搬运 转载自文章http://www.cnblogs.com/davidwang456/p/5074108.html安装完hadoop后,在hadoop的bin目录下有一系列命令:container-ex...
2017-09-19 14:08:00
362
转载 Impala SQL 使用小记
Impala SQL 使用小记 1. impala端创建的表,DROP。hive会自动同步到。但是通过hive DROP时,数据还会在,只是表的元数据没有了。所以完全DROP表,需要impala端的DROP2. impala 不支持 多个count...
2017-09-11 18:26:00
361
转载 hive压缩
hive压缩 1. 常用 rcfile + gzip parquet + snappy2. 压缩比,参考TextFile默认格式,加载速度最快,可以采用Gzip进行压缩,压缩后的文件无法split,即并行处理。Seque...
2017-09-07 13:59:00
186
转载 MySQL把文件导入表中
MySQL把文件导入表中 1. Mysql 把本地文件导入表中drop table if exists wufangzhai_caigou_group;create table wufangzhai_caigou_group( label V...
2017-09-06 16:13:00
326
转载 numpy+pandas 基础学习
numpy+pandas 基础学习 #-*- coding:utf-8 -*-import numpy as np;data1=[1,2,3,4,5]array1=np.array(data1)#创建数组/矩阵# 使用numpy中的a...
2017-08-16 12:59:00
164
转载 基本的描述性统计
基本的描述性统计 1. 最小值,1/4位数,中位数,3/4位数,最大值excel里面: MIN,QUARTILE,MAX,AVARAGE2. 众数excel里面: MODE.MULT ...
2017-08-16 12:55:00
240
转载 Hive 优化汇总
Hive 优化汇总 参考:http://www.cnblogs.com/yshb/p/3147710.htmlhttp://www.cnblogs.com/sandbank/p/6408762.html一 join时注意点:1. 小表放前面...
2017-07-19 09:56:00
118
转载 PostgreSQL (简称gp)小集
PostgreSQL (简称gp)小集 1. SQLyog & Navicat SQLyog可以管理 MySQL Navicat 可以管理 SQL Server,MySQL,PostgreSQL,SQLite2. 日期及加减now...
2017-05-15 18:15:00
220
转载 yarn 日志查看
yarn 日志查看 1. yarn 日志列表yarn application -list2. impala-shellimpala-shell -q 'invalidate metadata'## impala-shell -...
2017-05-09 16:00:00
447
转载 Python: 对CSV文件读写 和 Md5加密
Python: 对CSV文件读写 和 Md5加密 1. python 有专门的csv包,直接导入即可。import csv;2. 直接使用普通文件的open方法csv_reader=open("e:/python/csv_data/log...
2017-05-03 18:25:00
1054
转载 odps 使用参考 & tips
odps 使用参考 & tips 1. 自定义udf编写udf1)pom.xml <dependency> <groupId>com.aliyun.odps</groupId&g...
2017-04-28 14:58:00
473
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人