- 博客(18)
- 收藏
- 关注
原创 sql-函数
1.日期加减函数(Hive)注:只能识别“yyyy-mm-dd”日期格式1.1日期减少函数: date_sub语法: date_sub (string startdate, int days)返回值: string说明:返回开始日期startdate减少days天后的日期。举例:hive> select date_sub('2012-12-08',10) from lxw_dual;1.2日期增加函数:date_add语法: date_add (string startdate,
2021-11-08 15:03:20
2523
原创 Sql-case when 两种方式比较
A. 使用带有简单 CASE 表达式的 SELECT 语句在一个SELECT语句中,一个简单的CASE表达式只允许进行相等检查;没有进行其他比较。select skuid,case city_name when 'BJ' then '北京' when 'SH' then '上海' when 'GZ' then '广州' else '中国' end '城市', skuname,skuprice from xxxx;B. 使用带有搜索的 CASE 表达式的 SEL
2021-09-14 19:57:07
1703
原创 SQL-排序
row_number排名逻辑1.二级分类为肉禽蛋、酒水饮料、粮油副食的按三级分类排名2.二级分类为’日配’,‘休闲零食’,‘海鲜水产’,‘蔬菜’,‘水果’,‘家居厨卫’,'个护美妆’按二级分类排名3.一级分类为加工食品的按一级分类排名select * ,ROW_NUMBER() over(parititon by city,cat1,cat2,cat3 order by sales desc) as row_num FROM mart_mall_dev.mt_all where cat2 in("
2020-09-14 17:17:34
225
原创 sql-窗口函数
窗口函数用法:<窗口函数> OVER ( [PARTITION BY <列清单> ]ORDER BY <排序用列清单> )partition by 能够设定排序的对象范围,类似于group by语句,(非必须 )可作为窗口函数1.聚合函数(sum,avg,count,max,min)2.专用窗口函数rank,dense_rank、row_number窗口函数的适用范围:只能在select子句中使用用于排序的专用窗口函数1、RANK()在计算排序时,若存
2020-08-18 23:09:35
135
原创 python数据清洗
目录1.导入excel文件1.1批量导入指定文件及汇总1.2批量导入多sheet的excel文件2.查看数据信息3.值处理3.1条件筛选赋值3.2设置哑变量3.3缺失值处理3.4字符串3.5 删除符合条件的行数3.6 分组汇总3.7日期格式转换4.重命名5.按行(列)拼接表格6.导出excel1.导入excel文件import pandas as pdpd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None,
2020-07-21 23:20:36
660
原创 python报错合集
1.数字为字符串类型TypeError: (“unsupported operand type(s) for /: ‘str’ and ‘str’”, ‘occurred at index 0’)虽然输入的是数字,但python认定为字符串类型,应在前加上int() 或者float()2.值类型转换错误ValueError: invalid literal for int() with base 10int()函数是可以将字符串转换为整形,但是这个字符串如果是带小数的,比如‘25.5’,这个时候如
2020-07-19 19:14:18
1160
原创 小红书销售额预测模型-线性回归
数据:数据链接提取码: j4cd仅作为自己学习数据分析的过程记录1.指标解释revenue :用户的下单购买金额3rd_party_stores: 用户过往在app中从第三方商家购买的数量,0表示购买的自营产品gender:男1 女0 空缺unkownage :年龄 空缺unkownengaged_last_30:最近30天在app上有参与重点活动lifecycle :生命周期A:注册6个月内B:一年内C:两年内days_since_last_order 最近一次下单距今的天数(小
2020-05-28 21:39:08
4572
1
原创 R画图
R画图1.一幅图中多条线方法一 用lines、points函数超实用画图方法二在第二个plot函数中添加参数 add=Tplot(performance(pred1, "tpr", "fpr"), col="red", lwd = 1.5, main = "ROC Curves",lty=1,pch=15)plot(performance(pred2, "tpr", "fpr"), add = T, col = "blue", lwd = 1.5,lty=1,pch=16)plot(perf
2020-05-21 17:49:33
261
原创 sample选取随机样本
在数据框中选取随机样本sample(x, size, replace = FALSE, prob = NULL)x 要么是一个或多个元素的向量,要么选择一个正整数,要么是一个正整数size 要抽取的样本个数replace 是否放回抽样(默认不放回)prob 比例1.导入数据read.csv()结果如下2.在上表中随机选取n个样本n2<-nrow(A2) #计算表行数testdata1<- A2[sample(n2,size = 260,replace = F),]
2020-05-19 15:01:14
1151
原创 R常用函数
5.13查看对象类型的函数mode、class、typeofd<-data.frame(c1=letters[1:3],c2=1:3,c3=c(1,2,3),stringAsFactor=F)> sapply(d,mode) c1 c2 c3 "numeric" "numeric" "numeric" > sapply(d,class) c1
2020-05-13 23:40:27
432
原创 日期常用函数(R)
日期变量常用函数函数功能Sys.date返回系统当前时间Sys.time返回系统当前的日期和时间date以字符串形式返回系统当前的日期和时间as.date(x,format=“”,…)将字符串形式的日期值转换为日期变量format(x,)将日期变量转化为指定格式的字符串strftime(x,format)将日期变量转换为指定格式的字符型变量strptime(x,format,tz=" ")将字符型变量转换为包含时间...
2020-05-13 22:07:00
256
原创 R绘图有关函数
**一、制作矩形框rect函数绘制一个或多个矩形描述符绘制一个带有给定坐标、填充和边框颜色的矩形(或矩形序列)。rect(xleft, ybottom, xright, ytop, density = NULL, angle = 45,col = NA, border = NULL, lty = par(“lty”), lwd = par(“lwd”), …)argument...
2020-04-21 13:19:30
419
原创 数据分析思维导图
1.流量分析2.路径分析路径分析是基于用户的所有行为去挖掘若干条重要的用户路径,通过优化界面内交互让产品用起来更加流畅和符合用户习惯,产生更多价值。日志:用户在app内所有的行为都是以表或者文件存储,记录了用户详细行为信息。3.竞品分析1.准备进入某行业时——侧重行业规模和前景2.产品发展处于下降时——侧重头部玩家的玩法分析3.产品遇到瓶颈时——持续监控竞品的数据和功能迭代,寻找突...
2020-04-01 22:40:45
1399
1
原创 关于R常报错问题及解决办法(持续更新中)
1.导入数据时,将数据框中数据转化数值型报错方案:unlist()as.numeric.(unlist())2.无法使用rstudio或者R安装程序包Warning in install.packages:unable to access index for respository原因可能是镜像问题,重新选一个镜像方案:chooseCRANmirror() #选择相应的镜像——国内...
2020-03-22 12:30:42
5955
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人