- 博客(30)
- 资源 (8)
- 收藏
- 关注
原创 SparkSQL 技巧 - cache table 缓存 和 stack生成列
–缓存性别表,表名sex,字段名sex,有2行cache table sex_table asselect stack(2,‘M’,‘F’) as sex;–缓存缴费期表,表名ppp_table,字段名ppp,有4行cache table ppp_table asselect stack(4,10,15,20,30) as ppp;–生成一个1~200的顺序表。因为接下来的连续的投保年龄,和连续的保单年度,都不会超过200,所以200已经够用。cache table seq_table as
2022-04-13 23:36:53
2244
原创 利用 repeat 和 posexplode 函数生成日期小时等时间序列表
利用 repeat 和 posexplode 函数生成日期小时等时间序列表drop table if exists qt_report.temp_d_c_001;create table qt_report.temp_d_c_001select date_add(start_date_,st_index) as date_ from ( select start_date_ ,end_date_ ,
2022-03-28 19:10:10
399
原创 pymsql 查询结果返回字典
Python中让MySQL查询结果返回字典类型的方法import pymysqlhost='localhost'user='root'passwd='root'port=3306db='test'db=pymysql.connect( host=host, user=user, passwd=passwd, db=db, port=port, charset='utf8', cursorclass = pymysql.cursors.Di
2022-03-05 08:23:20
1430
原创 Hive 使用时长 转换为时间格式
这里写自定义目录标题from_unixtime 函数to_utc_timestamp 函数互联网公司最关注的数据指标,停留时长,使用时长 等等指标计算出来一般单位都是数值单位,xx秒,如30秒,12782秒或者xx.xx分钟,如4.5分钟,如果展现几分几秒的话,或许更直观,比如12782秒转换为03:33:02 或者是03时33分02秒现在有两种办法实现:都是借助linux时间戳是从 1970-01-01 00:00:00开始的原理实现from_unixtime 函数`hive> sel
2021-11-30 15:46:01
1262
原创 pandas DataFrame 按照30s 向下取整
print(ss['time'])0 2014-01-21 03:31:111 2014-01-21 04:53:552 2014-01-21 05:16:183 2014-01-21 05:55:054 2014-01-21 08:44:53ss['date_30s'] = pd.to_datetime(ss['time'].apply(lambda x: time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(int(x.ti.
2021-03-04 23:23:29
1834
1
原创 Python Pandas DataFrame多维的列索引 如何展开成为一维索引?
Python Pandas DataFrame多维的列索引 如何展开成为一维索引?df_stat = df.groupby(['Student ID'],as_index=False)['entropy', 'Out Count', 'In Count'].agg(['mean','std'])df_stat.columnsMultiIndex(levels=[[‘entropy’, ‘Out Count’, ‘In Count’], [‘mean’, ‘std’]],codes=[[0, 0
2021-03-04 22:13:17
2447
5
原创 datawhale——阿里天池--AI助力精准气象和海洋预测学习笔记 task1
项目背景问题陈述这个竞赛是一个自然科学相关的时间序列预测问题,要求基于历史气候观测和模式模拟数据,准确预测厄尔尼诺-南方涛动(ENSO)现象。具体来说,我们的任务就是根据过去12个月的气象及时空数据,预测未来24个月的Nino3.4指数。1 什么是ENSO现象ENSO现象是厄尔尼诺(EN)现象和南方涛动(SO)现象二者的合称。厄尔尼诺现象是指赤道中东太平洋附近的海表面温度持续异常增暖的现象。南方涛动现象则是热带东太平洋与热带西太平洋气压场存在的气压变化相反的跷跷板现象。在厄尔尼诺期间,东南太平洋.
2021-02-22 02:58:40
971
原创 DataWhale 零基础入门语义分割-地表建筑物识别-Task1
DataWhale 零基础入门语义分割-地表建筑物识别-Task1赛题理解赛题名称赛题名称赛题名称:零基础入门语义分割-地表建筑物识别赛题目标赛题目标赛题目标:通过本次赛题可以引导大家熟练掌握语义分割任务的定义,具体的解题流程和相应的模型,并掌握语义分割任务的发展。赛题任务赛题任务赛题任务:赛题以计算机视觉为背景,要求选手使用给定的航拍图像训练模型并完成地表建筑物识别任务。赛题为语义分割任务,因此具体的标签为图像像素类别。在赛题数据中像素属于2类(无建筑物和有建筑物),因此标签为有建筑物的像素。赛题
2021-02-20 23:35:59
360
转载 Python Pandas DataFrame分组排序
转载自 https://blog.youkuaiyun.com/ai_1046067944/article/details/86300634一、pandas分组*1、分组运算过程:split->apply->combine拆分:进行分组的根据应用:每个分组运行的计算规则合并:把每个分组的计算结果合并起来2、分组函数DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=Tr.
2021-02-08 21:14:32
3990
原创 一台电脑上的git同时使用多个github账户
一台电脑上的git同时使用两个github账户 需求:公司有github账号,自己有github账号,想在git上同时使用,两者互不干扰。思路:管理两个SHH key。解决方案:一、生成两个SSH key为了举例方便,这里使用“one”和“two”两个账户。下同。$ ssh-keygen -t rsa -C "one@gmail.com"$ ssh-keygen -t rsa -C "two@gmail.com"不要一路回车,分别在第一个对话的时候输入重命名(...
2021-01-29 17:06:30
287
原创 异常检测——高维数据异常检测
主要内容包括:Feature Bagging孤立森林文章目录1、引言2、Feature Bagging3、Isolation Forests4、总结5、练习6、参考文献1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中
2021-01-25 01:55:48
229
原创 datawhale 异常检测
基于近邻性的算法,我认为与 数据挖掘中的聚类算法一样,只是把小的类给标注为异常点,我认为一般情况下这样处理是对的,但是对于风控中的团案来说,抱团反而是异常点。以下内容主要摘抄自datawhale -异常检测 学习任务1. 基于距离的度量——适用各种数据域所谓基于距离的度量,即通过最近邻距离来定义异常值。其假设前提:异常点的 k 近邻距离要远大于正常点。计算:嵌套循环。 第一层循环遍历每个数据,第二层循环进行异常判断,需要计算当前点与其他点的距离,一旦已识别出多于 k 个数据点与当前点的距离在 D
2021-01-22 00:11:51
140
原创 whale异常检测task3- 线性模型
1、引言真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。 一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 线性回归,后者一个典型的例子是 主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。需要明确的是,这里有两个重要的假设:假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。假
2021-01-19 01:31:48
128
原创 datawhale task2 异常检测——基于统计学的方法
主要内容包括:高斯分布箱线图1、概述统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。2、参数方法2.1 基于正态分布的一元异常点检测仅涉及一个属性或变量的数据称为一元数据。我们假定数据由正态分布产生,然后可以由输入数据学习正态分布的参数,并把低概率的点识别为异常点。阈值是个经验值,可以选择在验证集上使得评估指标值最大(也就是效果最好)的阈值取值作为最终阈值。
2021-01-16 01:50:37
149
原创 Markdown如何优雅地植入图片-附python代码
小伙伴们在Markdown文章中植入文章的方法一般有三种:1. 插入本地图片// 绝对路径// 相对路径 缺点不好分享,发给别人还得打个包,一点也不优雅。2. 插入图床或者网络服务器的网络连接对于写在私人博客网站或者只是简单地分享一下的话,还是有很多问题的。第一:要网络,断网环境严重体验。第
2021-01-15 11:03:19
692
原创 whale异常检测组队学习笔记task2--demo代码
对于异常检测的定义,网上文章汗牛充栋,作为经常copy paster的 我只能大概了解一下常用的使用场景,仅以此文记录一下一些经典的常用的异常检测代码 。感谢 O-A-A 大佬原文: https://blog.youkuaiyun.com/u012194696/article/details/112531362svmEllipticEnvelopeIsolationForestLocalOutlierFactorpyodTalk is cheap ,show me the code !import n
2021-01-12 22:54:19
374
原创 nodejs JWT 附源码
基于 Token 的身份验证:JSON Web Token(附:Node.js 项目)使用基于 Token 的身份验证方法,在服务端不需要存储用户的登录记录。大概的流程是这样的:客户端使用用户名跟密码请求登录 服务端收到请求,去验证用户名与密码 验证成功后,服务端会签发一个 Token,再把这个 Token 发送给客户端 客户端收到 Token 以后可以把它存储起来,比如放在 Cookie 里或者 Local Storage 里 客户端每次向服务端请求资源的时候需要带着服务端签发的 Toke
2020-12-06 22:37:18
210
原创 windows10 nodejs sqlite3 安装失败
这里写自定义目录标题windows10 nodejs sqlite3 安装失败如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入windows10 nodejs sqlite3 安装失败有什么比配置环境配置了几个小时更恶心?调用的时候会提示找不到sqlite模块。看似简单,却没有一点提示,国内网上
2020-12-04 23:19:54
1145
原创 python 正则表达式精华 re.match与re.search的区别
re.match与re.search的区别re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。实例:#!/usr/bin/pythonimport reline = "Cats are smarter than dogs";matchObj = re.match( r'dogs
2015-12-19 20:23:56
690
原创 python pandas 自动填充,重新采样 resample
# -*- coding: utf-8 -*-import pandas as pdfrom datetime import datetimea=pd.date_range('2015-11-1','2015-11-2',freq='h')print aimport pandas as pdfrom pandas import DataFramefrom pandas impor
2015-12-07 09:50:54
13627
转载 python中 可变与不可变对象
面试中关于Python的参数传递1 天前• coco •2 评论 • Python , 面试先看代码:Python1234a = 1def fun(a): a = 2print a #1################Python1234b=[]
2015-11-15 02:26:24
494
原创 beautifulsoup抓取 class 关键字
在这里我们想用 class 过滤,不过 class 是 python 的关键词,这怎么办?加个下划线就可以soup.find_all("a", class_="sister")# [Elsie,# Lacie,# Tillie]1234soup.find_all("a",class_="sister")# [
2015-11-09 18:32:18
13495
原创 python return
函数的return 一定要写在关键的地方。不能乱写下面两组区别,你懂吗?任务结束之前才能return conn=MySQLdb.connect(**connection)cur=conn.cursor()cur.execute(sql)results=cur.fetchall()conn.cursor().close()conn.commit()conn.close()retu
2015-10-26 21:01:30
773
翻译 myql中的decimal
原文:http://dev.mysql.com/doc/refman/5.6/en/precision-math-decimal-characteristics.htmlmyql中的decimal mysql 的每个字段类型之间的差别虽小,但是在海量数据当中还是能提现出来的。列的声明语法是DECIMAL(M,D)。在MySQL 5.1中,参量的取值范围如下:
2015-10-26 17:12:49
619
转载 mysql出现Waiting for table metadata lock的原因及解决方案
http://www.cnblogs.com/dyllove98/archive/2013/07/16/3194332.html最近经常遇到mysql数据库死锁,郁闷死, show processlist; 时 Waiting for table metadata lock 能一直锁很久 下面有官网的一段话,可以理解下 http://dev.mysql.com/do
2015-10-26 14:47:55
16169
转载 Python模块包中__init__.py文件 精髓
原文:http://www.douban.com/group/topic/24075924/ 本人有删改 参考 http://www.cnblogs.com/tqsummer/archive/2011/01/24/1943273.htmlPython packages __init__.py包的精髓在 _
2015-10-23 21:31:35
3135
转载 python模块包调用解析
原文 http://wuyanzan60688.blog.163.com/blog/static/1277761632011102113211189/A |----- __init__.py |----- a.py |---------B |--------- __init__.py |--
2015-10-23 21:20:15
754
翻译 utf8mb4和utf8区别
http://dev.mysql.com/doc/refman/5.5/en/charset-unicode-utf8mb4.htmlutf8mb4比utf8支持更多的字符????10.1.10.6 The utf8mb4 Character Set (4-Byte UTF-8 Unicode Encoding)The chara
2015-10-21 09:43:28
1039
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人