自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

在服务器上挂载OSS_bucket

叫你不要用 rm -rf

  • 博客(187)
  • 收藏
  • 关注

原创 map join 大表和小表的join

map join 的定义:map join 适用于一个大表和一个或多个小表执行join操作的场景。整个join过程包含map、shuffle和reduce三个阶段。通常情况下,join操作在reduce阶段执行表连接。map join操作是在map阶段执行的,大量缩短了数据传输的时间,提升了系统资源的利用率,从而起到了优化作业的作用。并且map join会将指定的小表全部加载到执行join操作的程序的内存中,从而加快join的速度。map join 的操作限制: 指定的表只能是小表;

2021-07-08 17:10:20 2446

原创 sql行转列的3种方法

行转列的3种方法 max(case when) pivot() 用存储过程行转列 准备数据--创建表create table Table_A( 商家 string, 奶茶 string, 价格 bigint);--插入数据insert into Table_A(商家,奶茶,价格) values('1点点','波霸奶茶',14),('1点点','四季奶青',14),('喜茶','波霸奶茶',21),('CoCo','四季奶青',16

2021-07-02 14:49:20 8801

原创 MapReduce简单理解

维基百科MapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(归纳)”,及他们的主要思想,都是从函数式编程语言借鉴的,还有从矢量编程语言借来的特性。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归纳)函数,用来保证所有映射的键值对中的每一个共享相同的键组。百度百科MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映

2021-05-11 15:50:12 725 2

原创 数据仓库

定义数据仓库(data warehouse,也称为企业数据仓库)是用于报告和数据分析的系统,被认为是商业智能的核心组件。数据仓库是来自一个或多个不同源的集成数据的中央存储库。数据仓库将当前和历史数据存储在一起,用于为整个企业的员工创建分析报告。用途 制定年度目标 优化业务流程 数据仓库主要用于数据挖掘和数据分析,辅助领导做决策。数据仓库的特点1 面向主题主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。面向主题的数据组织方式,就是在

2021-03-23 18:26:26 298

原创 SQL 将多列转为一列,一行转为多行 (odps sql)

准备数据create table if not exists tmp_table_friends( name string comment '名字', appearance double comment '外貌', character double comment '性格', ability double comment '能力', humor double comment '幽默', job double comment '工作', figu

2021-03-18 10:37:19 2516

原创 jenkins升级导致pipeline中buildName参数传递失败

jenkins升级导致无法显示build history的build namejenkinsfile pipeline groovy 语法 stage('Initialization'){ steps{ script{ buildName "${BUILD_NUMBER}-${BRANCH_NAME}" } } }报错提示尝试过语法改动,最后发现是个别插件没有更新更新插件“Token

2021-03-10 15:05:51 424

原创 链表的简单理解(python)

链表的官方解释维基百科:链表(Linked list)是一种常见的基础数据结构,是一种线性表,但是并不会按线性的顺序存储数据,而是在每一个节点里存到下一个节点的指针(Pointer)。百度百科:链表是一种物理存储单元上非连续、非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的。单链表双向链表双向循环链表链表和数组的区别:两者的区别: 1. 数组静态分配内存,链表动态分配内存。 2. 数组在内存中是连续的,链表是不连续的。 .

2021-01-14 18:14:01 258

原创 假设有30匹马,5个跑道,找出最快前3匹马?

假设有30匹马,5个跑道,每个跑道1匹马,至少多少次,找出最快前3匹马?1.如果能计时,就6次。2.如果不能计时:step1:5个跑道,跑6场,分别赛出每场的第一名(a1,b1,c1,d1,e1,f1)。step2:a1、b1、c1、d1、e1、f1,再比1次,赛出第一名a1。step3:a2和b1竞争第二名,a3,b2和c1竞争第三名。故(a2,a3,b1,b2,c1)再跑一次,取前2名。总结:6+1+1=至少8次...

2021-01-13 09:55:25 963 1

转载 十大排序算法

1.冒泡排序基本原理 比较类排序算法。算法描述如下(假设是升序排序): 比较相邻的元素,如果第一个元素比第二个大,就交换它们; 对每一对相邻元素做同样的工作,从开始第一对到结尾的最后一对,这样在最后的元素应该会是最大的数; 针对所有的元素重复以上的步骤,除了最后已经选出的有序元素; 持续对剩下的无序元素重复上面的步骤,直到排序完成。 算法时间复杂度算法实现:Cvoid BubbleSort(int *arr, int size) {

2021-01-12 10:37:22 162

原创 sql判断字段是否是纯数字

二、取纯数字类型的大版本(按点切分的第一列)一、准备数据-- 创建表create table if not exists tmp_data_20201210( data string comment '测试数据');-- 查看创建完的表结构desc tmp_data_20201210;-- 插入数据insert into tmp_data_20201210(data)values('111.11.1'),('3.444'),('17'),('sss.sssss.22

2021-01-12 10:23:50 5882

原创 ANN-简单了解

ANN人工神经网络(Artificial Neural Network,ANN)简称神经网络或类神经网络。在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数据模型或计算模型,用于对函数进行估计或近似。神经网络由大量的人工神经元联结计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统,通俗地讲就是具备学习功能。现代神经网络是一种非线性统计性数据建模工具,神经网络通常是通过一个基于数学统计学类型的学习方法得以优化,所以也是数

2021-01-12 10:18:46 949

原创 统计学习及监督学习概论

统计学习及监督学习概论统计学习及监督学习概论

2021-01-12 10:15:10 144

原创 git 常用命令

1.git命令常用三件套git add .git commit -m '备注'git push origin master2.本地分支绑定远程分支每次提交代码的时候,我们都需要执行git push origin master,其实不用这么麻烦git branch --set-upstream-to=origin/远程分支名称直接执行git branch --set-upstream-to=origin/master,绑定后,直接git push,即可提交代码。3.回退到当前版

2021-01-12 10:13:55 374

原创 监督学习、无监督学习、半监督学习

监督学习、无监督学习、半监督学习、强化学习

2021-01-12 10:04:18 252

原创 过拟合,欠拟合和完美拟合的简单理解

之前发过一篇关于过拟合,欠拟合和完美拟合的简单理解,这次在简单理解的基础上,加了一些数据层面的理解。过拟合,欠拟合和完美拟合的简单理解过拟合和欠拟合的数据层理解...

2021-01-12 10:03:05 852

原创 方差与标准差

方差与标准差的简单理解方差与标准差数学期望在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。需要注意的是,期望值并不一定等同于常识中的“期望”——“期望值”也许与每一个结果都不相等。期望值是该变量输出值的平均数。期望值并不一定包含于变量的输出值集合里。大数定律规定,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值。期望例子...

2021-01-12 10:00:27 233

原创 odps_sql 行转列&列转行

1.准备数据create table Table_A( 商家 string, 奶茶 string, 价格 bigint);insert into Table_A(商家,奶茶,价格) values('1点点','波霸奶茶',14),('1点点','四季奶青',14),('喜茶','波霸奶茶',21),('CoCo','四季奶青',16);select * from Table_A ;2.纵表变横表create table Table_B assel

2021-01-12 09:58:58 1985

原创 机器学习-简单了解

机器学习-简单了解

2021-01-12 09:54:25 123

原创 xxx.app已损坏,打不开。你应该将它移到废纸篓

有时候,你下载一些软件,安装完打开时,会报“xxx.app已损坏,打不开。你应该将它移到废纸篓”的错误。百度很多方法都是让你,打开系统偏好设置 -> 安全与隐私 -> 通用选项卡,检查是否已经启用了任何来源选项。可是你的选项里根本就没有任何来源。这时候一般解决办法就是1.打开iTerm2.找到应用的名字ls /Applications/3.执行sudo xattr -rd com.apple.quarantine /Applications/应用名....

2021-01-11 10:19:13 440 1

原创 提高SQL查询效率的方法

查询条件精确。 sql逻辑执行顺序:from->join->where->group->having->distinct->order->top。 把表的别名前缀置于每个column上,减少解析的时间。 少做重复工作 语句复杂时,考虑临时表和表变量分布完成。 子查询。子查询可以用in、not in、exists、not exists引入,not in、not exists的相关子查询可以改用left join代替..

2021-01-11 10:16:45 1216

原创 常见的降维算法

常见的降维算法:线性方法 主成分分析(Principal Component Analysis,PCA)、 对应分析(Correspondence Ahalysis,CA)、 多重对应分析(Multiple Corresspondence Analysis,MCA)、 经典多维尺度分析(classical multidimensional scaling,cMDS)、 主坐标分析(Principal Coordinate Analysis,PCoA)。

2021-01-11 10:15:34 1387

原创 Embedding了解

1.Embedding 嵌套英 [ɪm'bedɪŋ] 美 [ɪmˈbedɪŋ] n. 记者随军v. 把(物体)嵌入;派遣(战地记者等);使(观点)深深植入;嵌进(短语);插入(代码)(embed 的现在分词)Embedding是一个将离散变量转为连续向量表示的一个方式。在神经网络中,Embedding不仅可以减少离散变量的空间维数,同时还可以有意义的表示该变量。转换到低维空间使用嵌套(将高维度数据映射到低维度空间)可以解决稀疏输入数据的问题,也就是将大型稀疏矢量映射到一个保留语义关

2021-01-11 10:14:22 454

原创 FM算法

FM (Factorization Machines)因子分解机FM算法的目的是:解决稀疏数据下的特征组合问题。 核心:在于特征组合,以此来减少人工参与特征组合。 用途:被广泛应用于广告推荐等CTR(Click-Through-Rate,点击通过率)预估场景。优势: 1.处理数据高度稀疏的场景; 2.具有线性的计算复杂度; 3.能够在任意的实数特征向量中生效; 4.对输入要求低,能够灵活处理各种格式的数据; one-hot编码转换后都会导致样本数据的稀疏性和特

2021-01-11 10:12:09 169

原创 召回

1.召回recall vt. 召回;回想起,记起;取消n. 召回;回忆;撤消recall 在推荐系统中被翻译成“召回”的意思,其实翻译成“想起”更好理解。例1(选单词)第一天你看了20个单词,第二天让你在100个单词中找出你昨天看的单词。你选了30个单词,其中有15个确实是昨天看到过的。此时,想起来的概率为15/20=3/4。例2(类比搜索引擎)搜“浙江大学”,得到3个网页结果。a.浙江大学最美老师b.浙江最有名的景点c.大学生活中有趣的事事实上,只有第一个网页是

2021-01-11 10:10:50 181

原创 使用dataworks投递sls历史数据至Maxcompute

sls如何投递历史数据到Maxcompute?完成投递配置后,只能投递从创建时间后的数据,如何将sls中近一个月的数据按日期投递到maxcompute中呢?通过dataworks投递,用LogHub Reader和MaxCompute Writer注意:系统字段__time__、__source__、__topic__投递时分别使用C_LogTime、C_Source、C_Topic代替,其他业务字段不变。...

2021-01-11 10:04:44 600

原创 Jenkins修改BuildName的2种方法

方法一:常规项目->配置->构建环境->Set Build Name修改配置方法二:Pipeline项目->在stages里面加一个stage stages { stage('Initialization'){ steps{ buildName "${BUILD_NUMBER}-${BRANCH_NAME}" } }}以上2种方法改完,显示的时候,可能会有字母换行的问题,还需要改一下CSS。系统管理

2021-01-11 10:03:04 1892 1

原创 sklearn库(python机器学习)

最近想做个关于tf-idf的实验,找了好多代码都用到了sklearn库,今天先来简单了解一下。sklearn共分为6大部分,分别用于完成分类任务,回归任务,聚类任务,降维任务,模型选择以及数据的预处理。分类任务回归任务聚类任务降维任务...

2021-01-11 09:59:55 470

原创 机器学习与深度学习

机器学习机器学习是一种人工智能,专门解释和分析给定的数据,以适应它并给出足够智能的决策。简单地说,这个人工智能是用来观察和注意很多方面的东西,然后根据它接收到的信息采取一个或多个行动步骤。目前典型的机器学习任务: 链接推荐 内容审核 搜索结果显示 策划社交媒体时间线 深度学习深度学习是机器学习的一个子集,深度学习系统的基本设计是一个有机的传统大脑。使用复杂的神经网络形成新的记忆,这种系统使用人工神经网络编织自己复杂的决策网络,而人工神经网络由无数的算法层组

2021-01-11 09:53:39 178

原创 回归

回归分析的官方解释回归分析(Regression Analysis)是一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量。更具体的来说,回归分析可以帮助人们了解在只有一个自变量变化时因变量的变化量。一般来说,通过回归分析我们可以由给出的自变量估计因变量的条件期望。回归分析的个人理解这么晦涩难懂的官方解释当然不是本文的重点。你想根据女朋友的购物记录来决定情人节什么礼物。回归模型回归技术...

2021-01-08 11:39:35 99

原创 SVM支持向量机

SVM(support vector machine)支持向量机 SVM被称为“最优分类器”,所有能百度到的解释全都是一头雾水。SVM是一种二分类模型,用来定义在特征空间上间隔最大的线性分类器,学习策略就是间隔最大化。是不是榴莲?SVM支持向量机1、图中3条直线分别代表3个分类器,请问哪一个分类器比较好?直观感受应该是H3。首先H1没有把类别分开,H2与数据点的间隔较小。如果有一些噪声数据的话,H2可能会分错(即对噪声敏感、泛化能力比较弱)。H3与数据点的间隔较大,可以容忍测试.

2021-01-08 11:38:08 291

原创 过拟合、欠拟合和完美拟合

本文所有例子纯属个人理解例:女生一般都有自己的偏好。如果一个男生喜欢一个女生,为了追到她,经常会去迎合她的爱好和习性。比如只喝温水、每天至少通一次电话,电话等对方先挂、每天发晚安,给对方买零食、出去吃饭主动买单,袜子衣服分开洗,节日买礼物……,这个就是属于这位女生的个人特征,也是男生追女生时所谓的“经验”。但并不是把这些事情做到就可以了,也许某一天这个女生会觉得男生每天忙于自己的事情,不够关心她而分手。过拟合:当你再找女朋友时,拿出上一任的“经验”,可能会发现效果并不好。这是因为每个女生的偏好是不同

2021-01-08 11:36:31 387 1

原创 随机森林

本文所有例子纯属个人理解典型的决策树算法:Melody要决定在上海的一周去哪些景点。她拜访了一位曾在上海住过3年的朋友Lisa,问Lisa曾去过哪些景点,是否觉得有趣。基于自己的经验,Lisa会给Melody一些建议。典型的随机森林算法:之后,Melody问了很多在上海呆过的朋友,他们推荐了自己去过的景点。然后,Melody选择了被推荐次数最多的景点。随机森林森林比树更优(过拟合):例:今日你必须分析**股票是否会上涨,然后你决定去询问几位数据分析师。第一位分析师可能平时只阅

2021-01-08 11:34:36 99

原创 朴素贝叶斯为什么被称为“朴素”?

一、基本理解1.朴素贝叶斯分类器:例:如果有一种水果具有红、椭圆形、直径约3英寸等特征,则该水果可以被判定为是苹果。 尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。2.朴素贝叶斯分类的算法流程:例:我们需要根据天气条件进行分类,判断这一天能不能出去玩。朴素贝叶斯-例1步骤1:将数据集转换成频率表;步骤2:计算不同天气出去玩的概率,并创建似然表,如阴天的概率是0.29;步骤3:使用贝叶斯公式计算每一

2021-01-08 11:33:10 1984

原创 SQL 其他函数

SQL 其他函数1.CAST cast(expr as <type>) --将表达式的结果转换成目标类型 cast(double as bigint) cast(string as bigint)2.COALESCE coalesce(expr1, expr2, ...) --返回列表中第一个非NULL的值,如果列表中所有的值都是NULL,则返回NULL3.DECODE decode(expression, searc

2021-01-08 11:32:15 1278

原创 sql 字符串函数

Maxcompute odps sql 字符串函数1.CHAR_MATCHCOUNT BIGINT CHAR_MATCHCOUNT(STRING str1, STRING str2) --计算str1中有多少个字符出现在str2中 CHAR_MATCHCOUNT('abd','aabc') = 2 -- str1中的两个字符串'a'和'b'出现在str2中。2.CHR STRING CHR(BIGINT ascii) --将指定ASCII码asc

2021-01-08 11:28:20 1640

原创 Maxcompute ODPS SQL 日期函数

Maxcompute ODPS SQL 日期函数日期函数1.DATEADD--按照指定的单位修改date的值 --加1天 dateadd(datetime, 1, 'dd') --减1天 dateadd(datetime, -1, 'dd') --加20个月--月份溢出,年份增加 dateadd(datetime, 20, 'mm') --2005年2月没有29日--日期截取当月最后一天 dateadd(dat

2021-01-08 11:24:24 7769

原创 Maxcompute ODPS SQL 聚合函数

ODPS SQL 聚合函数ODPS SQL 聚合函数1.COUNT:用于计算记录数。SELECT COUNT(*) FROM table_name;--********************************************************************--2.AVG:用于计算平均值。SELECT AVG(value) AS avg FROM table_name;--*****************************************

2021-01-08 11:22:36 1962

原创 修改jenkins插件CSS

本文以Jenkins显示编译结果的插件description setter plugin 为例,调整插件部分html元素的css属性。description setter​plugins.jenkins.io原始记录系统管理->系统配置->Theme(没有这个选项的话,请安装一下插件Theme Manager )在这里,我们尝试把背景改成粉色;.cards_container.zws-inserted { display:none;}#buildHistor

2021-01-08 10:50:15 438 3

原创 Maxcompute SQL 取消10000行下载限制

在Maxcompute的DataStudio中直接点击下载是有10000行限制的;方法一:tunnel download 命令-- 下载没有行数限制tunnel download Project.table_name /Users/Lisa/Desktop/文件名.csv顺便补充一下tunnel其他常用命令-- 1. upload:上传-- 将log.txt中的数据上传至项目空间test_project的表test_table(二级分区表)中的p1="b1",p2="b2"分区。

2021-01-07 11:03:49 1353 2

原创 Maxcompute ODPS SQL 窗口函数

ODPS SQL 窗口函数1. count():用于计数-- 准备表create table if not exists tmp_data3( id bigint, num double);-- 插入数据insert into table tmp_data3(id,num)VALUES (1,1),(1,1),(1,1),(2,1),(2,1),(3,1);-- count()窗口函数查询select id, c...

2021-01-07 11:01:08 1475

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除