- 博客(21)
- 资源 (1)
- 收藏
- 关注

原创 Transformer最细详解:从“你好吗“到“我很好“的全流程拆解
首先祭出这张经典的Transformer模型架构图(以下简称架构图),让我们一步步去理解。简单点来看,可以划分成四个部分组成,以及他们之间的连接组成。
2025-03-19 10:48:36
624

原创 泰勒公式(泰勒展开式)通俗+本质详解
比较通俗地讲解一下泰勒公式是什么。泰勒公式,也称泰勒展开式。是用一个函数在某点的信息,描述其附近取值的公式。如果函数足够平滑,在已知函数在某一点的各阶导数值的情况下,泰勒公式可以利用这些导数值来做系数,构建一个多项式近似函数,求得在这一点的邻域中的值所以泰勒公式是做什么用的?简单来讲就是用一个多项式函数去逼近一个给定的函数(即尽量使多项式函数图像拟合给定的函数图像),注意,逼近的...
2019-03-03 12:54:53
492674
46
原创 doris创建oracle catalog导致用户被锁
创建oracle catalog,oracle用户的密码写错了,返回报错信息,catalog创建前台显示应该是失败了。后来发现后台一直有连接在用错误的密码访问oracle,oracle设置了连续错误访问10次锁用户,最终导致用户被锁。原因还没查明,不确定是否是doris的bug。如果有原因说明或者解决方法,可以在评论中回复。doris版本2.0.5.
2024-08-18 15:23:18
217
2
原创 Doris全方位教程+应用实例
hll 列类型,不需要指定长度和默认值、 长度根据数据的聚合 程度系统内控制,并且 HLL 列只能通过配套的 hll_union_agg 、 Hll_cardinality、hll_hash 进行查询或使用。缺点:这两种对hbase支持的都不好,presto 不支持,但是对hdfs、hive兼容性很好,其实这也是顺理成章的,所以数据源的处理很重要,针对hbase的二级索引查询可以用phoenix,效果也不错。在 Doris 中,我们将用户通过建表语句创建出来的表称为 Base 表(Base Table)。
2024-07-24 10:41:45
1908
原创 spark报错:java.nio.channels.ClosedChannelException & Couldn't connect to leader 处理
上周修改了一个程序,上线后每过一段时间就会报错,并且直接卡住,不会自动结束。报错信息如下:19-10-27 19:01:07 ERROR org.apache.spark.executor.Executor:91 - Exception in task 6.0 in stage 7.0 (TID 80)java.nio.channels.ClosedChannelException.....
2019-10-29 16:25:18
1445
原创 记一次Spark读取多个kudu表的优化经历
程序原逻辑是从一张kudu表读数据进行后续统计,需求是修改为从另外两张不同的kudu表读数据,合并两张表的数据进行后续统计。于是修改的逻辑简化后是如下两个步骤:1、从两张kudu表读数据,并且分别注册成临时表import org.apache.kudu.spark.kudu._val kudu_table1 = spark.read.options( ...
2019-10-24 18:01:12
1847
原创 目标检测:从 RCNN 到 Faster-RCNN
深度学习图像处理主要分为图像分类、目标检测和语义分割,以下介绍一下广泛用于目标检测系统的RCNN系列神经网络算法。RCNNRCNN的检测流程:(Region proposal+CNN)生成候选区域——CNN提取特征——SVM进行分类1)生成候选框:使用Selective Search(选择性搜索算法,有效地去除冗余候选区域,使得计算量大大的减小)提取大约2000个候选区...
2019-10-16 19:33:10
649
原创 CNN - 卷积神经网络卷积计算详解
卷积计算层:CONV Layer人的大脑在识别图片的过程中,会由不同的皮质层处理不同方面的数据,比如:颜色、形状、光暗等,然后将不同皮质层的处理结果进行合并映射操作,得出最终的结果值,第一部分实质上是一个局部的观察结果,第二部分才是一个整体的结果合并。基于人脑的图片识别过程,我们可以认为图像的空间联系也是局部的像素联系比较紧密,而较远的像素相关性比较弱,所以每个神经元没有必要对全...
2019-07-30 15:24:21
2949
原创 CNN - 卷积神经网络输入层
数据输入层:Input Layer1、数据预处理进行预处理的主要原因是:输入数据单位不一样,可能会导致神经网络收敛速度慢,训练时间长 数据范围大的输入在模式分类中的作用可能偏大,而数据范围小的作用就有可能偏小 由于神经网络中存在的激活函数是有值域限制的,因此需要将网络训练的目标数据映射到激活函数的值域 S形激活函数在(0,1)区间以外区域很平缓,区分度太小。例如S形函数f(...
2019-07-30 15:16:06
18740
原创 CNN - 卷积神经网络总体介绍
卷积神经网络本文只是做一个总结性概述,具体各部分请点击相应链接卷积神经网络的层次1、数据输入层:Input Layer 输入层具体内容详见博主博客链接:https://blog.youkuaiyun.com/qq_38646027/article/details/977861022、卷积计算层:CONV Layer —— 卷积核计算 卷积核计算具体内容详见博主博...
2019-07-30 15:14:03
361
原创 机器学习算法05之 —— XGBoost
训练:根据OBJ(Gain,根据每个叶子结点损失函数的一阶二阶导数计算)损失函数,使用贪心算法,从很多种结构的树中选出最优的树作为当前迭代层的树,一层一层选出每一层的最优树,相加。主要工作有两个:1.确定每层树的最优结构 2.确定每层树的最优叶子节点的分值。预测:将样本 i 放到树 j 中,找到样本 i 在树 j 中被分到的叶子节点的预测值score(根据每个叶子结点损失函数的一...
2019-04-14 13:19:48
706
1
原创 机器学习笔记04_集成学习:随机森林、GBDT
集成学习:常见的集成学习思想有:• Bagging (并联) 代表:随机森林• Boosting(串联) 代表:Adaboost —— 根据正确率修改样本权重 GBDT—— 根据残差(梯度)修改样本标签值• StackingBagging 并联训练:-------------------------------------...
2019-03-22 19:24:00
463
原创 机器学习笔记02_softmax回归
Softmax回归softmax 回归是 logistic 回归的一般化,适用于K分类的问题,即多分类问题。针对于每个类别都有一个参数向量 θ (即每个类别都一套对应该类别的),第k类的参数为向量,组成的二维矩阵为*n;softmax 只适用于样本单分类。例如,输入一张图片,softmax 可以判断这张图片中属于哪一种类别的动物,不能判断这张图片中属于哪几种类别的动物。soft...
2019-03-18 17:46:32
968
原创 机器学习笔记03_决策树
预测过程:当构建好一个判断模型后,新来一个用户(样本)后,可以根据构建好的模型直接进行判断,过程如上图,比如新用户特性为:无房产、单身、年收入55K,那么根据判断得出该用户无法进行债务偿还。这种决策对于借贷业务有比较好的指导意义。训练过程:先搞清楚几个概念。1. 数学期望:离散型随机变量的一切可能的取值xi与对应的概率P(xi)之积的和称为该离散型随机变量...
2019-03-17 11:03:43
431
原创 Spark系列(一) —— SparkCore详解
1. =》Spark 引入首先看一下MapReudce 计算和 Spark 计算的区别:MapReudce : 分布式计算框架缺点:执行速度慢,shuffle 机制:数据需要输出到磁盘,而且每次 shuffle 都需要进行排序操作框架的机制:只有 map 和 reduce 两个算子,对于比较复杂的任务,需要构建多个job来执行,当存在 job 依赖的时候,job 之间的数据...
2019-03-15 11:23:32
6100
原创 机器学习笔记01_ 线性回归&逻辑回归
什么是回归算法•回归算法是一种有监督算法,即需要给样本的特征打上标签。•回归算法是一种比较常用的机器学习算法,用来建立“解释”变量(自变量X)和观测值(因变量Y)之间的关系;从机器学习的角度来讲,用于构建一个算法模型(函数)来做属性/特征(X)与标签(Y)之间的映射关系,在算法的学习过程中,试图寻找一个函数 使得参数之间的关系拟合性最好。•回归算法中算法(函数)的最终结果是一个连...
2019-03-14 16:14:08
684
原创 shell脚本日期遍历(按天&按小时)
使用shell脚本遍历日期1. 按天倒序遍历日期 ( 正序修改一下日期增减函数即可 )#!/bin/bash#倒序按天遍历日期#传入遍历的开始时间和结束时间startdate="$1"enddate="$2"echo 'startdate: '$startdateecho 'enddate: '$enddateecho "-----------------------...
2019-02-27 18:15:36
9009
2
原创 Hive任务运行常见报错及解决方式汇总
有的时候hive任务运行到一半,会报错并强制结束,下面对工作中经常遇到的报错及解决措施进行一个汇总,因为都是平时遇到了临时简单记录一下,所以没有当时的报错截图,但是主要报错内容是有的。以下报错内容均为从yarn任务监控页面(http://主机名:8088/cluster)中查到的运行日志中打印的具体报错,直接查看命令行或者其他运行日志,可能只能看到return code 1 或者ret...
2019-02-22 16:35:49
8635
2
原创 Hadoop伪分布式环境搭建
对于初学者而言,自己搭建一个大数据集群环境是一个必要步骤,也算是开始学习的第一步。即使对于已经工作的小伙伴们,有时不方便使用公司的测试/正式集群环境时,这时候自己搭建的集群也能派上用场 (重点是可以随便玩,玩坏了铲掉重新搭建即可)。现在分享一个自己搭建Hadoop伪分布式环境的步骤(伪分布式表示使用一台机器模拟n台机器组成的集群,简单方便代价小),按以下步骤我已经装了N遍,所以基本上不会...
2019-02-22 15:40:21
571
5
zookeeper-cdh5.3.6
2019-02-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人