- 博客(18)
- 收藏
- 关注
原创 Flume数据采集(行为日志数据)
用日志文件使用一个脚本来生成存放在集群某一个节点,由于Flume是一个单点操作,故需要在该节点配置日志采集Flume。且采集到的日志进行JSON格式校验,然后将通过校验的JSON日志发送到kafka。Flume怎么校验?Source的类型选择?选择TailDirSource的原因,可以实现断点续传,**多目录多文件实时**监控?Channel的类型选择?选择kafkaChannel,省去了Sink,,提高了效率。kafka可以均衡速率,kafkachannel直接到kafka,不用sink。
2024-03-14 16:18:49
1141
原创 数据库技术七(事务)
此时,处于显示事务状态,插入语句作为一个完整事务,但此时XACT_ABORT OFF处于关闭状态,所以此时事务在执行遇到错误时并不回滚,仍要执行错误后的语句。代码中每条插入和删除语句都是一个事务,此时XACT_ABORT ON处于打开状态,在遇到错误时回滚,放弃执行错误和错误之后的部分,所以第一条语句成功插入,但是第二条语句由于外键冲突错误,第三条语句无法执行。:此时,处于显示事务状态,插入语句作为一个完整事务,但此时XACT_ABORT ON处于打开状态,所以此时事务在执行遇到错误时将。
2024-03-01 14:17:49
598
1
原创 数据库技术六(触发器)
注意一下inserted表和deleted表的使用,容易出错。触发器是一种特殊的存储过程,触发器是通过事件来触发执行的,可用于强化约束,用来维护数据的完整性和一致性。待完善问题:after\\before等详细细节。
2024-02-29 14:42:05
363
原创 数据库技术五(游标)
允许程序对由SELECT查询语句返回的行集中的每一次执行相同或相同的操作,而不是对整个集合执行同一个操作。提供对基于游标位置中的行进行删除和更新的能力。游标作为数据库管理系统和应用程序设计之间的桥梁,将两种处理方式连接起来。
2024-02-28 18:39:04
214
原创 数据库技术四(函数)
理解函数对于数据库的意义,将我们平常需要反复用到的代码封装起来,以便下一次调用,同时提供了参数化的用户视图,且函数相较于视图和存储过程而言,函数是无法对数据库内的数据进行增删改。
2024-02-27 14:39:49
448
原创 数据库技术三(存储过程)
最需要主要的地方一个是参数的问题,比如执行存储过程时,一定没有括号,但创建存储过程的时候可以有括号,以及OUTPUT参数在执行时需要注意。另外关于赋值,存在的特殊情况,用exec执行存储过程,并将存储过程的返回值赋值给变量,而并不是用SET。存储过程只需经过一次编译,下一次是使用时,无需再次编译。
2024-02-26 21:06:24
389
原创 数据库技术1(T-SQL编程)
(1)在教学管理数据库中,我们将学生的课程考试成绩水平分为3类,即低于60为不及格,61到79为及格,大于等于80为优秀,成绩为NULL的不统计。2)用LTRIM函数去掉字符串“ machine ”左边的空格,再与“china”及“press“连接起来;3)用RTRIM函数去掉字符串“ machine ”右边的空格,再与“china”及“press“连接起来;(2)定义一个长度为20的可变长度型字符变量,为其赋值“Welcome to ABCD”, 并显示变量的值。
2024-01-22 17:02:59
408
原创 NLP词向量
ELMO是为了解决一词多义,对于不同的上下文可以给出不同的词向量。分布式表示就是直接用一个低维的、稠密的、连续的向量表示一个词。Word2Vec的缺点也很明显,由于词和向量是一对一的关系,所以多义词的问题无法解决。它是一个正交向量,这个方法的问题就是数据稀疏、离散、正交等问题。因为上面的模型训练出来的词向量/词的表示,在做其他任务时作为一个额外的输入,是。词袋模型是每个词对应一个位置,按照数量不断加一,好处是更容易获取和计算,但忽略了词序信息。用当前词来预测上下文。,更好的把我当前的任务/模型进行精调。
2023-05-10 09:23:26
392
原创 数据挖掘算法基础(二)
概率图模型(probabilistic graphical model)是一类用图来表达变量相关关系的概率模型概率图模型提供了一种描述框架(1)结点:随机变量(集合)(2)边:变量之间的依赖关系分类:(1)有向图:使用有向无环图表示变量之间的依赖关系(2)无向图:使用无向图表示变量间的相关关系常见的概率图模型包括:隐马尔可夫模型(HMM),条件随机场(CRF)和LDA模型。
2023-05-09 19:19:00
393
原创 Attention Is All You Need论文总结(Transformer)
主流的序列转换模型都是基于复杂的循环神经网络或卷积神经网络,且都包含一个encoder和一个decoder。表现最好的模型还通过Attention机制把Encoder和Decoder联接起来。我们提出了一个新的、简单的网络架构,Transformer. 它只基于单独的attention机制,完全避免使用循环和卷积。深度学习最大优点:端到端。因此,从原始特征经特征抽取器,得到有用特征的过程十分重要。NLP常见特征抽取器:RNN、CNN、Transformer(Encoder部分)
2023-04-21 16:58:10
319
原创 MATLAB学习笔记--插值和拟合
目录(一)插值与拟合(二)一维插值及MATLAB实现(三)二维插值及MATLAB实现(四)拟合及MATLAB实现新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML...
2020-03-16 20:21:44
3084
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人