- 博客(95)
- 收藏
- 关注
原创 Flume精讲-看这一篇笔记足够了
Flume是Cloudera提供的一个高可用,高可靠的,分布式海量数据日志采集,聚合,传输系统。基于流式架构,动态实现,上传一条采集一条。企业开发,flume–>kafka集群–>hdfsflume动态采集—实时;若做离线业务,完全可以使用put命令需求分析:自定义拦截器的选择器类型不能使用传统的replicating而是multipllexing上述头信息配置state,若头信息匹配到CZ则使用c1,若头信息使用US则使用c2,c3,没有头信息,那么配置c4即可。
2025-02-02 08:29:02
726
原创 Hive详细讲解-各类函数速通
必要字段:聚合函数() over(order by rows|range between * and *) column_name;使用该类函数,你仅需要考虑partition by 和order by即可,不需要考虑窗口范围。拿到每一个订单间隔多少日期,上一个日期,下一个日期的下单时间。rank,dense_rank,row_number排名函数。相较于传统的窗口函数,多了个partition by。过于繁琐,直接列到下面,用的时候直接拿来用即可。定义分区字段,然后窗口函数作用到每一个分区上。
2025-01-27 00:33:12
1616
原创 Hive详细讲解-基础语法快速入门
stored as:指定文件格式,textfile(默认)、sequence file、orc file、parquet file.和底层的文件格式相关。老师精讲:分组聚合做的第一部将group by应用到用户指定的字段例如job,然后使用你指定的聚合函数对每一组进行统计等。关于json格式文件存储格式,hive已经想好了,使用hive定义的JSON serde即可。分区指的是hive一张表的数据按照你指定的分区字段将数据存储到不同的字段中。会对所有列进行检查(即使不会读取实际列值),以确保行的存在性。
2025-01-26 15:59:32
1563
原创 Hive详细讲解-概述与环境搭建
hive时 hadoop一个数据仓库工具,可以将结构化数据映射为一张表,并提供SQL查询功能。Hive本质重点:hive会将用户使用的sql语句转换为MR程序。由于最终运行程序还是在yarn上,因此hive也是yarn的客户端。DBS,保存hive源数据库的信息TBLS,保存hive创建表的所有信息–跟表存储的相关信息存到SDS表中COLUMNS_v2表示存储字段相关数据。
2025-01-26 15:46:44
1153
原创 半小时速通flume-flume正文学习
需求分析:自定义拦截器的选择器类型不能使用传统的replicating而是multipllexing上述头信息配置state,若头信息匹配到CZ则使用c1,若头信息使用US则使用c2,c3,没有头信息,那么配置c4即可具体来说就是在拦截器类内部构造一个静态类实现Builer接口,重写build方法,构造类即可。import org/**// 声明一个集合收集拦截器处理后的event private List < Event > addHeaderEvents;
2025-01-25 10:31:52
1295
原创 半小时速通flume-flume概述
Flume是Cloudera提供的一个高可用,高可靠的,分布式海量数据日志采集,聚合,传输系统。基于流式架构,动态实现,上传一条采集一条。企业开发,flume–>kafka集群–>hdfsflume动态采集—实时;若做离线业务,完全可以使用put命令。
2025-01-25 10:24:20
765
原创 Conda Config修改
使用这些命令,您可以轻松地根据需要调整 Conda 的配置选项。请根据您的使用需求谨慎修改这些设置。如果有其他特定配置选项需要了解,或者有特定的使用情景,请随时询问!
2024-09-20 09:11:19
845
原创 LangChain-Chatchat本地部署(非docker)-亲测有效全网最新
- Linux操作系统(Ubuntu22.04)- anaconda虚拟环境- 4090显卡1张即可- xinference模型接入框架,模型推理框架,编码器加载框架等- langchain-chatchat知识库构建框架- glm4-chat大模型- bge-large-zh-v1.5编码器
2024-09-20 07:50:47
2341
2
原创 大模型训练基础之混合精度计算
在训练 1.5B 参数量的 GPT-2 模型时,使用 FP16 精度大致需要 21GB 的显存。这是一个比较精确的估算,实际占用可能会因实现细节有所不同。: 用于缩放梯度,以防止在 FP16 运算中出现的梯度下溢(数值过小导致的精度损失)问题。它通过动态调整缩放因子,确保梯度在反向传播中有足够的数值范围。选择最合适的精度(如上图所示),从而优化性能。混合精度能够保证模型准确性的情况下使训练更快。在前向传播后,你会得到一个损失值,然后使用。对这个损失值进行缩放,并计算梯度。但是同样的半精度存在的问题。
2024-08-20 13:36:56
807
原创 19_axios入门到进阶
/assign接收两个对象参数,可以将后面一个的属性值,赋值给前面同名属性值 Object.assign(message,response.data)异步函数中,普通函数是不会等待的;语法上promise是一个对象,可以获取异步操作的消息,promise提供统一的API,各种异步操作都可以用同样的方法进行处理。Promise创造的异步函数如果直接return,默认是resolved状态,return结果就是成功状态的返回值。// 内部的大括号用于设置内部请求参数 url,请求方式,请求参数等。
2024-06-13 09:32:09
926
原创 18_Vue3路由机制
Vue3路由机制router1 路由简介:路由就是根据不同的 URL 地址展示不同的内容或页面。通俗理解:路由就像是一个地图,我们要去不同的地方,需要通过不同的路线进行导航。2 路由的作用单页应用程序(SPA)中,路由可以实现不同视图之间的无刷新切换,提升用户体验;路由还可以实现页面的认证和权限控制,保护用户的隐私和安全;路由还可以利用浏览器的前进与后退,帮助用户更好地回到之前访问过的页面。2 路由入门案例1 案例需求分析2 创建项目和导入路由依赖npm
2024-06-13 09:28:30
369
原创 17_Vue高级监听器&生命周期&Vue组件&组件通信
Vue.js中的watch、reactive和watchEffect为开发者提供了强大的工具来监听和管理响应式数据的变化。通过理解每个API的独特之处和适用场景,可以更有效地构建和管理Vue应用的状态,从而提升用户体验和开发效率。
2024-06-08 09:17:55
1002
原创 16_ Vue.js高级指南:条件渲染、列表渲染与数据双向绑定
Vue.js通过提供如v-if、v-for和v-model等强大的指令,使得状态管理、列表渲染和表单处理变得异常简单和高效。掌握这些工具不仅可以提高你的开发效率,还可以帮助你构建更加动态、响应迅速的Web应用。通过不断实践和探索,你会更加熟悉Vue的哲学和工作流,从而更自如地创建丰富的前端体验。
2024-06-08 09:14:09
758
原创 15_Vue3核心概念与实践
Vue3 是一个渐进式的 JavaScript 框架,用于构建用户界面。它基于标准 HTML、CSS 和 JavaScript 构建,并提供声明式渲染和响应性两大核心功能。Vite 是 Vue 项目的脚手架工具,具有快速开发和运行的特点。Vue 文件(.vue)是一种单文件组件,包含模板、脚本和样式标签。Vue3 支持全局、组件内和样式标签内的 CSS 导入方式。Vue3 使用 ref 和 reactive 函数处理响应式数据,并支持 setup 语法糖简化组件定义。Vue 提供插值表达式、文本渲染、属性渲
2024-06-07 07:38:49
659
原创 14_Node.js和NPM入门指南
Node.js定义与特点:Node.js 是一个允许在服务器端运行JavaScript 的开源、跨平台环境,使用事件驱动、非阻塞I/O模型,适合处理高并发请求。具有单线程设计、轻量级、模块化和跨平台的特性。安装与使用:通过官网下载安装包进行安装,之后通过命令行使用node命令执行JavaScript 文件。NPM定义与作用:NPM 是Node.js 的包管理工具,用于管理项目的依赖和库。配
2024-06-07 07:33:51
893
原创 13_前端工程化_ES6
前端工程化是使用软件工程的方法来单独解决前端的开发流程中的问题,其主要目的为了提高效率和降低成本。前后端分离(前端代码工程化独立出来形成一个单独的app)1.开发分离2.部署分离3.服务器分离本次技术栈。
2024-06-06 08:03:55
1065
原创 12_JavaWebAjax
注意:本次开发传参仅传入username,但是会设置一个密码,这个密码必须不为空,因为后续代码逻辑会送入MD5校验,为空报错;Ajax的原理,通过js技术向后端发送请求,通过响应来进行判断是否 进行页面跳转,是否生成数据展示到dom树中。writeJson是一个静态方法,因此这个工具包,调的不是类,是静态方法;前后端需要保持一致,就很麻烦,后端代码进行修改了,那么前端也需要跟着改;后端程序员撰写响应体的 class ,后续使用,直接new对象,将我们业务数据封装进去即可。 统一的格式是前后端商量好的。
2024-06-06 08:02:02
1071
原创 11_JavaWeb监听器
例如attributeAdded就监听this.getContext().setAttribute()这个方法的操作。监听接口中可以重写相关方法,一旦被监听的对象执行了某项操作,tomcat后台就会进行响应,监听到;web中定义八个监听器接口作为监听器的规范,这八个接口按照不同的标准可以形成不同的分类。实现方法是contextInitialized、contextDestroyed。一般来说监听的东西五花八门,用的时候查即可;监听Servlet1的构建以及销毁。应用域监听接口以及api。
2024-06-05 08:03:45
329
原创 10_JavaWeb过滤器
关于路径的配置过滤器可以url-pattern或者直接写url-name都可。下面写法是通过url-pattern配置 批Servlet匹配;3.过滤 doFilter (多次)生活举例: 公司前台,停车场安保,地铁验票闸机。1.构造 constorct 默认重写。java中过滤仅仅是对请求做出过滤。4.销毁 destory。过滤器开发中应用的场景。2.初始化 init。
2024-06-05 08:02:13
566
1
原创 09_JavaWeb会话
域对象: 一些用于存储数据和传递数据的对象,传递数据不同的范围,我们称之为不同的域,不同的域对象代表不同的域,共享数据的范围也不同请求域会话域应用域整个服务器的应用域有且仅有一个。
2024-06-04 13:14:37
2903
原创 08_MVC架构模式
Model 模型层,具体功能如下:View 视图层,具体功能如下:Controller 控制层,具体功能如下案例:张三网络购物买10本 《^JAVA。
2024-06-04 13:11:44
640
原创 Servlet跳转404(解决)
3.关于配置信息Application context是你 WEB工程模块的名称,如果对此模块进行修改了,那么你 的Server也要做一些务必的修改。2.页面跳转,url栏输入的是web.xml中的url-pattern内容,请仔细检查。查看Project Structure,检查你的JDK版本不要选错版本;上面的URL地址要 写WEB模块修改后的 APP名;1.解决无法跳转的404问题(最根本,最重要)
2024-05-28 21:31:06
859
1
原创 07_Servlet
Servlet (server applet) 是运行在服务端(tomcat)的Java小程序,是sun公司提供一套定义动态资源规范;从代码层面上来讲Servlet就是一个接口用来接收、处理客户端请求、响应给浏览器的动态资源。在整个Web应用中,Servlet主要负责接收处理请求、协同调度功能以及响应数据。我们可以把Servlet称为Web应用中的控制器不是所有的JAVA类都能用于处理客户端请求,能处理客户端请求并做出响应的一套技术标准就是Servlet。
2024-05-27 21:47:51
1399
原创 06_Tomcat
创建resources放置配置相关文件,使其于src文件分开,便于管理,并且对其进行标记,这样可以最终可以一起去编译。先准备一个空项目 workspace for IDEA作为所有app的父项目,未来所有的app全部作为模块放到当前文件夹下。idea并没有将构建的app直接部署到tomcat中,而是创造副本,将app部署到副本中。此处的demo01-web01-war-exploded就是可以发布的app。此时,Java代码往src写,css,js,html代码往web放即可。专门应用于WEB应用软件;
2024-05-27 21:30:31
1168
原创 05_XML Dom4j
1.创建SAXReader对象2. 解析XML获取Document对象: 需要传入要解析的XML文件的字节输入流3. 获取文档的根标签4. 获取标签的子标签//获取所有子标签//获取指定标签名的子标签List sonElementList = rootElement.elements("标签名");5. 获取标签体内的文本6. 获取标签的某个属性的值。
2024-05-27 21:21:40
484
原创 04_前端三大件JS
1.js如何声明函数?function 函数名(){}2.js函数如何和点击按钮绑定到一起?按钮有一个属性叫做 onclick 单机行为ondbclick 双击行为3.如何弹窗提示?可以在js函数中定义alert()函数,也就是经典的弹窗提示js创建对象第一种方式2.{属性名:属性值,...,...,函数名:function(){}}--><script>// 1.创建一个对象// 2.给对象创建属性person.gae// 3.给对象添加方法。
2024-05-27 08:58:09
868
原创 03_前端三大件CSS
且div1被fixed到页面上,随着滚动条拖拽,div1的位始终不变。第一个div进行浮动设置后,轻轻松松往右进行漂浮。关于盒子的容量:加上边界 像素计算为102*102。绝对定位会随着浏览器边缘进行变化,我将浏览器缩小。盒子模型介绍的是如何调节div块之间的距离缝隙等。若选择器功能进行覆盖,那么后发生的为真实发生的。需求:我想让我的div块出现在指定的位置上。需求:我想让三个div盒子出现在同一行。fixed相对定位,其原始位置会被侵占。直接指定某个标签的样式,和上述一样。距离边缘位置距离不变。
2024-05-25 21:38:33
630
原创 02_前端三大件HTML
表单项目标签一定要定义name属性,该属性用于明确提交时的参数名表单项还需要定义value属性,该属性用于明确提交时的实参的;span 行内元素 自己不会独占一行的元素 行内元素的宽高等等,很多都是不生效的。div 块元素 自己独占一行的元素 块元素的宽高等等往往都是生效的。使用rowspan(span有占用的意思,占用行,也就是向下扩充)思路:让body的 某一行的结尾单元格向下扩充,占用其他单元格。表格的设计样式有点多,为了简化,有方便的写法。页面堆砌多个框的设计方式为页面布局的设计。
2024-05-25 21:34:14
1343
原创 本地部署Whisper实现语言转文字
非常适合转录英语。要转录包含非英语语音的音频文件,您可以使用以下选项指定语言。修改本地代码,将sample修改为,需要转录的录音,接入代理;借用huggingface的速度,速度取决于网速。进入huggingface网址,往下拉。以管理员身份运行PowerShell。环境windows10 64位。安装成功打入choco。
2024-05-25 08:45:44
1989
3
原创 Muse论文精读
我们介绍了Muse,一个文本到图像的Transformer模型,它实现了最先进的图像生成性能,同时比扩散或自回归模型更有效。Muse是在离散标记空间中的掩码建模任务上进行训练的:给定从预训练的大型语言模型(LLM)中提取的文本嵌入,Muse被训练来预测随机掩码图像标记。与Imagen和dall - e2等像素空间扩散模型相比,Muse由于使用离散令牌和需要更少的采样迭代而显着提高了效率;与自回归模型(如Parti)相比,Muse由于使用并行解码而效率更高。
2024-05-15 08:10:26
1068
原创 深度学习UNet网络
之后进行1024 到1024的中间层 实现起来也是进行两次卷积padding==1。UNet是一种分类网络架构,输入一张图片,网络进行分类是目标物体还是背景像素?上采样的过程上采样的过程需要进行转置卷积操作+xconv+copy操作。之后进行两个卷积操作,3*3的卷积核,只不过通道数发生改变其他不变。其次就是在进行复原的时候,我们要将高像素的特征进行赋值过来。每一次上采样,都是一个普通的转置卷积层和两个卷积层构成。此图上采样都是运用两次卷积操作,然后通道降维。接下来是上采样的过程,其本质也是一种反卷积。
2024-05-12 22:27:57
776
1
原创 pytorch单机多卡训练_数据并行DataParallel
单卡多级的模型训练,即并行训练,可分为数据并行和模型并行两种.数据并行是指,多张 GPUs 使用相同的模型副本,但采用不同 batch 的数据进行训练.模型并行是指,多张 GPUs 使用同一 batch 的数据,分别训练模型的不同部分.
2024-05-12 21:06:44
2080
原创 scala速通(精简版)
1.声明变量时,类型可以省略2.类型定义后就不能修改言3.变量声明必须有初始值4.变量,常量分别用var,val声明修饰。
2024-05-08 21:17:01
1058
3
原创 27_Scala功能函数
num => {0} else {1API使用groupby,传参传入的是一个函数对象类型传入指定标记,标记没有指定写法。
2024-05-08 21:15:01
577
原创 26_Scala集合常用API汇总
类比tail同理,init也可以迭代操作list_las.inits.inits //逐步的往前获取元素作者认为元素是一个一个添加的,所以真个集合来说,当最后一个元素进行添加操作,前面所有的元素相对于最终的集合为初始(init)集合;//此处这样理解学习语言时候,跟着作者思路思考是一种非常有效的学习方法;scala作者设计的方法有些是根据单词意思设计,有些是根据逻辑设计。
2024-05-07 14:08:59
2296
1
原创 25_Scala集合Tuple
Tuple3[Int,String,Boolean] 元组类型,3表示元素个数,后面[]装泛型–关于数据类型 Tuple3[Int,String,Boolean]等价于(Int,String,Boolean)–最大Tuple22 元素个数最多22个 函数式编程参数个数最多也是22个–Tuple集合限制是数据的个数,不限制数据的类型;//1.元组定义。
2024-05-07 14:05:44
581
1
原创 24_Scala集合Map
创建kv键值对 && kv键值对的表达。–创建immutable map。–创建mutable map。–默认immutable。–概念和Java一致。
2024-05-07 14:03:54
385
原创 23_Scala集合Set
Set是特质,不能直接构建,默认是不可变集合。–没有insert,append操作。–无序,数据不可重复集合。–需要根据包名进行区分。
2024-05-07 14:03:03
469
Maven学习思维导图
2024-04-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人