- 博客(94)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注
原创 datax急速入门教程(保姆级)
mysql数据导入hive表,使用sqoop,不需要事先在hive中创建表,而datax需要。这样的话,大大提升了工作量。在咱们的datax中没hiveReader,但是有hdfsreader,所以本质上就是hdfs导出到mysql。hdfswriter 中的columns 类型,一般跟hive 表中的字段 类型保持一致是不会报错的。读取mysql的数据,将数据展示在控制台上。此时的stream其实就是控制台。
2025-03-17 21:51:46
511
原创 大数据技术之Flink优化
Flink 针对不同的设置为 RocksDB 提供了一些预定义的选项集合,其中包含了后续提到的一些参数,如果调整预定义选项后还达不到预期,再去调整后面的 block、writebuffer 等参数。当前支持的预定义选项有 DEFAULT、SPINNING_DISK_OPTIMIZED、SPINNING_DISK_OPTIMIZED_HIGH_MEM 或 FLASH_SSD_OPTIMIZED。有条件上 SSD 的,可以指定为 FLASH_SSD_OPTIMIZED#设置为机械硬盘+内存模式。
2025-03-16 22:34:06
942
原创 第三章:大模型中的提示学习
特性传统微调情境学习(GPT-3)参数更新需要梯度更新,调整模型参数冻结参数,无需更新数据需求需要大量任务特定数据仅需少量示例即可完成任务任务适应性单一任务专用多任务通用,灵活性强训练成本高成本,复杂过程低成本,高效易用先列公式:把解题思路一步步写出来再算结果:根据推导过程得出最终答案 模型通过生成中间推理步骤(如:"10个苹果-3个=7个 → 7个+5个=12个"),模拟人类思考过程。思维链的三大核心作用(对比图中传统微调方法)作用维度传统微调(图像右侧)
2025-03-16 22:32:01
804
原创 大数据技术之Spark优化
由于 Spark SQL 所在 stage(阶段) 的并行度无法手动设置,如果数据量较大,并且此 stage(阶段) 中后续的 transformation 操作有着复杂的业务逻辑,而 Spark SQL 自动设置的 task(任务) 数量很少, 这就意味着每个 task(任务) 要处理为数不少的数据量,然后还要执行非常复杂的处理逻辑,这就可能表现为第一个有 Spark SQL 的 stage(阶段) 速度很慢,而后续的没有 Spark SQL 的 stage(阶段) 运行速度非常快。
2025-03-14 23:22:54
821
原创 第二章:GPT的发展史
用X平台数据打造社交AI:让AI更懂网络热梗和实时事件。为特斯拉和脑机接口铺路:未来可能结合自动驾驶、人机交互(比如让特斯拉车主和AI边开车边唠嗑)。抢占道德高地:嘴上喊着“追求真理”,实际是给自家AI生态圈粉。一句话:Grok现在还是个“网红宝宝”,但马斯克的资源加持下,说不定哪天就憋出个大招。TruthGPT 和 Grok 的关系?定位:TruthGPT是马斯克在AI安全与真实性探索中的实验性产品,强调“真实优先”,但功能尚处早期阶段。
2025-03-14 23:13:09
843
原创 第一章:大模型的起源与发展
想象你在读一本很厚的书,书里有一句话特别重要,但这句话藏在第100页的某个角落。如果让你回答关于这句话的问题,你可能会直接“翻到第100页”仔细看它,而不是从头到尾把整本书再读一遍——这就是“注意力机制”的核心:让AI学会“主动关注重点”。翻译句子:AI要把“我爱吃苹果”翻译成英文。当它翻译“苹果”(apple)时,会专门“注意”原句中的“苹果”这个词,而不是平均看待所有字。生成回复:如果你问AI:“夏天的巴黎有什么好玩的?”,它会自动“注意”关键词“夏天”“巴黎”“好玩”,再生成回答。
2025-03-11 23:56:25
785
原创 大模型是如何蒸馏像Qwen-7B,Llama-3 这种小模型的?
DeepSeek将自研大模型(如DeepSeek-R1)生成的80万条高质量解题数据(称为“蒸馏数据”)用于训练Qwen、Llama等小模型,目的是让小模型模仿大模型的推理能力。
2025-02-25 12:02:46
311
原创 DeepSeek中的蒸馏技术指的是啥?
蒸馏技术是一种“站在巨人肩膀上”的方法,让小模型通过模仿大模型的优秀示例,快速获得强大的推理能力。将大模型(比如论文中的DeepSeek-R1)的“知识”转移给小模型。大模型通过生成详细的解题示例(比如数学题的完整推理过程),小模型通过模仿这些示例学习,最终获得接近甚至超越大模型的能力。蒸馏技术就像“学霸教徒弟”——让强大的大模型(老师)把自己的解题思路和知识教给小模型(学生),让小模型变聪明,而不用从头学起。类似于学霸(大模型)把解题步骤写出来,学生(小模型)照着学霸的笔记练习,最终也能解出难题。
2025-02-24 16:32:35
240
原创 关于<<DeepSeek-R1:通过强化学习激励大语言模型的推理能力>>的解读
用大模型(如DeepSeek-R1)生成的解题示例,直接训练小模型(如7B参数的Qwen)。例如,7B的小模型在数学题上击败了GPT-4和Claude-3.5,32B的模型性能接近OpenAI的顶级模型。最终模型不仅推理能力更强,还能生成更清晰、符合人类阅读习惯的答案,性能媲美OpenAI的顶级模型。在数学竞赛(如AIME)、编程比赛(Codeforces)和知识问答(如MMLU)中,表现与OpenAI的最强模型相当,部分任务甚至更优。例如,32B的蒸馏模型在数学题上的正确率超过94%,远高于同类模型。
2025-02-24 16:27:30
881
原创 DeepSeek-R1:通过强化学习激励大语言模型的推理能力
近年来,大语言模型(LLMs)正在经历快速的迭代和进化,并正在逼近通用人工智能(AGI)。最近,后训练已成为完整训练流程中的一个重要组成部分。研究表明,它可以提高推理任务的准确 性,与社会价值观保持对齐,并适应用户偏好,同时相较于预训练所需的计算资源相对较少。在推理能 力方面,OpenAI 的 o1 系列模型通过增加思维链推理过程的长度,首次引入了推理时扩展的方法。这种 方法在数学、编程和科学推理等多种推理任务中,取得了显著的进步。然而,有效的测试时扩展仍然是 社区面临的一个未解问题。
2025-02-24 15:14:34
1193
原创 使用gpt4all本地部署deepseek过程
• 进⼊gpt4all官⽹: https://gpt4all.io• 选择适合的系统版本: Windows/macOS/Linux按常规软件安装步骤 完成安装 即可。
2025-02-07 15:10:51
850
1
原创 年过完了,你有没有发现....(转载)
这两种孕育在不同环境中,起着不同作用的话语体系隨着春节的到来,在年夜的饭桌上,在走亲访友的交谈中相遇,激烈碰撞,在以乡土文化为土壤,人情世故为主场的家乡,显然后者更胜一筹,仿佛在我们眼里呈现出一种,不知是真还是假的现象,即"高等教育正在批量生产新型"哑巴。记住每个长辈的偏好,适时递上合适的香烟,在牌桌上故意输掉恰到好处的金额。同时,大学生也时常潜意识里以过去大学生的稀缺性和含金量自翊或抬高身价,可是只有自己才清楚,有些技能学校是没教的,或者自己的主场根本就不在这里,而不得不沦为脱不下长衫的孔乙己。
2025-02-05 12:09:58
306
原创 Hive中没有超级管理员,如何进行权限控制
修改,hive-site.xml,将编写好的类路径配置到xml中,并且指定超级用户为hadoop。Hive中没有超级管理员,任何用户都可以进行Grant/Revoke操作。重启metastore,然后重新尝试,看普通用户是否可以创建一个表。创建一个项目,导入mavan jar包,然后开始编写hook类。接着,将其打包,放入hive 的lib 文件夹下。开发实现自己的权限控制类,确保某个用户为超级用户。比如任何用户都可以grant 权限给别的用户。测试发现,hadoop用户可以进行授权操作。
2025-01-16 14:05:35
631
原创 CDH、HDP和CDP傻傻分不清楚
实际上 CDH是 Cloudera 公司的代表产品,HDP是 Hortonworks 公司的代表产品。两家公司都是围绕着大数据平台做发行版,他们在2019年1月进行了正式合并,形成了新的 Cloudera 公司。CDP 是原先两个最好的企业级数据分析Q平台 CDH 和 HDP 融合在一起,同时增加一些新的功能,形成的一个新平台。CDH/HDP 这两个产品比他们的公司在市场上更加广为流传。CDH: ClouderaManager 中先创建一个集群,集群里面可以选择使用什么 CDH,付费版的需要上传许可证。
2025-01-16 09:59:16
516
原创 如何使用大模型构建知识库,面试偷偷搜索
你是否有这样的苦恼,想将自己辛辛苦苦总结的一些笔记在面试的时候使用上,但是太多了,没法查找,知道大模型可以帮你解决这个问题,但是又不会搭建,今天,它来了,闫哥帮你整理了一个,阿里云的百炼大模型,只需5分钟,轻松搞定!
2025-01-16 09:51:44
650
原创 hdfs和hive对于小文件的处理方案
通过合并、压缩、删除、设置过期时间等方法,我们可以有效地治理小文件问题,提高HDFS的存储效率和数据处理能力。压缩后的文件在HDFS上存储,不仅可以减少存储空间,还可以减少文件数量,提高处理效率。将多个小文件合并成一个大文件,减少文件数量。:对于一些小文件,可以考虑使用非HDFS的存储方式,如关系型数据库或NoSQL数据库,使数据存储更加灵活和高效。分区下,有很多小文件,例如一个分区有1000个文件,但每个文件大小是10k,数仓大量这种小文件。文件的处理为例,我们可以使用Hive的重写方式来合并小文件。
2025-01-03 11:57:59
1378
原创 Flink教程-keyby 窗口数据倾斜的优化(转发)
对于这种简单的数据倾斜,我们可以通过对分组的key加上随机数,再次打散,分别计算打散后不同的分组的pv数,然后在最外层再包一层,把打散的数据再次聚合,这样就解决了数据倾斜的问题。在这个sql的最内层,将分组的key,也就是plat加上一个随机数打散,然后求打散后的各个分组(也就是sql中的plat1)的pv值,然后最外层,将各个打散的pv求和。在这个sql里,我们统计一个网站各个端的每分钟的pv,从kafka消费过来的数据首先会按照端进行分组,然后执行。如果某一个端产生的数据特别大,比如我们的。
2025-01-01 20:33:54
384
原创 基于Doris实时数据开发的一些注意事项(转发)
所以我们有一个定性的结论,在亿级(或者数千万)数据规模以下,可以使用类似Doris这种的分析引擎,仿照离线数据一样进行分层和定时调度,处理大窗口数据(一般时间跨度超过30天),在保证性能的前提下,降低实时数据的开发成本,并且极大提高了数据的可观测性,开发。在更多的情况下,基于Flink的实时数据开发难度要显著高于离线任务(二者根本不在一个数量级),基于Doris的存储实时数据开发可以显著降低开发门槛,但是存在滥用的可能。上面几点是一些优势,但是基于Doris的这种方案也存在明显的短板,需要大家特别注意!
2024-12-29 19:15:35
533
原创 数据质量和数据治理的关系(转发)
很多时候,数据质量是数据治理的驱动因素之一,这是数据治理计划的最初重点,因此两者之间可能会混淆。但它们并不相同,它们是同一枚硬币的两面,而不是两枚硬币。
2024-12-26 23:34:50
591
原创 数仓行为域常见指标之归因分析
归因分析重在一个结果的产生可能是行为1也可能是行为2,那么行为1和行为2 对于达成这个结果的贡献度是多少呢?需要分析。而漏斗:事件1和事件2之间肯定是有关系的,而归因分析中事件1和事件2是没什么必然的联系的。按如所示:在做一些运营活动,广告投放后,都需要去评估活动或者广告的效应;我们的销量、拉新等业务目标,在广告投放或者运营活动组织后,有了明显的提升,但是这些提升是否是因为广告、运营活动导致的,需要有数据支撑!这些数据分析,就属于事件归因分析的范畴!
2024-12-11 15:31:14
1025
原创 数据库中decimal、float 和 double区别
总的来说,decimal 适用于需要高精度计算的场景,而 float 和 double 适用于一般的科学计算和工程计算。- decimal 是一种精确的十进制浮点数表示,通常用于需要高精度计算的场景,比如财务应用。- double 指的是双精度浮点数,它与 float 类似,但具有更高的精度和范围,一般是float的2倍。在计算机科学中,decimal、float 和 double 是用于表示和处理数值的不同数据类型。- float 通常指的是单精度浮点数,但在表示小数时可能会出现精度损失。
2024-12-10 21:04:44
333
原创 MySQL中timestamp 和 datetime区别
timestamp 类型的取值范围是 '1970-01-01 00:00:01' UTC 到 '2038-01-19 03:14:07' UTC。- datetime 类型的取值范围是 '1000-01-01 00:00:00' 到 '9999-12-31 23:59:59'。- timestamp 存储的值会受到时区的影响,它会将存储的值转换为 UTC 时间,并在检索时再转换回当前时区的时间。展示的格式是年月日时分秒。- datetime 存储的值不受时区影响,它会以原始值存储和检索。
2024-12-10 20:59:39
603
原创 指标体系这个概念的剖析
在日常生活中,想把一个事情说清楚是非常不容易的,比如你在金融公司工作,工作过程中可能会听到这样的话,本月申请贷款审批怎么这样严格,10000 人申请贷款吧,感觉好多都被拒绝了,咱们银行也太严格了吧。这样的话,闲聊还行,但是如果你向领导汇报工作,就不能这样说了,而应该如下表述:截至到 12 月 10 日,共有 10000 份申请贷款的请求,实际通过审批的有 2000 人,审核通过率 20%。
2024-12-10 18:07:59
967
原创 基于最新的Apache StreamPark搭建指南
官方文档Github地址Apache StreamPark™ 是一个流处理应用程序开发管理框架,旨在轻松构建和管理流处理应用程序,提供使用 Apache Flink® 和 Apache Spark™ 编写流处理应用的开发框架和一站式实时计算平台,核心能力包括不限于应用开发、部署、管理、运维、实时数仓等。为什么要使用 StreamPark 呢?它降低了学习成本和开发障碍,开发人员可以专注于业务逻辑。
2024-12-09 18:24:20
1494
原创 spark关联hive 报 Filesystem Close 错误
我的环境是pyspark,pyspark中操作hive,使用datagrip关联spark,在datagrip中进行查询没有问题,但只要insert into 就报:FileSystem Close错误,如何处理呢?然后使用datagrip等第三方工具进行连接,再执行以前的sql就不抱错了。假如我想将一个sql语句插入hive表中时,比如。
2024-12-09 14:25:31
467
原创 Flink学习连载文章13--FlinkSQL高级部分
说明创建窗口的时候,使用的字段不是时间字段,需要写成时间字段TIMESTAMP(3),使用了eventtime需要添加水印,否则报错。2、kafka 对接的 server,写全 bigdata01:9092,bigdata02:9092,bigdata03:9092。需求:按照滚动窗口和EventTime进行统计,每隔1分钟统计每个人的消费总额是多少。窗口分为滚动和滑动,时间分为事件时间和处理时间,两两组合,4个案例。需求:每隔1分钟统计这1分钟的每个用户的总消费金额和消费次数。
2024-12-07 22:14:19
907
原创 Flink学习连载文章12--FlinkSQL
因为DataStream中是Row 类型,所以打印的格式是Row 这个类中的toString方法决定的。这个地方的 +I 的意思是新增的数据。toAppendStream: 适用于生成新的计算结果,并不会对老的计算结果进行修改。从Kafka的topic1中消费数据并过滤出状态为success的数据再写入到Kafka的topic2。从Kafka的topic1中消费数据并过滤出状态为success的数据再写入到MySQL。以下内容是FlinkSQL的全新的方式,更加简单高效。Table风格/DSL风格。
2024-12-07 22:08:43
744
原创 Flink学习连载文章11--双流Join
一个流中有相同 Key 并且位于同一窗口的元素都会保存在同一个迭代器(Iterable),本示例中绿色流为 greenIterable,橘色流为 orangeIterable,如果要实现 RightJoin,实现原理跟 LeftJoin 一样,需要保证 greenIterable 中没有元素,orangeIterable 中的元素也能输出。需要注意的是,一个元素可能会落在不同的窗口中,因此会在不同窗口中发生关联,例如,绿色流中的0元素。其中a和b分别是上图中绿色流和橘色流中的元素,并且有相同的 key。
2024-12-06 17:21:07
1377
原创 在企业中如何保证数据安全(大数据方向)
1、数据安全,可以从几个层面去保障,首先是物理安全,比如可靠的机房,防火,防水,严格的安全管理和监控,防止别人共计机房和恶意访问终端节点,接着放着网络安全,防止非法人员进入,我们可以使用软件或者硬件来保障访问服务器的安全性,比如使用openVPN等vpn工具,或者工作机上插入一些U盾之类的设备才能访问服务器节点。第三点也是最重要的一点,做好数据的备份和恢复,防止数据丢失或者硬盘损坏带来的问题,对所有的数据进行访问权限的控制。
2024-12-06 17:11:29
426
原创 手把手教你搭建Redis集群
需要注意的是,Redis集群在实现上是一个相对复杂的系统,需要一些配置和管理的工作。例如,需要设置节点间的通信和复制机制,以及监控和管理集群的状态。因此,在使用Redis集群时,建议参考Redis官方文档或其他相关资源,以确保正确配置和操作集群。小伙伴们大家好,上一次给大家发了一个手把手教你使用哨兵模式搭建redis主从模式之后,收到了很多小伙伴的催更,让我出一个搭建Redis的教程,那么它来了!第九步:创建集群的意思。
2024-12-04 22:22:25
358
原创 Neo4J-图数据库入门
Neo4j是一种基于图形数据库模型的开源图形数据库管理系统。它专注于存储和处理图形数据结构,如节点、关系和属性,以提供高效的图形数据查询和分析功能。基于硬盘为什么要使用对数据的需求不在局限于对数据本身的获取,还需要获取数据与数据件的关系(就是连接数据)简单来说,图数据库主要用于存储更多的连接数据。
2024-12-04 22:20:47
1210
原创 阿里云中Flink提交作业流程
有些程序,是需要环境的,假如数据需要依赖我们虚拟机的环境,是没办法在flink上运行的,因为flink访问不到虚拟机的服务,可以写死一些数据,比如自定义数据源,或者写死一些数据,进行测试。访问阿里云首页面:https://www.aliyun.com/查看创建的工作空间,当工作空间状态为运行中时,点击控制台。可以选择SQL开发或者作业运维运行自己的Flink程序。作业运维在本地IDEA开发,将jar包上传。通过选择区域,看哪个区域有虚拟交换机。
2024-12-02 18:12:14
600
原创 如何使用哨兵模式搭建Redis主从模式?
主节点负责写入和读取数据,而从节点复制主节点的数据,并提供读取服务。如果主节点发生故障或不可用,从节点可以接管主节点的角色,继续提供服务,确保系统的可用性。总的来说,Redis主从模式提供了高性能、高可用性和数据冗余的优势,使得Redis成为处理大数据和高并发场景的理想选择。好了,以上就是在一台服务器上,搭建redis主从模式,并使用哨兵模式自动将从节点推选为主节点的过程,希望对大家有所帮助。我们的方案就是在服务器上安装主从,一个主,一个从,通过redis.conf 来区分谁是主,谁是从。
2024-12-02 08:41:31
615
原创 Python脚本实现datax全量同步mysql到hive
在我们构建离线数仓时或者迁移数据时,通常选用sqoop和datax等工具进行操作,sqoop和datax各有优点,datax优点也很明显,基于内存,所以速度上很快,那么在进行全量同步时编写json文件是一项很繁琐的事,是否可以编写脚本来把繁琐事来简单化,接下来我将分享这样一个mysql全量同步到hive自动生成json文件的python脚本。
2024-12-01 19:59:08
446
原创 ELK超详细操作文档
ELK平台是一套完整的日志集中处理解决方案,将 ElasticSearch、Logstash 和 Kiabana 三个开源工具配合使用, 完成更强大的用户对日志的查询、排序、统计需求。ElasticSearch:是基于Lucene(一个全文检索引擎的架构)开发的分布式存储检索引擎,用来存储各类日志。Elasticsearch 是用 Java 开发的,可通过 RESTful Web 接口,让用户可以通过浏览器与 Elasticsearch 通信。
2024-12-01 19:57:29
1682
原创 Maxwell的入门实战
Maxwell 是美国 Zendesk 开源,用Java 编写的 Mysql 实时抓取软件。实时读取 mysql 的二进制日志 Binlog,并生成 JSON 格式的信息,做为 生产者 发送 给 Kafka、Kinesis、RabbitMQ、Redis、Goodle Cloud Pub/Sub、文件 或 其他平台的应用程序。官网:常用的就是,将 MySQL 的数据 同步到 hdfs 上注意:也可以通过 sqoop 编写脚本的方式将 mysql的数据同步的hdfs上 (离线)
2024-12-01 19:55:01
1148
原创 一键生成数据库对应的所有DataX的json文件
Datax是一个非常优秀的数据导入导出工具,想必小伙伴们都使用过,但是今天老板说:小张,你把mysql中的所有表都导入到hive的ods层,这该怎么办?一张表对应一个json文件,这不得写一个月?我们可以通过python编写一个脚本来实现,说干就干。
2024-12-01 19:53:17
465
原创 Flink学习连载文章10--CheckPoint和维表Join
所谓的维表Join: 进入Flink的数据,需要关联另外一些存储设备的数据,才能计算出来结果,那么存储在外部设备上的表称之为维表,可能存储在mysql也可能存储在hbase 等。维表一般的特点是变化比较慢。重启策略的意义:流式数据是不可能停止的,假如有一条错误数据导致程序直接退出,后面的大量数据是会丢失的,对公司来讲,意义是重大的,损失是惨重的。运行,刷新查看checkpoint保存的数据,它会先生成一个新的文件夹,然后再删除老的文件夹,在某一时刻,会出现两个文件夹同时存在的情况。
2024-11-28 15:41:20
1371
原创 Flink学习连载文章9--状态(State)
注意: Flink默认已经支持了无状态和有状态计算!例如WordCount代码:已经做好了状态维护, 输入hello,输出(hello,1),再输入hello,输出(hello,2)以wordcout为例,说明上图的流程对Managed State继续细分,它又有两种类型:Keyed State和Operator State。Flink 为每个键值维护一个状态实例,并将具有相同键的所有数据,都分区到同一个算子任务中,这个任务会维护和处理这个key对应的状态。
2024-11-28 15:37:00
1302
深度解析注意力模型在神经网络中的发展与应用及其对解释性的促进
2025-03-11
大型语言模型问题求解中的思维树方法论
2025-03-11
自我一致性提升自然语言模型链式思维推理能力的研究与应用
2025-03-11
基于交互式可视化的Transformer模型注意机制探索工具-DODRIO及其应用
2025-03-11
自然语言处理领域的深度双向变压器预训练模型BERT及其应用
2025-03-11
基于自注意力机制的序列转换模型-Transformer的提出及其应用
2025-03-11
美国劳动力市场中大型语言模型的影响潜力:早期评估及其广泛应用前景
2025-03-11
深度解析GPT-4架构与基础设施:模型参数超1.8万亿的秘密
2025-03-11
java程序员上班那些事
2010-03-11
关于手机开发的一些想法
2011-01-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人