
数据库
文章平均质量分 75
hzp666
这个作者很懒,什么都没留下…
展开
-
大语言模型(LLM)中大数据的压缩存储及其重要性
在大型语言模型中,如何通过压缩KV Cache来提高计算效率和减少显存消耗。不同的压缩方法针对不同的场景和需求,而ZigZagKV方法在保持模型性能的同时,有效地解决了显存分配的问题。原创 2024-12-25 09:14:16 · 1338 阅读 · 0 评论 -
AI时代下大数据的演进趋势
在AI/ML(机器学习)开发生命周期中,输入数据的准确性对模型性能有重大影响。同时,大规模数据集的存储位置和读写特性也是需要考虑的关键因素。原创 2024-12-25 08:56:33 · 1055 阅读 · 0 评论 -
大数据存储ZNS,缘起与进化:Open-Channel SSD到ZNS的发展
从Open-Channel SSD到ZNS,体现了存储技术从主机控制到标准化、商业化的演进,为提高SSD性能和效率开辟了新路径。原创 2024-12-24 17:57:55 · 597 阅读 · 0 评论 -
大数据存储:Memory相关论文1
本文将能量膨胀分为两种来源,即。转载 2024-11-12 13:20:34 · 253 阅读 · 0 评论 -
大数据存储:Memory相关论文2
随着深度学习模型参数规模的不断增大,训练模型所需要的GPU数量也越来越多,导致GPU集群中出现故障的频率显著增高。根据微软的一个大规模训练集群的数据,平均每45分钟就会出现一次机器故障。Meta在训练OPT 175B模型时也因机器故障浪费了17.8万GPU小时。在。转载 2024-11-12 13:19:24 · 159 阅读 · 0 评论 -
大数据存储:Memory相关论文3
由于不同层级内存访存性能的差异,现有的分层内存管理系统使用了多种内存迁移技术尝试优化系统的吞吐和时延,但是它们都假定访问默认内存层级(硬件标明的内存访问时延最低的层级)的时延总是优于额外内存层级,因此总是把最热的页面放进默认层级。”的原则迁移页面,将页面转移到访问时延更低的层级中,最终平衡时默认和额外层级的时延基本相同,从而动态地调节系统访问default tier内存的概率,使得全系统平均时延和带宽到达接近最优值。不同类型的访问会导致不同的延迟,因此我们基于访问延迟来进行优化,以实现更有效的内存管理。转载 2024-11-12 13:18:00 · 87 阅读 · 0 评论 -
大数据存储:Intel--CXL加速存储堆栈服务工作流
1.高性能存储构建的挑战与需求:高性能存储系统需要满足可扩展性、去中心化和高安全性的需求,但现有加速器卸载技术在面对不断增长的性能要求时已显得不足,尤其在存储和计算资源整合上面临挑战。2.DPU与CXL的创新应用:利用DPU作为基础设施的核心处理单元可以增强存储节点的计算能力,同时,通过引入CXL互连标准实现CPU和DPU间的高效数据交换,解决PCIe带来的协同处理限制,从而提高系统整体性能。3.软件栈优化与云服务架构:通过SPDK软件栈优化存储操作,减少数据移动,提高I/O性能。转载 2024-11-06 10:17:56 · 143 阅读 · 0 评论 -
视图,物化视图,普通表区别简介
总结来说,普通视图主要用于简化SQL编写和提供数据安全性,而物化视图则用于优化查询性能,特别是在数据分析和报告等场景中。两者在数据库中的作用和用途有显著不同。原创 2024-11-04 11:17:21 · 580 阅读 · 0 评论 -
Paralfetch:利用预取提升应用程序启动速度
然后,它通过使用带I/O日志代码的检测文件系统函数来记录在这些缓存中找不到的块的I/O请求,这些请求用于在启动期间预取那些额外的块。对于元数据块和数据块的预取往往存在依赖关系,如在Ext4中对数据块的请求只能在关联的元数据块被读取之后发出,这种依赖性往往会限制可以排队的命令的数量。随后,根据CQ支持的可用性,只增加其中一种方法的阈值。这是最新的基于Linux的SSD预取器,通过清除slab、缓冲区和Page Cache,在学习阶段监控块的LBA,创建预取程序,并在后续启动时与应用同时执行,无需I/O优化。原创 2024-07-24 18:15:29 · 771 阅读 · 0 评论 -
请求分割or闪存读冲突?文件碎片对读性能的影响
如图1所示,对于文件系统来说,文件是逻辑上连续的文件块数组,但实际存储这些文件块的文件系统数据块可能不是连续的。Park.和Eom.等认为,由于ssd上的碎片导致性能下降的主要原因是请求分裂,然而作者认为以前的研究的实验设置未能区分由碎片直接引起的性能下降和由碎片对SSD内部数据放置的影响间接引起的性能下降。对于追加写操作:主机除了提供写命令外,还向NVMe提供正在写入的文件块前面的文件块的逻辑块地址(LBA),查询前一块所在的Die,将要写入的块分配到下一个Die,以保证文件的读取依然可以保持并行性。转载 2024-04-29 10:24:01 · 127 阅读 · 0 评论 -
如何提高SSD内部的并行性:增加带宽?提供多种路径?设计新架构?
源闪存控制器发送探测包,以识别和保留到目标芯片的路径,期间使用路由算法(非最小全自适应路由算法)将探测包从源闪存控制器路发送到目标闪存芯片,并保留探测包到达目标节点的互连网络链路,当探测包到达目标闪存芯片时,Venice已经保留了无冲突的前向和后向路径,接着使用反向路径将探测包发送回源闪存控制器。如下图,闪存命令控制器保持不变,主要的区别在于引入了分组,在信号到达闪存之前,在接口引入适当的数据包头,这种方法在不利用传统控制信号的情况下,将通信信号(或带宽)的数量有效地增加了约2倍。转载 2024-02-04 13:26:54 · 555 阅读 · 0 评论 -
linux 安装es 7.17.0版本和kibana
1.下载ES新建个es目录,mkdir /opt/es然后记得赋权,因为要用elastic 用户启动eschown -R elastic /opt/esps:新增用户命令:#增加用户adduser 用户名#为用户设置密码passwd 用户名下载:WGET https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.17.0-linux-x86_64.tar.gz2....原创 2022-03-17 15:34:28 · 2596 阅读 · 0 评论 -
解读 SOSP‘23 硬核论文 Mira:程序行为感知的远端内存访问优化
Mira的编译器为非交换缓存区(non-swap cache section)中的对象生成显式远程操作,使得更多的本地内存能作为频繁访问的远程对象的cache,以提高应用程序的性能。与AIFM的基于库的远程操作实现相比,Mira的实现具有更少的运行时开销和需要更少的元数据。一次profiling完成后,Mira收集所有函数的cache开销和执行时间,对所有函数的cache性能开销进行比较,选出开销最高的前10%函数,以及函数中涉及的前10%的大内存对象(heap objects)进行进一步的静态代码分析。转载 2024-01-23 09:00:28 · 400 阅读 · 0 评论 -
采用哈希映射让大页不再需要连续物理内存!
在本文的实现中,VA可以被映射到1个有56个slot的bucket和6个有8个slot的bucket,h=104,只需要7位来表示每个子页的物理地址。每个4KB子页都是独立分配的,但是会保证他们的物理地址会被限制在一定的范围内,以降低物理地址编码的长度。另一方面,TLB的能耗已经非常高(3-13%),如果为其设置更多的关联组或者更深的层次结构,势必会增加它的能耗。在现有的TLB架构中,可以实现a=logp/logh = 4,即在不带来任何负面影响,不需求连续物理内存的前提下,实现4倍的TLB覆盖率提升。转载 2024-01-08 08:54:46 · 214 阅读 · 0 评论 -
SeaTunnel 超大数据量数据集成平台简介
主流的大数据处理引擎 SeaTunnel 都支持:包括多个版本的 Flink,Spark,以及 SeaTunnel 自己的引擎 SeaTunnel Engine。SeaTunnel 的执行流程如上图所示,最上面是 SeaTunnel 内部 SQL 和API 的定义,基于这些定义生成连接器,然后将连接器和 Job 提交到对应的引擎上进行处理,最终数据通过Sink写入目标端。我们希望支持数据源的数量更多,数据同步的性能更快,在易用性方面更好用,从这三方面不断迭代优化,以满足更多的用户需求。转载 2023-12-25 14:41:39 · 1634 阅读 · 0 评论 -
数据库流水线发布data Ops--Bytebase
在本文中,我们首先向读者展示了 Bytebase 的安装部署过程,以及其查询和更改的基本功能。接着,我们体验了 Bytebase 1.14.0 最新版本所带来的 ChatSQL 功能,该功能基于 OpenAI,能够根据我们的问题或需求生成相应的 SQL 语句。最后,我们实践了 Bytebase 的 GitOps 功能,通过结合版本控制系统,可以跟踪数据库结构的变化,方便我们对数据库变更进行审查、协作和回滚操作。转载 2023-12-11 13:35:32 · 310 阅读 · 0 评论 -
mysql新建用户
ps: GRANT SELECT 可以换成 insert 、update、或者all。create user '账号名'@'%' identified by '密码';GRANT SELECT ON 数据库名.表名 TO '账号名'@'%';ps: @'%' 中的 % 表示任意地点都可以登录。ps: @'%' 中的 % 表示任意地点都可以登录。分为两步,新建用户和赋权。原创 2023-10-27 16:03:55 · 359 阅读 · 0 评论 -
pg实现月累计
FROM (FROM () ptuser) aJOIN (FROM () ptuser) b。原创 2023-08-07 17:29:18 · 1053 阅读 · 0 评论 -
从 Apache Doris 到 SelectDB,从开源数仓走向下一代云原生数仓的演进
数仓或大数据中面临的非结构化、半结构化数据越来越多,而 SelectDB 高效原生地支持了半结构化数据的高效存储和检索分析,在半结构化数据的灵活高效存储方面,支持了Array、JSONB、Map 等复合数据类型,支持灵活快速的 schame 变更,最重要的是支持动态 schema 表,可以自动识别数据的字段和类型、自动扩展新字段、动态扩展表结构。对于常见的各种数据源和数据集成工具,Doris 都提供了开箱即用的对接能力,包括 Flink、Spark、Kafka 等,进一步实现了对海量数据的存储与分析。转载 2023-07-04 13:10:10 · 1337 阅读 · 0 评论 -
阿里大数据之路:数据模型篇大总结
第1章 大数据领域建模综1.1 为什么需要数据建模有结构地分类组织和存储是我们面临的一个挑战。数据模型强调从业务、数据存取和使用角度合理存储数据。数据模型方法,以便在性能、成本、效率之间取得最佳平衡成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。1.2 关系数据库系统和数据仓库。转载 2022-11-22 09:38:51 · 1163 阅读 · 0 评论 -
datax-web使用介绍
CONSISTENT_HASH(一致性HASH):每个任务按照Hash算法固定选择某一台机器,且所有任务均匀散列在不同机器上。FAILOVER(故障转移):按照顺序依次进行心跳检测,第一个心跳检测成功的机器选定为目标执行器并发起调度;BUSYOVER(忙碌转移):按照顺序依次进行空闲检测,第一个空闲检测成功的机器选定为目标执行器并发起调度;LEAST_RECENTLY_USED(最近最久未使用):最久为使用的机器优先被选举;FIRST(第一个):固定选择第一个机器;ROUND(轮询):;转载 2022-10-24 11:11:28 · 2862 阅读 · 0 评论 -
datax-web安装部署
部署完成之后,在modules/对应的项目/data/applogs下(用户也可以自己指定日志,修改application.yml 中的logpath地址即可),用户可以根据此日志跟踪项目实际启动情况。如果项目启动失败,请检查启动日志:modules/datax-admin/bin/console.out或者modules/datax-executor/bin/console.out。进入解压后的目录,找到bin目录下面的install.sh文件,如果选择交互式的安装,则直接执行。原创 2022-10-19 14:28:44 · 1033 阅读 · 2 评论 -
DataX Web增量配置说明
打开菜单任务管理页面,选择添加任务按下图中5个步骤进行配置注意,注意,注意: 配置一定要仔细看文档(后面我们也会对这块配置进行优化,避免大家犯错)转载 2022-10-18 13:19:43 · 3594 阅读 · 0 评论 -
linux安装dataX
该文章 介绍安装dataX,以及Oracle 到 pg 库,遇到的一些坑。原创 2022-10-16 18:49:21 · 3487 阅读 · 0 评论 -
Navicat 连接Oracle时提示oracle library is not loaded的问题解决
这里的"x.x.x.x"是版本号,这个不重要,理论上任何版本都行的。6.打开NavicatPremium程序,打开“工具-选项-环境-OCI环境-OCIlibrary(oci.dll)”,然后将你刚才下载的文件夹中的oci.dll文件的完整目录填上,点击确定。我的是64位的软件,所以我选择第一个“InstantClientforMicrosoftWindows(x64)”,如果你的软件是32位的,就选择第二个。4.如果没有登录,则会跳转到下面的登录界面。...转载 2022-08-01 11:00:26 · 14237 阅读 · 0 评论 -
MySQL数据恢复myflash 和 binlog2sql
MySQL闪回工具之:binlog2sql https://github.com/danfengcao/binlog2sqlMYSQL Binglog分析利器:binlog2sql使用详解 :http://blog.itpub.net/27067062/viewspace-2135398/binlog2sql参数# python binlog2sql/binlog2sql.py --help选项mysql连接配置-h host; -P port; -u user; -p password解析模式--s转载 2022-07-13 15:00:48 · 205 阅读 · 0 评论 -
MySQL数据备份与恢复(二) -- xtrabackup工具
上一篇介绍了逻辑备份工具mysqldump,本文将通过应用更为广泛的物理备份工具xtrabackup来演示数据备份及恢复的第二篇内容(本文篇幅较长,建议收藏后阅读)。01 xtrabackup 工具的安装 1.1 安装依赖包1.2 下载及安装去percona官网下载对应版本的安装包 https://www.percona.com/downloads , 因为每个版本对应的数据库版本不同,因此需要根据数据库的版本选择对应的xtrabackup的安装包.当前测试使用的数据库为MySQL5.7转载 2022-07-13 10:23:51 · 406 阅读 · 0 评论 -
MYSQL数据恢复之binlog2sql
关于数据恢复之前已分享过2篇,链接如下:MySQL数据备份及还原(一)MySQL数据备份及还原(二)今天分享一下binlog2sql,它是一款比较常用的数据恢复工具,可以通过它从MySQL binlog解析出你要的SQL,并根据不同选项,可以得到原始SQL、回滚SQL、去除主键的INSERT SQL等。主要用途如下:该项目分享与git上,可以直接从git上获取,因此可以先安装git复制因binlog2sql依赖于python2.7或python3.4+版本,如果本机python版本较低,则无法使用。安转载 2022-07-13 10:14:07 · 2157 阅读 · 0 评论 -
“大数据组件”名词解释
转自:史上最全“大数据”学习资源整理------------资源列表:关系数据库管理系统(RDBMS)MySQL:世界最流行的开源数据库;PostgreSQL:世界最先进的开源数据库;Oracle 数据库:对象-关系型数据库管理系统。框架 Apache Hadoop:分布式处理架构,结合了 MapReduce(并行处理)、YARN(作业调度)和HDFS(分布式文件系统);Tigon:高吞吐量实时流处理框架。分布式编程 AddThis Hydra :最初在AddThis上开发转载 2022-07-06 09:50:17 · 443 阅读 · 0 评论 -
MySQL备份脚本
每天一次 0 2 * * * /root/mysqlbak.sh#!/bin/bash. /etc/profileuser='root'pass='123'date=`date +%Y-%d-%m`dir="/var/lib/mysql/backup"mysqldump -u$user -p$pass --all-databases | gzip > ${dir}/ddgz-all-${date}.sql.gzfind $dir -mtime +7 -name原创 2022-05-24 19:36:58 · 253 阅读 · 0 评论 -
Datax抽取数据到hive中decimal类型操作
一、问题背景之前在做Datax数据同步时,发现源端binary、decimal等类型的数据无法写入hive字段。看了一下官网文档,DataX HdfsWriter 插件文档,是1-2年前的,当初看过部分源码其实底层hadoop是支持这些类型写入的,后来随着工作变动也忘了记录下来,借着近期datax群里又有人问起,勾起了回忆,索性改一下源码记录一下。很重要的一点:我们其实要知道,datax只不过是个集成了异构数据源同步的框架,真正的读取和写入都是数据源底层本身支持功能才能用,所以要想知道某个功能支不支持转载 2022-05-18 11:27:29 · 2143 阅读 · 0 评论 -
埋点系统:详解设计埋点过程中的“who when where how what”
上次写了一篇《如何用数据驱动产品迭代》,其中提到了一点设计埋点的方法,很多朋友留言说需要设计埋点的指南,像我这种从来不拒需求的人,这两天下班闲下来之后就整理了一下埋点设计的一些知识,希望能有所帮助。在诸多招聘 JD 中提到的数据分析能力,主要是数据利用能力,利用数据的前提是有数据,并且在真正做数据分析的时候,经常会出现数据不足的情况,需要通过设计埋点去采集,当你有数据需求的时候,连需求都不知道怎么提,这岂不是产品经理最大的悲哀。所以我们不仅要学会利用数据,更要知道如何通过埋点来采集数据,接下来说一说转载 2022-02-24 17:03:21 · 1142 阅读 · 0 评论 -
数据仓库的实施步骤
建立数据仓库是一个解决企业数据问题应用的过程,是企业信息化发展到一定阶段必不可少的一步,也是发展数据化管理的重要基础。数仓的知识市面上的书籍和文章不少,但是实际实施依据行业不同,企业核心诉求不同,从技术到方法论各有不同。如何实施数仓项目,本文先以传统行业的数仓切入,从整体上讲下数据仓库的实施方法论!数据仓库的通用实施步骤一、需求分析需求分析是数据仓库项目最重要的一个环节,数仓说到底还是服务于业务,支撑于业务,如果需求分析不准确,做了没人用,上了不好用,会直接影响业务/客户的使用,最终导致转载 2022-02-24 17:01:20 · 1932 阅读 · 0 评论 -
数据湖的简介
从前,数据少的时候,人们拿脑子记就可以了,大不了采用结绳记事:后来,为了更有效率的记事和工作,数据库出现了。数据库核心是满足快速的增删改查,应对联机事务。比如你用银卡消费了,后台数据库就要快速记下这笔交易,更新你的卡余额。日子久了,人们发现,库里的数据越来越多了,不光要支持联机业务,还有分析的价值。但是,传统数据库要满足频繁、快速的读写需求,并不适合这种以读取大量数据为特征的分析业务。于是,人们在现有的数据库基础上,对数据进行加工。这个加工过程,被转载 2022-02-24 16:56:51 · 314 阅读 · 0 评论 -
vscode 中添加 SQL Formatter,格式化sql
vscode 中添加 SQL Formatter,格式化sql1.打开vscode 的扩展模块2.搜索 SQL Formatter, 点击安装3.打开需要格式化的代码(在VSCODE中,新建一个文件 ctrl + N , 会让选择 编程语言, 选sql)现在你就可以使用alt+shift+f组合键来快速格式化你在VS Code中的代码了。格式化后的代码...原创 2022-03-01 13:10:42 · 24648 阅读 · 6 评论 -
数仓中拉链表(压缩存储)
一、拉链表介绍1.什么是拉链表拉链表:记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效开始日期。如果当前信息至今有效,在生效结束日期中填入一个极大值(如9999-99-99),如下表(表1):image.png2.为什么要做拉链表拉链表适合于:数据会发生变化,但是大部分是不变的。比如:订单信息从未支付、已支付、未发货、已完成等状态经历了一周,大部分时间是不变化的。如果数据量有一定规模,无法按照每日全量的方式保存。比如:1亿用户*转载 2022-02-14 14:29:56 · 1317 阅读 · 3 评论 -
禁止在代码中进行SQL的拼接操作
1.字符串操作更容易出错。2.sql语句不可避免地出现在代码里,无法坐到代码与数据分离.代码可读性降低。3.效率. 很多情况下需要多次执行同一句sql语句,只是参数不同.如果使用PreparedStatement(Java),只需要在第一次执行是编译sql语句,之后的执行效率可以提高。4. 如果代码里使用字符串操作来拼接sql语句,那么在编译阶段是不可能发现sql语句错误的.如果使用类库提供的方法来设置参数,可以在编译时就设定参数的类型.5. 倘若之后要修改sql语句,比如where条件里要多...转载 2022-02-14 10:26:43 · 1405 阅读 · 0 评论 -
选型HDFS上跑Impala/Drill/Presto,Tez/Spark/MapReduce
一个数据仓库的构架了。底层HDFS,上面跑MapReduce/Tez/Spark,在上面跑Hive,Pig。或者HDFS上直接跑Impala,Drill,Presto。这解决了中低速数据处理的要求。MapReduce是第一代计算引擎,Tez和Spark是第二代。第二代的Tez和Spark除了内存Cache之类的新feature,本质上来说,是让Map/Reduce模型更通用,让Map和Reduce之间的界限更模糊,数据交换更灵活,更少的磁盘读写,以便更方便地描述复杂算法,取得更高的吞吐量。大数据本转载 2022-02-11 17:41:34 · 650 阅读 · 0 评论 -
TEZ引擎简介
TEZ我们在上一篇文章中提到过,MapReduce模型虽然很厉害,但是它不够的灵活,一个简单的join都需要很多骚操作才能完成,又是加标签又是笛卡尔积。那有人就说我就是不想这么干那怎么办呢?Tez应运起,图飞入MR。Tez采用了DAG(有向无环图)来组织MR任务(DAG中一个节点就是一个RDD,边表示对RDD的操作)。它的核心思想是把将Map任务和Reduce任务进一步拆分,Map任务拆分为Input-Processor-Sort-Merge-Output,Reduce任务拆分为Input-Sh转载 2022-02-11 17:29:11 · 2747 阅读 · 0 评论 -
presto引擎简介
是Facebook开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎是一种Massively parallelprocessing(MPP)架构,多个节点管道式执⾏⽀持任意数据源(通过扩展式Connector组件),数据规模GB~PB级使用的技术,如向量计算,动态编译执⾏计划,优化的ORC和Parquet Reader等presto不太支持存储过程,支持部分标准sqlpresto的查询速度比hive快5-10倍上面讲述了presto是什么,查询速度,现在来看看presto..转载 2022-02-10 19:08:08 · 2294 阅读 · 0 评论