
PRD
文章平均质量分 87
hzp666
这个作者很懒,什么都没留下…
展开
-
大语言模型(LLM)中大数据的压缩存储及其重要性
在大型语言模型中,如何通过压缩KV Cache来提高计算效率和减少显存消耗。不同的压缩方法针对不同的场景和需求,而ZigZagKV方法在保持模型性能的同时,有效地解决了显存分配的问题。原创 2024-12-25 09:14:16 · 1338 阅读 · 0 评论 -
论文/报告中图表配色:如何画好图表
示例:"CMYK(0%, 100%, 100%, 0%)"表示红色,"CMYK(100%, 0%, 100%, 0%)" 表示绿色,"CMYK(100%, 100%, 0%, 0%)" 表示蓝色。示例:"RGB(255, 0, 0)" 表示红色,"RGB(0, 255, 0)" 表示绿色,"RGB(0, 0, 255)" 表示蓝色,"RGB(255, 255, 255)" 表示白色。示例:"#FFFFFF" 表示白色,"#000000" 表示黑色,"#FF0000" 表示红色。0表示黑色,100表示白色。转载 2024-07-08 10:48:21 · 1159 阅读 · 0 评论 -
超越POSIX:一个时代的终结?
然而,主流的POSIX操作系统采用了1对1的线程模型,理由是实现简单[30],[31]。虽然后来的PDP-11变体,如PDP-11/70,具有内存映射单元(MMU)[7],但直到1970年代末VAX架构的出现,Unix才添加了虚拟内存[4],这成为当时Unix的主要架构。从历史上看,这种解耦具有三个主要目标:(1)通过独立于物理内存空间的地址空间促进机器的独立性,(2)通过允许程序员在执行时将独立的模块组合成程序来促进模块化,(3)实现运行大型程序的可能性,这些程序无法适应物理内存(例如Lisp程序)。转载 2024-02-04 13:47:22 · 131 阅读 · 0 评论 -
如何提高SSD内部的并行性:增加带宽?提供多种路径?设计新架构?
源闪存控制器发送探测包,以识别和保留到目标芯片的路径,期间使用路由算法(非最小全自适应路由算法)将探测包从源闪存控制器路发送到目标闪存芯片,并保留探测包到达目标节点的互连网络链路,当探测包到达目标闪存芯片时,Venice已经保留了无冲突的前向和后向路径,接着使用反向路径将探测包发送回源闪存控制器。如下图,闪存命令控制器保持不变,主要的区别在于引入了分组,在信号到达闪存之前,在接口引入适当的数据包头,这种方法在不利用传统控制信号的情况下,将通信信号(或带宽)的数量有效地增加了约2倍。转载 2024-02-04 13:26:54 · 555 阅读 · 0 评论 -
大模型介绍1:理论基础
语言大模型的涌现能力[18]、规模定律[14],多模态大模型的知识表示、逻辑推理能力、泛化能力、情景学习能力[19][37]等方面有待展开深入研究,为大模型的大规模 实际应用提供理论保障。大模型基于数据驱动深度学习方式,依赖训练数据所覆盖的场景,由于复杂场景数据不足,大模型存在特定场景适用性不足的问题,面临鲁棒性和泛化性等挑战。早期的语言大模型表现出一定 的少样本学习能力,但是其学习目标主要通过预测下一个单词实现, 仍不能很好地遵循人类指令,甚至会输出无用的、有害的信息,难以 有效对齐人类的偏好。原创 2024-01-23 11:11:55 · 1610 阅读 · 0 评论 -
Med-PaLM2重磅揭秘!AI医生成绩比肩人类
然而,对于Med-PaLM来说,这个数字降至0.8%,与临床医生的答案(在1.4%的情况下被认为包含有偏见的证据)相比,有明显的优势。其中,29.7%的Flan-PaLM回答被认为有潜在的伤害风险,这一数字在Med-PaLM中降至5.9%,与临床医生生成的答案(5.7%)相近。如下图所示的这些结果表明了指令微调的强大优势。在由印度的医学入学考试问题组成的MedMCQA数据集上,Flan-PaLM 540B在开发测试集上达到了57.6%的成绩,超过了Galactica模型取得的52.9%的最好成绩。转载 2024-01-23 09:46:42 · 485 阅读 · 0 评论 -
解读 SOSP‘23 硬核论文 Mira:程序行为感知的远端内存访问优化
Mira的编译器为非交换缓存区(non-swap cache section)中的对象生成显式远程操作,使得更多的本地内存能作为频繁访问的远程对象的cache,以提高应用程序的性能。与AIFM的基于库的远程操作实现相比,Mira的实现具有更少的运行时开销和需要更少的元数据。一次profiling完成后,Mira收集所有函数的cache开销和执行时间,对所有函数的cache性能开销进行比较,选出开销最高的前10%函数,以及函数中涉及的前10%的大内存对象(heap objects)进行进一步的静态代码分析。转载 2024-01-23 09:00:28 · 400 阅读 · 0 评论 -
SeaTunnel 超大数据量数据集成平台简介
主流的大数据处理引擎 SeaTunnel 都支持:包括多个版本的 Flink,Spark,以及 SeaTunnel 自己的引擎 SeaTunnel Engine。SeaTunnel 的执行流程如上图所示,最上面是 SeaTunnel 内部 SQL 和API 的定义,基于这些定义生成连接器,然后将连接器和 Job 提交到对应的引擎上进行处理,最终数据通过Sink写入目标端。我们希望支持数据源的数量更多,数据同步的性能更快,在易用性方面更好用,从这三方面不断迭代优化,以满足更多的用户需求。转载 2023-12-25 14:41:39 · 1634 阅读 · 0 评论 -
pycharm手动安装包
以TTS包为例,找到下载并解压的包中的2个文件,一个名称一个info结尾。在pycharm中terminal执行,找到下载解压包中的依赖文件。2.手动解压,找到文件放到pycharm对应项目的lib文件夹中。4.可能需要安装该包对应的依赖。3.放到项目的lib文件夹中。原创 2023-12-11 17:09:25 · 996 阅读 · 0 评论 -
miniconda安装
在选择为谁安装的时候建议选择just me(这会让你构建的虚拟环境默认保存在安装路径的envs下,否则默认保存地址为C:\Users\User.conda\envs,更改默认地址较为麻烦,原文链接:https://blog.youkuaiyun.com/weixin_40438421/article/details/130474033。ps: 最后一句conda config --set show_channel_urls yes 一定要执行。记得选择一下安装路径,然后一直next到安装结束,如果看到版本号即ok。原创 2023-11-09 15:24:26 · 382 阅读 · 0 评论 -
设置YOLO-V8的参数
Boxes对象可用于索引、操作边界框,并将其转换为不同的格式。Box格式转换结果是缓存的,这意味着每个对象只计算一次,并且这些值将在将来的调用中重复使用。YOLOv8可以处理很多类型的识别,比如:图片、视频、还有YouTube的网页连接,强不强!、NumPy数组、Torch张量、CSV文件、视频、目录、通配符、YouTube视频和视频流。表格✅指示了每个输入源是否可以在流模式下使用,并给出了每个输入源使用流模式的示例参数。设置预测参数,可以满足我们不同的需求。:用于操作边界框的属性和方法的对象。转载 2023-09-27 08:45:50 · 8916 阅读 · 16 评论 -
图像识别-YOLO V8安装部署-window-CPU-Pycharm
PyTorch 无疑是现在最成功的深度学习训练框架之一,是各种顶会顶刊论文实验的大热门。比起其他的框架,PyTorch 最大的卖点是它对动态网络的支持,比其他需要构建静态网络的框架拥有更低的学习成本。PyTorch 源码 Readme 中还专门为此做了一张动态图:对研究员而言, PyTorch 能极大地提高想 idea、做实验、发论文的效率,是训练框架中的豪杰,但是它不适合部署。原创 2023-09-20 15:25:46 · 2165 阅读 · 6 评论 -
AI修复人像
最近闲来无事,翻了翻以前的老照片,看着多年前的老照片,感慨万千,仿佛又回到了以前的青春岁月。只可惜青春易逝,无法重来。意气风发,头角峥嵘的画面只能永远地留存在相片之中了。只叹当时没有多拍几张照片留作纪念,可惜当时设备也不好,照片效果不佳。留下遗憾。最近学习了Python,发现可以通过Python使用AI来修复老旧照片,而且修复后的效果非常不错。AI是一种人工智能技术,它可以用来处理图像和视频。在某些情况下,AI可以帮助修复照片中的瑕疵或缺陷,例如曝光不足、颜色失真等。转载 2023-01-10 16:16:27 · 938 阅读 · 0 评论 -
Docker的介绍
2010年,几个搞IT的年轻人,在美国旧金山成立了一家名叫“dotCloud”的公司。这家公司主要提供基于PaaS的云计算技术服务。具体来说,是和LXC有关的容器技术。LXC,就是Linux容器虚拟技术(Linux container)后来,dotCloud公司将自己的容器技术进行了简化和标准化,并命名为——Docker。Docker技术诞生之后,并没有引起行业的关注。而dotCloud公司,作为一家小型创业企业,在激烈的竞争之下,转载 2022-03-04 11:26:29 · 116 阅读 · 0 评论 -
如何做好一个BI项目的规划和需求定义?
正所谓磨刀不误砍柴工,一个项目的启动,先得从金字塔顶端做好规划,摸清楚需求、背景、客观条件、可投入资源等。本文,BI项目详解的第一篇,先来谈谈BI项目的规划和需求定义。全文共3000字,读完需要 8分钟!一、如何启动一个BI项目?Q:一个项目的启动有哪些事情?A:通常包括两块,准备计划和实施事项。准备计划包括项目背景的调研,明确项目目标,项目的核心需求,解决方案规划。实施事项包括项目资源(人财物)的组织和管理,确定项目成员的工作范围,制订项目计划和实施步骤,确定项目管理的规范和流程,确定原创 2022-02-24 16:43:27 · 792 阅读 · 0 评论 -
指标体系、原子指标和衍生指标
指标是一个可以量化目标事物多少的数值,有时候也称为度量,如:DNU、留存率等都是指标。原子指标和衍生指标按照个人的理解,不加任何修饰词的指标就是原子指标,也叫度量,一般存在于olap表中,例如订单量,用户量的等等。而在原子指标上进行加减乘除或者修饰词的限定等等都是派生指标,衍生/派生指标=原子指标+时间周期+修饰词例如:近7天订单量,近7天北京市的订单量,近1个月北京市的新增用户数,近7天的订单成交率等等。当然,通过原子指标加减乘除得到的指标也是衍生指标。———————原创 2021-09-09 17:34:45 · 2202 阅读 · 0 评论 -
指标体系建设思路
编辑导语:几乎所有的数据分析工作都会提到一个词——“建立数据指标体系”,虽然这个词对于大家来说并不陌生,但是如何具体的搭建,很多人还是一头雾水的。今天,本文作者就和我们好好聊一聊数据指标体系如何从构思到落地。一、数据指标与体系1. 什么是数据指标?指标是一个可以量化目标事物多少的数值,有时候也称为度量,如:DNU、留存率等都是指标。一个指标通常需要从多维度来分析指标构成,这就要求指标与多维度关联支持多维度分析,如DNU就可以按照不同渠道查看各渠道流量大小,也可以按操作系统查看不同操作系统转载 2021-09-09 17:32:33 · 1848 阅读 · 0 评论 -
数据结构大全(一)
目录顺序存储线性表实现单链表不带头标准c语言实现单链表不带头压缩c语言实现约瑟夫环-(数组、循环链表、数学)线性表表示集合线性表实现一元多项式操作链表环问题移除链表元素回文链表链表表示整数,相加LRULFU合并链表反转链表反转链表2对链表排序旋转链表数组实现栈链表实现栈数组实现队列链表实现队列双栈的实现栈/队列 互相模拟实现栈的排序栈——括号匹配栈——表达式求值借汉诺塔理...转载 2021-04-22 10:04:26 · 796 阅读 · 0 评论 -
数据结构大全(二)
ManacherManacher's Algorithm 马拉车算法操作及原理 package advanced_001; public class Code_Manacher { public static char[] manacherString(String str) { char[] charArr = str.toCharArray(); char[] res = new char[str.length() * 2 + 1...转载 2021-04-22 10:04:12 · 523 阅读 · 0 评论 -
数据治理项目经验分享
绝大多数互联网公司没时间建模、治理,直接拖宽表。业务变更频繁、建模缺位、指标爆炸,是导致互联网大数据环境中数据质量的低下的根本原因。而在部委、集团中,时间相对充裕一些,标准更规范一些,但是同样面临部委和省级之间、各系统之间数据交换、对齐的问题。因此,在不同的环境中,数据治理的重点和偏向都是完全不一样的。今天分享的内容从实战出发,到落地结束。数据治理最难的不是系统建设,而是落地困难。所以今天先跟大家分享一下部委、集团类数据治理遇到的困境,以及各种问题的具体解决方案,还有如何进行经验复制...转载 2021-04-16 17:56:31 · 3582 阅读 · 0 评论 -
BI需求收集方法论
收集和明确需求BI项目都是由企业需求驱动的,而且后续的项目方案也只有和企业的需求契合才能产生价值。通常情况下,BI项目主要由企业信息化建设与数据应用需求驱动。项目前期的立项阶段要明确大致需求,这些需求要能支撑BI项目的立项和工具选型;项目正式启动阶段要弄清楚详细需求,也就是具体到业务、数据、技术等层面的需求,这关乎项目的落地。1.大致需求与详细需求明确大致需求,就是要弄清楚当前企业中各方人员的痛点,找到必须建设BI项目的理由和共识,并确定项目范围。第1章讲过BI对企业的价...转载 2021-02-04 09:56:38 · 1040 阅读 · 0 评论 -
数据可视化需求评估内容
一、参与沟通人员:1.业务需求提出方2.IT或设计的业务系统运维部门。 eg:ERP部门3.报表开发部门人员二、会议确定内容:1.确定报表使用对象2.各指标的数据来源是否都有 数据质量3.数据缺失是否需要补录 补录方式,是否需要帆软填报4.需求的内容样式、数据维度是否明确,eg:组织维度是否清晰5.是否需要移动端 和 大屏6.是否权限管控三、会议结论1.形成会议纪要2.形成需求文档...原创 2020-12-01 09:52:56 · 714 阅读 · 0 评论 -
SSAS介绍
文章提纲 商业智能(BI, Business Intelligence)基本概念 SSAS(SQL Server Analysis Services)相关工具(开发、管理和客户端) 总结 一、商业智能(BI, Business Intelligence)基本概念商业智能的概念在1996年最早由加特纳集团(Gartner Group)提出,加特纳集团将商业智能定义为:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业.转载 2020-11-10 14:32:37 · 7758 阅读 · 0 评论 -
数据仓库分层设计
转自:博客园 大佬 鼬手牵佐手https://www.cnblogs.com/itachilearner/1.虽然各个公司的数据仓库各层名称各不相同,但是总体上大同小异,都包括ODS(Operation Data Store)原始数据层,公共数据层CDM(Common Data Model),又称公共数据模型,和应用数据层APP(或者叫ADS) 。ODS层:原始数据层,主要是将源系统数据抽取到数仓环境,不作任何处理,同时要存历史数据CDM层:公共模型层,CDM层是数据仓库的核心,也是数据..转载 2020-09-23 17:24:49 · 275 阅读 · 0 评论 -
ClickHouse替换MySQL作为数仓APP层
一、ClickHouse 是什么? 二、业务问题 三、ClickHouse实践 四、遇到的坑 五、总结 一、ClickHouse 是什么?ClickHouse:是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)我们首先理清一些基础概念 OLTP:是传统的关系型数据库,主要操作增删改查,强调事务一致性,比如银行系统、电商系统 OLAP:是仓库型数据库,主要是读取数据,做复杂数据分析,侧重技术决策支持,提供直观简单的结果 ..转载 2020-09-22 12:02:35 · 2862 阅读 · 0 评论 -
数据中台
为了解决:传统数仓对业务系统支持不够友好,不支持 计算模块。 服务对象 应用场景 包含功能 数据仓库 决策分析系统 分析型场景 存储模块、计算模块、数据治理、对外统一服务、实时流计算 数据中台 各业务系统 分析型场景和交易场景 存储模块、查询模块 数据中台:面向服务对象:面向业务、为业务系统提供数据API服务,应用场景:分析型场景和交易场景包含存储模块和计算模块,具有一定运算能力,提供广告展示...原创 2020-09-01 13:52:12 · 294 阅读 · 0 评论 -
数据倾斜2
数据倾斜的原因和解决方案MapReduce简介MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。2)MapReduce是一个并行计算与运行软件框架(Software Framework)。它提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划转载 2020-08-19 15:31:12 · 349 阅读 · 0 评论 -
大数据面试题
原文链接:https://blog.youkuaiyun.com/albg_boy/article/details/78424509第1部分 选择题1.1 Hadoop选择题1.1.1 Hdfs 下面哪个程序负责 HDFS 数据存储? 1 a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker HDfS 中的 block 默认保存几份? 1 a)3份b)2份c)1份d)不转载 2020-07-23 14:33:28 · 3305 阅读 · 0 评论 -
数仓两种建模方式:维度建模和范式建模
一、ODS层ODS 全称是 Operational Data Store,一般对应的是操作性数据存储,直接面向主题的,也叫数据运营层,通常是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就是通常说的 ETL 之后的数据存入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。但是,这一层面的数据却不等同于原始数据。在源数据装入这一层时,要进行诸如去噪(例如有一条数据中人的年龄是 300 岁,这种属于异常数据,就需要提前做一些处理)、去重(例如在个人资料表中,同一 ID 却有转载 2020-07-13 17:00:17 · 12760 阅读 · 4 评论 -
PRD Report designer入门 (1)
作为一个刚刚接触Pentaho的新人,希望把自己在学习道路上的一点一滴都忠实的记录下来,正所谓好记性不如烂笔头,方便以后回来翻翻看看。==============================report designer不需要安装,下载回来的压缩包,解压缩之后,直接双击bat文件就可以进入了。进入编辑器,首先新建一个report。转载 2016-12-21 14:38:27 · 1354 阅读 · 0 评论 -
PRD 发布报表(2)
发布报表●发布到bi Server1.首先启动bi Server,这个在我其他的博文中已经有记述,可以参考【Pentaho学习笔记--bi Server配置】2.然后在PRD中如下图所示,选择发布designer 5.4学习(2)【原】" title="Pentaho学习笔记--report designer 5.4学习(2)【原】" style="margin:0转载 2016-12-21 14:37:21 · 1166 阅读 · 0 评论 -
PRD 使用Pentaho Metadata Editor(PME)生成的metadata做数据源(5)
使用Pentaho Metadata Editor(PME)生成的metadata做数据源Pentaho Report Designer(PRD)可以支持多种数据源输入方式。Pentaho Metadata Editor作为自家平台中的一员大将,应该也不在话下。Right?考虑到实际情况,直接上使用参数的例子。1.同样,新建一转载 2016-12-21 14:27:13 · 4246 阅读 · 0 评论 -
PRD杂记(6)
Pentaho学习笔记--report designer 5.4学习(6)【原】 (2016-05-05 10:31:12)转载▼标签: it分类: BI最后想做一个杂记。就是想把一些知道的, 没写的,可以实现的。做一个简单的概括。也当时给PRD的学习做一个小结了。1.关于列转载 2016-12-21 14:24:46 · 732 阅读 · 0 评论 -
PRD概述
一、 Pentaho 整体架构 cc 二、 Client tools1. Report Designer报表创建工具。如果想创建复杂数据驱动的报表,这是合适工具。2. Design Studio这是基于eclipse的工具,你可以使用它来创建手工编辑的报表或分析视图x转载 2017-02-06 15:26:09 · 3773 阅读 · 0 评论 -
dashboard项目
现在有很多各种各样的 JavaScript 库,但这里将介绍 7 个很优秀的可用于你下一个 JavaScript 项目的库。仪表盘是用于目标或业务流程的视觉指示工具,也用于切割杂乱无章的数据,从而分割出要点的重要工具。它可帮助评估信息,并及时做出正确的决定。实时可视化的仪表盘由图标、测绘图、图形符号,以及数据表格等组成。目前有一些开源或商业的库用于创建仪表盘转载 2017-04-07 13:55:38 · 1597 阅读 · 0 评论 -
BI大数据名词术语
大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,我们通过本文给出一个常用的大数据术语表,抛砖引玉,供大家深入了解,部分定义参考了相应的博客文章。A聚合 (Aggregation) – 搜索、合并、显示数据的过程算法 (Algorithms) – 可以完成某种数据分析的数学公式分析法 (Analytics) – 用于发现数据的内在涵义转载 2017-03-17 15:04:07 · 4290 阅读 · 0 评论 -
BI大数据的星形模型和雪花模型
23333架构模式的选择数据仓库的架构主要有星型和雪花型两种方式,下面从多个角度来比较一下这两种模式的利弊。从查询性能角度来看,在OLTP-DW环节,由于雪花型要做多个表联接,性能会低于星型架构;但从DW-OLAP环节,由于雪花型架构更有利于度量值的聚合,因此性能要高于星型架构。从模型复杂度来看,星型架构更简单。从层次概念来看,雪花型架构更加贴近OLTP系统的结构,比较符合业务逻辑...转载 2017-04-07 15:47:57 · 4825 阅读 · 0 评论 -
缓慢渐变维
实例说明1:缓慢变化的维,如你注册csdn账号是所填写的地址、电话等资料,你的地址会变化的,但是很久才会变一次,这就是一个缓慢变化维。请参见Type1, Type2, Type3。Type1-全覆盖,保持最新数据(keep most recent values in target)Type2-全历史记录(keep a full history of changes in the target...转载 2017-04-07 16:44:08 · 1041 阅读 · 0 评论 -
kettle系列之常见问题
开源ETL工具kettle系列之常见问题摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案1. Join我得到A 数据流(不管是基于文件或数据库),A包含field1 , field2 , field3 字段,然后我还有一个B数据流,B包含field4 , field5 , fie转载 2017-03-29 16:22:02 · 13379 阅读 · 0 评论 -
BI数据系统的设计流程
BI大数据产品:数据管理平台可以通过报表或者BI模块来搭建。在专栏《帆软数据应用研究院》里有关于企业数据管理和BI报表平台建设的案例。站在项目实施的角度,可以从技术和业务两个层面来考虑。前期进行需求调研。罗列了一张建设思路图。技术上需要考虑两大主体,一是公司的数据量,而是具体的需求情况。数据情况1、数据来源:考虑数据主要来源的业务系统有哪些?是否转载 2017-03-23 11:16:34 · 5292 阅读 · 0 评论