自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(75)
  • 收藏
  • 关注

原创 db2使用

1、刷新数据库2、新建窗口3、查询数据库4、删除数据库连接。

2024-08-14 21:20:24 235

原创 db2连接MySQL数据库

4、输入数据库名,用户名,密码。3、选择MySQL数据库。

2024-08-14 20:28:41 444

原创 java环境配置

转载

2024-08-13 21:49:18 386

原创 series常用属性+方法

2024-07-27 21:57:04 458

原创 Series的创建

2024-07-27 10:42:35 362

原创 08-数据分析

周报月报一旦做出来了, 框架搭建起来之后, 直接修改数据,和文字内容就可以。[(文本, 数值),(文本2,数值2)…可以使用Pyecharts绘制词云。微博/头条/新闻评论。

2024-07-26 15:28:36 436

原创 07-数据分析

要分析的目标,在目标群体中的均值 和 全部群体里的均值进行比较, 差的越多说明 目标群体偏好越明显TGI(Target Group Index,目标群体指数)用于反映目标群体在特定研究范围内强势或者弱势的程度案例的需求, 高利润的产品投放市场, 找到合适的城市进行投放, 统计不同城市高客单价用户占比的TGI ,找到TGI比较大的城市, 还需要考虑总用户数量不要过少。

2024-07-26 15:26:11 327

原创 06-数据分析

R recency 最近 分成两类 7天以内来过 高 低F frequency 次数 90天以内 >15次 高 低M monetory 金额 90天以内消费 >1500 高 低计算RFM需要什么样的数据。

2024-07-26 15:25:06 445

原创 05-数据分析

电商黄金公式销售额 = 访客数 * 转化率 * 客单价GROW阿里AIPL, 字节5A模型 京东4A模型使用这些思维模型,把用户划分成不同的阶段, 从刚注册 → 成为忠实用户可以考察不同时间 处于不同阶段的用户量考核 处于每个阶段用户数量的转化率利用模型 进行目标拆解和追踪。

2024-07-26 15:23:52 403

原创 04-数据分析

join = ‘inner’ 默认 ‘outer’ outer 会保留连接的两张表的所有的信息, 有列名、行名不匹配的时候, 用NaN填充, 如果是inner 只会连接 行名、列名相同的部分。需要注意的是, index columns values 都可以传列表, aggfunc 可以针对不同的value 选择不同的聚合方式, 此时需要传入字典 但是不推荐把表做的过于复杂。suffixes 后缀, 当关联结果中,出现了同名的字段, 用于区分哪个字段来自于哪一张表, 默认是(’ _ x’, ‘_ y’)

2024-07-26 15:22:19 778

原创 03-数据分析

加载数据后的套路选择部分数据增加删除axis =0 可以改成1inplace修改数据修改表结构indexdf.replace/df.rename 共同的特点, 老的值没找到, 不会报错, 正常执行, 不会改值df.insert 是修改数据的API中, 没有inplace 参数的一个 , 直接在原来数据上进行修改s.unique()

2024-07-26 15:19:19 294

原创 02-数据分析

numpy Pandas的底层的数据结构,就是numpy的数组 ndarray数据的保存和加载。

2024-07-26 15:18:00 368

原创 01-数据分析

修改数据的API默认不会再原始的数据上进行修改, 而是会在副本上进行修改, 并且会把这个修改后的副本作为方法的返回值, 返回来。describe() # 加载数据之后, 首先可以先head() 再 describe 看数据的分布情况。df.min()算最小/df.max()算最大/df.mean()取平均/df.count() 计数。对数据进行修改的方法, 99%都有一个共同的参数 inplace 默认值是False。加载数据之后, 做具体的业务处理之前, 一般固定的套路。

2024-07-26 15:08:42 451

原创 06-用户画像 + es映射+写入数据

外部表删除时不会删除行数据,只删除元数据。或者cd 到当前目录下使用下面的命令运行。内部表数据会全部删除。

2024-07-24 15:13:41 828 1

原创 05-用户画像+mysql-hive数据导入

新建 create_hive_table.sh文件。

2024-07-24 15:00:45 833

原创 04-用户画像+sqoop使用

sqoop的作用是实现数据的导入和导出,主要是对数据库和数据仓库之间的操作。qoop脚本就是将sqoop指令写入shell文件 后缀是 .sh。只要是支持jdbc连接的数据库都可以使用sqoop操作。

2024-07-21 16:17:25 742 1

原创 03-用户画像+Elasticsearch

1-对文档数据(文本数据)进行分词。2-将分词数据建立索引。3-根据分词查询数据。

2024-07-21 15:24:24 551

原创 02-用户画像-技术架构+业务划分

流数据读取写入kafka文件。

2024-07-21 14:55:41 318

原创 01-用户画像

测试属性是指来自用户的态度表达,但并不是用户直接表达的内容,而是通过分析用户的表达,结构化处理后,得出的测试结论。比如,用户填答了一系列的态度问卷,推导出用户的价值观类型等。3、风控 分析用户确认用户价值(花呗) --还款周期,资产情况。行为数据 (来源与日志或者消息队列)(实时数据计算)将用信息标签化(用数字表示用户的行为特征或者是固有属性)静态画像 固有属性(性别、年龄、政治面貌)基础标签 (根据用户的基本信息,确认用户标签)本体论 (对用户的符号化表示)

2024-07-21 14:35:59 235

原创 An error occurred while calling o32.jdbc.

库名改为fh_policy。

2024-07-21 10:31:20 151

原创 特征向量及算法

将字符串数据转为数值,在算法模型训练需要用到的是数值。特征工程 提取数据特征,对特征数据进行清洗转化。4、特征缩放(归一处理)

2024-07-16 21:58:58 250

原创 帆软FCA-FineReport入门考试

对数据表中数据的格式和样式进行设置,并不能改变图表中坐标轴和图例的样式,样式设置作用于整个数据表,数据格式作用于数据表中的数据(得分:2分 满分:2分)填报属性中设置了多个内置SQL后,提交时有一个执行不通过的话,后面的内置 SQL 就不会执行,前面的执行过的依旧有效(得分:2分 满分:2分)(得分:2分 满分:2分)决策报表中,其他组件引用报表块中的单元格数据,也可以引用数据集中的数据(得分:2分 满分:2分)为了让第一行标题在报表分页时,分页都可以显示,通常的做法是( )(得分:2分 满分:2分)

2024-06-22 10:09:37 1496

原创 hfds相关知识点

安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求,是一种保护机制,用于保证集群中的数据块的安全性。(重复执行3-7步)5)客户端请求dn1上传数据 ,dn1收到请求会继续调用dn2 ,然后dn2调用dn3 ,将这个通信管道建立完成。2-split切割后的数据传递给对应的map进行处理,会对数据转为kv (张三,1) (张三,1),(李四,1)1-每个数据块最小副本数量,默认为1. 在上传文件时,达到最小副本数,就认为上传是成功的。

2024-05-21 19:59:05 567

原创 黑马甄选离线数仓项目day03(数仓设计)

HUE是CDH提供一个hive和hdfs的操作工具,在hue中编写了hiveSQl也可以操作hdfs的文件http://hadoop01:9870 hdfs的web访问端口hdfs://hadoop01:8020 hdfs的程序访问端口数据仓库是由一整套体系构成,包含数据采集,数据存储,数据计算,数据展示等数据仓库主要作用对过往的历史数据进行分析处理,为公司决策停供数据支撑。主题是对数据进行归类,每个分类是一个主题主题域根据分析的领域,将联系较为紧密的数据主题的集合在一起。

2024-05-14 21:02:01 957

原创 hdfs块数据丢失(启动安全模式)

【代码】hdfs块数据丢失(启动安全模式)

2024-05-14 10:57:40 167

原创 拉链表实现过程+案例

2.拿着DWD原始拉链表数据 left join 增量数据 ,修改原始拉链中历史数据的结束时间。5.使用insert+select 方式把临时表中数据灌入DWD拉链表中。3.拿着left join 的结果集 union all 增量数据。1.从ODS层获取增量数据(上一天新增和更新的数据)4.把最新的拉链数据优先保存到DWD对应的临时表中。

2024-05-13 20:53:29 318

原创 黑马甄选离线数仓项目day02(数据采集)

官网: https://github.com/alibaba/DataX/blob/master/introduction.mdDataX 是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。

2024-05-13 19:18:29 1012

原创 黑马甄选离线数仓项目day01(项目介绍)

项目名称 黑马甄选数仓形式 离线数仓开发业务类型 电商业务项目属于 新零售电商 新零售 线上(网站,app,小程序)+ 线下(实体体验店)+ 物流(自营物流)项目行业 果蔬生鲜领域商业模式 B2C 企业售卖商品给个人门店业务线下实体店及时达(快递物流)社区团购三方平台 在第三发平台开设店铺线上商城线上的B2C的网站商品批发app 经销商在app中下单采购大客户团购app 公司在app中下单采购自营商品商品贴牌线下到线上。

2024-05-13 09:03:43 1162

原创 主机时钟不同步错误

进入http://hadoop01:9870/运行如上代码后,重新启动虚拟机,

2024-04-29 20:50:03 222

原创 Apache Hive介绍

Apache Hive 是一个分布式、容错的数据仓库系统,可实现大规模分析和 有助于使用 SQL 读取、写入和管理驻留在分布式存储中的 PB 级数据。Apache Hive 是一个分布式容错数据仓库系统,可实现大规模分析。Hive Metastore(HMS)提供了一个中央元数据存储库,可以很容易地进行分析,以提供明智的信息。数据驱动的决策,因此它是许多数据湖架构的关键组成部分。Hive 建立在 Apache Hadoop之上,支持通过 hdfs 在 S3、adls、gs 等上存储。

2024-04-26 21:58:02 531 1

原创 自来水收费系统建表语句

【代码】自来水收费系统建表语句。

2024-04-24 21:54:51 127

原创 存储过程知识点

存储一些 事物性操作 (把一个过程存储下来)不需要返回值任何结果的(没有返回值)可以返回值(传出参数)返回多个返回值参数比较多传出参数 out传入参数 in (什么也不加 默认就是 in)传出传入参数。

2024-04-24 21:35:38 170

原创 存储函数知识点

存储函数 自定义函数(我们自己写的函数)存储函数 为了给我们一个结果的可以通过 select 函数名 直接使用!!!存储函数必须有返回值。

2024-04-24 20:11:20 163

原创 词频统计练习

【代码】词频统计练习。

2024-04-23 17:48:31 119

原创 视图的基本用法

【代码】视图的基本用法。

2024-04-23 15:44:32 226

原创 orcale索引

【代码】orcale索引。

2024-04-23 14:38:24 126

原创 MapReduce的计算过程

2-split切割后的数据传递给对应的map进行处理,会对数据转为kv (张三,1) (张三,1),(李四,1)8-在将每次溢出的数据合并merge在一起,保存同一文件,文件是临时文件,计算后会删除。2-每个reduce从不同的map中fetch获取相同分区的文件数据。4-对缓冲区内的数据进行spill溢出(读取缓冲区内的数据)3-在将fetch后的文件合并,对合并后的数据进行排序。3-map将处理的后的数据写入buffer缓存区。5-对读取的数据进行分区,将数据拆分多份。

2024-04-22 21:59:28 441

原创 checkpoint机制

4-secondarynamenode将下载下来的fsimage载入到内存,然后一条一条地执行edits文件中的各项更新操作,使得内存中的fsimage保存最新,这个过程就是edits和fsimage文件合并,生成一个新的fsimage文件即上图中的Fsimage.ckpt文件。6-在NameNode节点的edits.new文件和Fsimage.ckpt文件会替换掉原来的edits文件和fsimage文件,至此刚好是一个轮回,即在NameNode中又是edits和fsimage文件。

2024-04-22 21:54:34 440

原创 HDFS数据读取流程

3、 这些返回的DN地址,会按照集群拓扑结构得出DataNode与客户端的距离,然后进行排序,排序两个规则:网络拓扑结构中距离Client近的排靠前;7、 读取完一个block都会进行checksum验证,如果读取DataNode时出现错误,客户端会通知NameNode,然后再从下一个拥有该block副本的DataNode继续读。2、 NameNode会视情况返回文件的部分或者全部block列表,对于每个block,NameNode都会返回含有该block副本的DataNode地址;

2024-04-22 21:46:40 312

原创 hdfs写入数据流程

6、 数据被分割成一个个packet数据包在pipeline上依次传输,在pipeline反方向上,逐个发送ack(命令正确应答),最终由pipeline中第一个DataNode节点A将pipeline ack发送给client;4、 client请求3台DataNode中的一台A上传数据(本质上是一个RPC调用,建立pipeline),A收到请求会继续调用B,然后B调用C,将整个pipeline建立完成,后逐级返回client;2、client请求第一个 block该传输到哪些DataNode服务器上;

2024-04-22 21:44:06 428

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除