- 博客(81)
- 资源 (2)
- 收藏
- 关注

原创 使用Llama3:8B大模型进行大数据治理:Hive SQL/Spark SQL中的临时表未删除检查
在大数据治理中,临时表的管理是优化资源利用和确保数据质量的关键环节。临时表通常用于存储会话期间生成的中间数据,理应在会话结束后自动删除。然而,由于各种原因,这些临时表可能未被及时清理,从而影响系统性能和数据整洁性。利用Llama3:8B这样的先进大模型,我们可以在Hive SQL或Spark SQL环境中有效检查当前会话中的未删除临时表,并以JSON格式返回相关信息。
2024-09-27 22:41:10
476
1

原创 如何设计基于小程序点击事件的爆款数据分析产品?
背景如何设计一个事件分析套件,可以进行基于事件的多维度分析,同时满足分析时圈人,并能够查看该人群的用户画像?然后分析了这套设计方案,底层需要什么样产品能力。设计思路感想能力提炼事件定义和管理能力指标定义和管理能力用户属性定义和管理能力维度定义和管理能力标签管理能力用户分群能力近似、精确计算能力支持多条件交叉并补筛选能力指标多维分析能力人群画像分析预置模版能力图形能力柱状图趋势堆积图趋势图交叉表饼图当前解决方案的效果问题可以选择的图表太少;没有强大图
2020-12-30 15:00:09
249

原创 数据分析流程分解~MAU空间探查分析 多角色协同图
致广大而尽精微,极高明而道中庸本文目的现在人人都在喊数字化,在企业数字化过程,需要分析一下本企业的线上线下的用户MAU的空间,很多同学认为实现这个是很简单的事情,但是真的是一个很简单的事情吗?这里面会涉及到哪些人和事?完成这项任务需要什么样的能力?本文先使用一张多角色的工作流程图,看一下完成一个企业的MAU空间分析,需要设计到哪里角色?当前的工作模式存在什么问题?现实很骨感,理想很丰满,只有对现实中的数据分析每个一个节点有令人发指的了解,才能知道怎么样去优化流程,怎么样去解决问题。这个图里面蕴含着大智
2020-12-28 10:58:34
422

原创 产品成长之路~ 产品的视角 读书笔记
《产品的视角》 读书笔记关于本书插入「表格」书名《产品的视角》作者后显慧读书的目的理解产品经理的思维模型和关键能力;制定计划逐步去学习这些能力;内容简介读书笔记至少为了自己安心读书,提高专注度。不求多,但求闻道、修身;RAC模型:认识产品-Recognize、还原产品-Analysis、创造产品-Creative.第五章 一年级产品经理:执行力驱动、产品感培养对入门的产品经理来说,执行力是最关键的,不要急于贡献自己的创造力和才华;解决问题、而不是制造
2020-12-09 09:30:09
409

原创 我理解的人生公式,复利效应和稻盛和夫公式结合
- 数学公司是一个思考工具,表达工具,而不是计算工具,我如何看待数学,如何去表达这个世界?如果看到这个世界的本质,其实数学是一种很好的表达方式; - 我一直认为数据是描述这个世界的工具,其实是思考工具,我们要使用这个方式去描述这个世界;正态分布是我们要去描述这个世界原始的分布,比如升高,28原则后面的本质是智慧,y=智慧,x=人,满足正态分布,智慧上侧代表是财富。所以我的理解是: - 
原创 2020读书笔记 之《好好学习》
《好好学习》 读书笔记关于本书插入「表格」书名《好好学习》作者陈甲书名《学习之道》作者芭芭拉*奥克利书名《穷查理宝典》作者查理*芒格读书的目的我最近看了很多提升认知方法的书籍,希望构建自己的读书方法论,从而可以构建自己认知方法论,在提升自己生命形成一套方法论;我想看看别人是怎么样去学习的,为什么我总是看不完一本书,或者我就是人家说的,“道理懂得很多,生活过的却很惨淡”;内容简介读书笔记至少为了自己安心读书,提高专注度。不求多,但求闻道、修身
2020-12-07 09:38:46
832

原创 什么是数据分析?数据分析概念如何推演?
什么是数据分析?如果从概念去推演什么是数据分析,数据分析的本质是什么?1.推演目的迷迷糊糊,每天都在做这件事,而没有去思考这件事件背后的定义和本质,走了很远的路,忘记了当初为什么出发,自己已经习惯性往前冲,忘记了为何而冲,为何而生,呜呼哀哉;生活如此,工作亦如此;不掌握分析本质,怎么样努力业务也是徒劳,原来人家指定的路,开始是一条阳光大道,但是慢慢经过演变,已经变成了崎岖野径;自己不知晓;2.推演结论数据有可能没有真实反应事物包含的信息,要批判性选择和相信数据;数据分析的前置条件是需要有
2020-12-03 09:38:19
1676

原创 增强分析之美
AI在分析领域的成功关键是什么?增强分析- 是这样一种方法,它结合了机器智能和人类感性经验去加速洞察,去挖掘新的或者没有预期到的发现,驱动任何角色和技术水平的用户都能够拥有数据探查能力。 强调了人工智能和人类的互动、视角结合才能才能获取价值。 具体的文档如下:右上角的这个跟形象: 参考:《How to Get Real Value from AI in Analytics》---qlik...
2020-05-22 11:41:46
277

原创 Flink SQL分析流量数据源码实战(EventTime)
package productimport java.sql.Timestampimport java.util.Propertiesimport Bean.RealTimeTrackerBeanimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.str...
2018-11-30 16:42:09
1952

原创 Python采集Yarn Queue信息
本文通过python代码调用Yarn restfull API ,将各队列的vcore和memory定时采集存储到TIDB,然后使用Apache Zeppelin JDBC读取数据,简单绘制vcore和memory使用率的趋势图。可以观察集群vcore和memory的分配情况,防止其中一项成为集群或者队列的性能瓶颈。一、python代码: import jsonimpo...
2018-11-20 19:47:15
2102

原创 使用Spark mlib Kmean算法分析网络数据(Hacker attack)
package apache.spark.mlib.rdd.kmeanclusteringimport org.apache.spark.ml.clustering.KMeansimport org.apache.spark.ml.feature.{StandardScaler, VectorAssembler}import org.apache.spark.sql.{Row, S...
2018-08-21 09:47:23
942

原创 使用Spark Mlib K-Means算法分析网络攻击数据
package apache.spark.mlib.rdd.kmeanclusteringimport org.apache.spark.ml.clustering.KMeansimport org.apache.spark.ml.feature.{StandardScaler, VectorAssembler}import org.apache.spark.sql.{Row, Spar...
2018-08-20 21:58:42
786

原创 给老板减刑系列之hadoop 安全缺陷分析之一:kerberos 的缺陷
最近看了Steve Loughran先生写的本书《Hadoop and Kerberos: The Madness Beyond the Gate》,幽默的写作风格幽默风趣,但是国内对大数据平台的安全考虑的文章的确较少,本系列文章主要是分析Hadoop安全现状和源码,个人能力有限,麻烦各位大神及时斧正。
2017-06-18 19:52:07
3110
3

原创 HDFS encryption 实战之背景和架构介绍
KMS背景在全世界,为零满足隐私和其他安全需求,很多政府部门、金融部门和管理单位强制要求数据加密。本文主要介绍了HDFS、KMS的概念和架构。
2017-04-12 14:18:59
2595

原创 HBase region is not online 问题修复
一年多没有搞HBase了,回想前年和营神一起的日子,~~~。今天同事遇到下面一个问题:hbase(main):002:0> get 'mynamespace:user_basic_info','BAC3510A922CF026500874EA3975E123'COLUMN CELL ERROR: org.apache.hadoop.hbase.NotServingRegionException:
2017-04-06 11:18:03
17321
2

原创 spark2.1.0 on yarn with CDH5.8.0 安装实战
Spark 版本发布很快,CDH集成最新Spark版本需要一定时间,并且CDH 集成的Spark版本不支持Spark-sql。本文档的目的在目前cdh平台集成最新spark,方便测试和使用最新功能。
2017-03-30 17:36:53
5638

原创 Docker 安装 TensorFlow GPU 实战
安装背景AI如雨后春笋般的出现,DEVOPS的理论不断深入。所有高大上的开源产品都支持两个环境:docker 和Linux。本文主要讲解怎么在一台安装了GPU的centos7 环境安装tensorflow docker镜像。国内就几个大厂的同学可以享受这种高级环境待遇,如果您有该环境建议尝试起来吧,毕竟AI可以让我们多一项skill。安装nvidia-dockernvidia 对docker进行了一
2017-03-27 11:55:01
25172

原创 Spark 1.6.3 thriftServer 支持 ldap 配置
hive-site.xml配置[idc_xudalei1@CDNDC-213128087 conf]$ cat hive-site.xml <?xml version="1.0" encoding="UTF-8"?><!--Autogenerated by Cloudera Manager--><configuration> <property> <name>hive.metas
2016-11-11 10:48:41
2193

原创 Spark 1.5.2 on yarn升级问题总结
Spark 1.4.0 standlone升级到Spark 1.5.2 on yarn问题总结
2016-04-15 15:33:39
5874

原创 Spark aggregator ExternalIterator 流程图
Spark aggregator ExternalIterator 流程图
2015-11-26 19:31:29
801

原创 Spark standlone driver on cluster 用户权限问题
Spark standlone 模式下面driver 提交到cluster,application 用户变成了spark 部署环境用户,这样会带来两个问题:a) 无法知道那个用户提交的任务;b) spark权限问题无法管理,比如读取Hive、HBase、HDFS数据的权限问题;本文提出一种简单的修改方法,让Spark standlone driver on cluster 模型下面读取数据权限问题可以解决。
2015-11-18 11:32:46
2977

原创 Spark 添加复用JDBC Schema功能
用户需要阅读大量相同的数据库表,比如相同schema的表有1000张(比如对mysql进行分表分库)需要全读,每次建立dataframe的时候需要通过jdbcrelation去读每一张表的schema,消耗了大量时间。本文对提出一种修改办法,如果用户知道表的sechema相同,可以使用sechema复用。
2015-11-18 11:19:29
2294

原创 Spark1.5.2 on Hadoop2.4.0 安装配置
一、 前言 本文简单介绍yarn安装,主要介绍spark1.5.2on yarn模式安装,仅供参考。 二、 yarn配置1. yarne.xmlyarne.xml需要添加的配置如下: yarn.nodemanager.aux-services mapreduce_
2015-11-18 10:38:21
1366

原创 Cassandra 表设计的通用原则
目前spark、storm都支持cassandra存储,cassandra重返nosql舞台,本文分享一些Cassandra 表设计的通用原则,希望对大家有用。
2014-12-25 09:58:04
4751

原创 cassandra cqlsh代码分析
cassandra2.0 推出了cqlsh2.0,提供了类似cql的功能。cqlsh 将查询消息发送给了thrift接口,然后后进行查询。文章分析了cqlsh Python脚本代码。后续文章会继续分析cassandra读写流程代码。
2014-08-26 11:07:17
2390

原创 hadoop Yarn distributedshell使用方法
[root@HDP02 hadoop-yarn]# hadoop org.apache.hadoop.yarn.applications.distributedshell.Client -jar hadoop-yarn-applications-distributedshell-2.4.0.2.1.1.0-385.jar -shell_script ./distributedshell
2014-05-05 18:53:19
3084
原创 反向传播算法(Backpropagation)
它的核心思想是通过计算损失函数关于网络参数的梯度,然后利用这些梯度来更新网络的权重和偏置,以此来最小化损失函数。其中,( w_{new} ) 是更新后的权重,( w_{old} ) 是旧的权重,( \eta ) 是学习率,( \frac{\partial L}{\partial w} ) 是损失函数关于权重的梯度。其中,( a ) 是神经元的输出,( f ) 是激活函数,( w_i ) 是权重,( x_i ) 是输入,( b ) 是偏置,( n ) 是输入的数量。这个过程涉及到权重的应用和激活函数的计算。
2024-10-17 21:14:49
936
原创 反向传播算法与随机搜索算法的比较
在这篇文章中,我们将通过一个简单的线性回归问题来比较反向传播算法和随机搜索算法的性能。我们将使用Python代码来实现这两种算法,并可视化它们的梯度下降过程。
2024-10-17 21:07:50
725
原创 人生的几种思维
1)原因Spark standlone 模式下面driver 提交到cluster,application 用户变成了spark 部署环境用户,这样会带来两个问题:a)无法知道那个用户提交的任务;b)spark权限问题无法管理,比如读取Hive、HBase、HDFS数据的权限问题;2)代码流程3)修改方法 原理上面需要从c
2021-12-13 09:01:13
177
原创 情景分析是什么?我们该如何去理解这个概念?
图片主要参考了这个视频,感谢这位小姐姐的贡献。https://www.bilibili.com/video/av370705348/研究目的了解什么是情景分析? 判断这个分析是否有借鉴的地方?亮剑里面有这么一段,我认为的情景分析:丁伟的毕业论文题目是《论我国国土的防御重点》,熟悉历史的朋友清楚,当时我国和苏联是兄弟国家,苏联正在大力扶持我国的工业。但是国与国没有永恒的朋友,只有永恒的利益,丁伟创造性的把苏联想象成可以对我国构成威胁的c国,并提出防御的必要性和防御方法,他的论...
2020-12-07 21:36:12
3772
原创 无监督学习之异常值检测算法~Isolation Forest
在数据分析领域,指标的突然上涨或者下降 是一个异常行为 ,这两种情况都值得我们去关注。如果我们标注了这些事异常点,可以使用监督学习去检测异常点。但是没在在没有业务反馈的时候,我们河南去定义这些异常点,也就是说训练样本需要需标注。这样我们可以选择无监督学习的方法,比如Isolation Forest,One class SVM and LSTM。本文主要记录了Isolation Forest的使用方法。相关文章:https://towardsdatascience.com/anomaly-detect
2020-12-07 14:46:00
868
原创 Java ExecutorService 实现队列消费
package MultiThread;import java.util.ArrayList;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;public class ListExample { private static ArrayList<Stri...
2019-03-12 14:05:42
1170
eb-qlik-ebook-beyond-the-ai-hype-en.pdf
2020-05-22
Packet Capture
2013-10-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人