笛香幽谷-优快云博客

原创使用Llama3:8B大模型进行大数据治理：Hive SQL/Spark SQL中的临时表未删除检查

在大数据治理中，临时表的管理是优化资源利用和确保数据质量的关键环节。临时表通常用于存储会话期间生成的中间数据，理应在会话结束后自动删除。然而，由于各种原因，这些临时表可能未被及时清理，从而影响系统性能和数据整洁性。利用Llama3:8B这样的先进大模型，我们可以在Hive SQL或Spark SQL环境中有效检查当前会话中的未删除临时表，并以JSON格式返回相关信息。

2024-09-27 22:41:10 637 1

原创大模型chatgpt4分析功能初探

本是使用chatgpt4高级数据分析功能，对数据进行深度挖掘

2023-09-22 17:49:00 1083

背景如何设计一个事件分析套件，可以进行基于事件的多维度分析，同时满足分析时圈人，并能够查看该人群的用户画像？然后分析了这套设计方案，底层需要什么样产品能力。设计思路感想能力提炼事件定义和管理能力指标定义和管理能力用户属性定义和管理能力维度定义和管理能力标签管理能力用户分群能力近似、精确计算能力支持多条件交叉并补筛选能力指标多维分析能力人群画像分析预置模版能力图形能力柱状图趋势堆积图趋势图交叉表饼图当前解决方案的效果问题可以选择的图表太少；没有强大图

2020-12-30 15:00:09 304

原创数据分析流程分解～MAU空间探查分析多角色协同图

致广大而尽精微，极高明而道中庸本文目的现在人人都在喊数字化，在企业数字化过程，需要分析一下本企业的线上线下的用户MAU的空间，很多同学认为实现这个是很简单的事情，但是真的是一个很简单的事情吗？这里面会涉及到哪些人和事？完成这项任务需要什么样的能力？本文先使用一张多角色的工作流程图，看一下完成一个企业的MAU空间分析，需要设计到哪里角色？当前的工作模式存在什么问题？现实很骨感，理想很丰满，只有对现实中的数据分析每个一个节点有令人发指的了解，才能知道怎么样去优化流程，怎么样去解决问题。这个图里面蕴含着大智

2020-12-28 10:58:34 509

原创产品成长之路～产品的视角读书笔记

《产品的视角》读书笔记关于本书插入「表格」书名《产品的视角》作者后显慧读书的目的理解产品经理的思维模型和关键能力；制定计划逐步去学习这些能力；内容简介读书笔记至少为了自己安心读书，提高专注度。不求多，但求闻道、修身；RAC模型：认识产品-Recognize、还原产品-Analysis、创造产品-Creative.第五章一年级产品经理：执行力驱动、产品感培养对入门的产品经理来说，执行力是最关键的，不要急于贡献自己的创造力和才华；解决问题、而不是制造

2020-12-09 09:30:09 461

原创我理解的人生公式，复利效应和稻盛和夫公式结合

- 数学公司是一个思考工具，表达工具，而不是计算工具，我如何看待数学，如何去表达这个世界？如果看到这个世界的本质，其实数学是一种很好的表达方式； - 我一直认为数据是描述这个世界的工具，其实是思考工具，我们要使用这个方式去描述这个世界；正态分布是我们要去描述这个世界原始的分布，比如升高，28原则后面的本质是智慧，y=智慧，x=人，满足正态分布，智慧上侧代表是财富。所以我的理解是： - ![在这里插入图片描述](https://img-blog.csdnimg.cn/2020...

2020-12-07 10:43:15 895

原创 2020读书笔记之《好好学习》

《好好学习》读书笔记关于本书插入「表格」书名《好好学习》作者陈甲书名《学习之道》作者芭芭拉*奥克利书名《穷查理宝典》作者查理*芒格读书的目的我最近看了很多提升认知方法的书籍，希望构建自己的读书方法论，从而可以构建自己认知方法论，在提升自己生命形成一套方法论；我想看看别人是怎么样去学习的，为什么我总是看不完一本书，或者我就是人家说的，“道理懂得很多，生活过的却很惨淡”；内容简介读书笔记至少为了自己安心读书，提高专注度。不求多，但求闻道、修身

2020-12-07 09:38:46 902

原创什么是数据分析？数据分析概念如何推演？

什么是数据分析？如果从概念去推演什么是数据分析，数据分析的本质是什么？1.推演目的迷迷糊糊，每天都在做这件事，而没有去思考这件事件背后的定义和本质，走了很远的路，忘记了当初为什么出发，自己已经习惯性往前冲，忘记了为何而冲，为何而生，呜呼哀哉；生活如此，工作亦如此；不掌握分析本质，怎么样努力业务也是徒劳，原来人家指定的路，开始是一条阳光大道，但是慢慢经过演变，已经变成了崎岖野径；自己不知晓；2.推演结论数据有可能没有真实反应事物包含的信息，要批判性选择和相信数据；数据分析的前置条件是需要有

2020-12-03 09:38:19 1798

原创增强分析之美

AI在分析领域的成功关键是什么？增强分析- 是这样一种方法，它结合了机器智能和人类感性经验去加速洞察，去挖掘新的或者没有预期到的发现，驱动任何角色和技术水平的用户都能够拥有数据探查能力。强调了人工智能和人类的互动、视角结合才能才能获取价值。具体的文档如下：右上角的这个跟形象：参考：《How to Get Real Value from AI in Analytics》---qlik...

2020-05-22 11:41:46 301

原创 Flink SQL分析流量数据源码实战(EventTime)

package productimport java.sql.Timestampimport java.util.Propertiesimport Bean.RealTimeTrackerBeanimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.str...

2018-11-30 16:42:09 1983

原创 Python采集Yarn Queue信息

本文通过python代码调用Yarn restfull API ，将各队列的vcore和memory定时采集存储到TIDB，然后使用Apache Zeppelin JDBC读取数据，简单绘制vcore和memory使用率的趋势图。可以观察集群vcore和memory的分配情况，防止其中一项成为集群或者队列的性能瓶颈。一、python代码： import jsonimpo...

2018-11-20 19:47:15 2173

原创使用Spark mlib Kmean算法分析网络数据(Hacker attack)

package apache.spark.mlib.rdd.kmeanclusteringimport org.apache.spark.ml.clustering.KMeansimport org.apache.spark.ml.feature.{StandardScaler, VectorAssembler}import org.apache.spark.sql.{Row, S...

2018-08-21 09:47:23 983

原创使用Spark Mlib K-Means算法分析网络攻击数据

package apache.spark.mlib.rdd.kmeanclusteringimport org.apache.spark.ml.clustering.KMeansimport org.apache.spark.ml.feature.{StandardScaler, VectorAssembler}import org.apache.spark.sql.{Row, Spar...

2018-08-20 21:58:42 820

原创给老板减刑系列之hadoop 安全缺陷分析之一：kerberos 的缺陷

最近看了Steve Loughran先生写的本书《Hadoop and Kerberos: The Madness Beyond the Gate》，幽默的写作风格幽默风趣，但是国内对大数据平台的安全考虑的文章的确较少，本系列文章主要是分析Hadoop安全现状和源码，个人能力有限，麻烦各位大神及时斧正。

2017-06-18 19:52:07 3185 3

原创 HDFS encryption 实战之背景和架构介绍

KMS背景在全世界，为零满足隐私和其他安全需求，很多政府部门、金融部门和管理单位强制要求数据加密。本文主要介绍了HDFS、KMS的概念和架构。

2017-04-12 14:18:59 2647

原创 CDH5.7.1 Hadoop2.6 HDFS Encryption KMS 实战之功能测试

hdfs、kms、hadoop、CDH

2017-04-11 16:41:53 2899

原创 HBase region is not online 问题修复

一年多没有搞HBase了，回想前年和营神一起的日子，～～～。今天同事遇到下面一个问题：hbase(main):002:0> get 'mynamespace:user_basic_info','BAC3510A922CF026500874EA3975E123'COLUMN CELL ERROR: org.apache.hadoop.hbase.NotServingRegionException:

2017-04-06 11:18:03 17429 2

原创 spark2.1.0 on yarn with CDH5.8.0 安装实战

Spark 版本发布很快，CDH集成最新Spark版本需要一定时间，并且CDH 集成的Spark版本不支持Spark-sql。本文档的目的在目前cdh平台集成最新spark，方便测试和使用最新功能。

2017-03-30 17:36:53 5694

原创 Docker 安装 TensorFlow GPU 实战

安装背景AI如雨后春笋般的出现，DEVOPS的理论不断深入。所有高大上的开源产品都支持两个环境：docker 和Linux。本文主要讲解怎么在一台安装了GPU的centos7 环境安装tensorflow docker镜像。国内就几个大厂的同学可以享受这种高级环境待遇，如果您有该环境建议尝试起来吧，毕竟AI可以让我们多一项skill。安装nvidia-dockernvidia 对docker进行了一

2017-03-27 11:55:01 25333

原创 CDH Gateway docker实战

将CDH gateway 安装到docker里面。

2017-01-24 11:45:13 4157 1

原创 Spark 1.6.3 thriftServer 支持 ldap 配置

hive-site.xml配置[idc_xudalei1@CDNDC-213128087 conf]$ cat hive-site.xml <?xml version="1.0" encoding="UTF-8"?><configuration> <property> <name>hive.metas

2016-11-11 10:48:41 2254

原创 centos7+kvm + bond + bridge 搭建方法

centos7+kvm + bond + bridge 搭建方法

2016-08-27 23:39:44 5980

原创 Spark 1.5.2 on yarn升级问题总结

Spark 1.4.0 standlone升级到Spark 1.5.2 on yarn问题总结

2016-04-15 15:33:39 5961

原创 Spark aggregator ExternalIterator 流程图

Spark aggregator ExternalIterator 流程图

2015-11-26 19:31:29 822

原创 Spark standlone driver on cluster 用户权限问题

Spark standlone 模式下面driver 提交到cluster，application 用户变成了spark 部署环境用户，这样会带来两个问题：a) 无法知道那个用户提交的任务；b) spark权限问题无法管理，比如读取Hive、HBase、HDFS数据的权限问题；本文提出一种简单的修改方法，让Spark standlone driver on cluster 模型下面读取数据权限问题可以解决。

2015-11-18 11:32:46 3055

原创 Spark 添加复用JDBC Schema功能

用户需要阅读大量相同的数据库表，比如相同schema的表有1000张（比如对mysql进行分表分库）需要全读，每次建立dataframe的时候需要通过jdbcrelation去读每一张表的schema，消耗了大量时间。本文对提出一种修改办法，如果用户知道表的sechema相同，可以使用sechema复用。

2015-11-18 11:19:29 2356

原创 Spark1.5.2 on Hadoop2.4.0 安装配置

一、前言本文简单介绍yarn安装，主要介绍spark1.5.2on yarn模式安装，仅供参考。二、 yarn配置1. yarne.xmlyarne.xml需要添加的配置如下： yarn.nodemanager.aux-services mapreduce_

2015-11-18 10:38:21 1411

原创 HDFS HA切换后missing block问题分析

HDFS HA切换后missing block问题分析

2015-05-31 21:03:31 6867 1

原创 Cassandra 表设计的通用原则

目前spark、storm都支持cassandra存储，cassandra重返nosql舞台，本文分享一些Cassandra 表设计的通用原则，希望对大家有用。

2014-12-25 09:58:04 4821

原创 Cassandra 数据模型设计总结

结合前段时间团队使用Cassandra使用过程，简单总结了模式设计，请大家斧正。

2014-12-18 18:37:52 6369

原创 cassandra cqlsh代码分析

cassandra2.0 推出了cqlsh2.0，提供了类似cql的功能。cqlsh 将查询消息发送给了thrift接口，然后后进行查询。文章分析了cqlsh Python脚本代码。后续文章会继续分析cassandra读写流程代码。

2014-08-26 11:07:17 2422

原创 spark单机版搭建记录

关闭防火墙service iptables stop && chkconfig iptables off

2014-06-25 13:12:33 2262

原创 hadoop Yarn distributedshell使用方法

[root@HDP02 hadoop-yarn]# hadoop org.apache.hadoop.yarn.applications.distributedshell.Client -jar hadoop-yarn-applications-distributedshell-2.4.0.2.1.1.0-385.jar -shell_script ./distributedshell

2014-05-05 18:53:19 3163

原创货物embedding 文本向量

本文提出了一个货运数据智能处理的技术方案，核心包括：1）数据预处理流程，标准化货运描述并清洗异常值；2）基于text-embedding-v3模型生成64-1536维向量；3）批处理优化，通过流式处理和缓冲机制提升效率。架构设计支持多云服务，并实现性能监控系统。业务应用涵盖智能货物匹配和路径优化，测试数据显示64维向量在准确率（91.2%）和效率（426秒处理10万条数据）间取得平衡。错误重试机制将失败率从8.7%降至0.3%，验证了方案的可靠性。

2025-05-28 15:52:12 349

原创反向传播算法（Backpropagation）

它的核心思想是通过计算损失函数关于网络参数的梯度，然后利用这些梯度来更新网络的权重和偏置，以此来最小化损失函数。其中，( w_{new} ) 是更新后的权重，( w_{old} ) 是旧的权重，( \eta ) 是学习率，( \frac{\partial L}{\partial w} ) 是损失函数关于权重的梯度。其中，( a ) 是神经元的输出，( f ) 是激活函数，( w_i ) 是权重，( x_i ) 是输入，( b ) 是偏置，( n ) 是输入的数量。这个过程涉及到权重的应用和激活函数的计算。

2024-10-17 21:14:49 1220

美团大数据，下载试试实时搜索

Packet Capture

eb-qlik-ebook-beyond-the-ai-hype-en.pdf

空空如也