- 博客(66)
- 资源 (1)
- 收藏
- 关注
原创 让数据中台“飞“起来— Quick BI性能优化解决方案及实践
摘要:本文基于某婴幼配粉企业数据中台优化案例,分析了QuickBI数据门户的性能问题及优化方案。该企业采用Dataphin+ADB+QuickBI架构,但因运维不足导致体验不佳。优化重点包括:通过ADB表结构优化(调整分区策略)和QuickBI数据集固化(复杂SQL下沉)提升性能;制定开发规范(限制自定义SQL复杂度、优化表关联);升级系统版本支持数据缓存;实施压测验证(目标20QPS)。最终使系统支持100用户并发,并为后续推广预留资源。文章总结了数据中台建设中性能调优的方法论,强调前期规范制定与持续监控
2025-07-12 09:55:52
667
原创 《深度解析:智能体集群及自主识别在现代开发中的应用与优化》
智能体集群与自主识别技术的应用及优化 摘要:本文探讨了智能体集群和自主识别技术在现代开发中的广泛应用。在智能体集群方面,多智能体强化学习算法被应用于无人系统、智能电网、智能制造和智能交通等领域,实现协同控制和任务优化。自主识别技术则在智能安防、客服和医疗诊断中发挥重要作用。文章详细介绍了基于强化学习的多智能体系统实现自主识别的代码框架,包括堆栈式自编码器、分类器和强化学习智能体的设计。同时指出了当前面临的技术挑战,并对未来在智能城市、农业等领域的发展方向进行了展望。随着算法和硬件技术的进步,这些技术有望在更
2025-07-08 10:49:23
756
原创 财务数据治理: 核心内容与实施路径
财务数据治理是企业数据治理战略在财务领域的具体实践,涵盖数据从产生到消亡的全生命周期管理, 确保财务数据的质量、安全、合规和高效利用。1.四大核心内容:质量、安全、标准、生命周期2.系统化实施框架:组织、政策、技术、文化3.结构化实施步骤:规划、执行、监控、优化4.遵循国家标准GB/T 44109-2024指导
2025-07-08 10:16:58
559
原创 乳制品行业如何构建ChatBI能力?有哪些准备?
在夯实数据基础之后,清晰、统一的指标定义是确保ChatBI能够被业务人员有效理解和使用的关键。指标是衡量业务表现、发现问题、支持决策的核心工具。在乳制品行业,需要根据其特定的业务需求,建立一套完整的、标准化的指标体系。这套体系应覆盖从奶源到消费者手中的整个价值链。例如,在奶源环节,可以定义原奶的安全可追溯指标,如原奶的合格率、抗生素残留检测合格率、供应商评估等级等。在生产环节,可以定义设备的故障风险指标,如关键设备的平均无故障时间(MTBF)、平均修复时间(MTTR)、设备综合效率(OEE)等;以及。
2025-07-07 15:03:27
856
原创 如何构建高效数据中台体系
数据中台体系构建摘要 数据中台体系构建的核心在于主题设计、流程设计、业务指标、标准设计、模型设计和指标设计六大组件的协同配合。主题设计采用分层结构(主题域分组、主题域、业务对象)将数据按业务逻辑分类组织;流程设计刻画业务活动脉络;业务指标量化业务表现;标准设计保障数据质量;模型设计构建稳健架构;指标设计细化数据度量。这些组件相互关联,共同实现提升数据质量、增强一致性、赋能业务决策、促进资产价值化和保障稳定运行的目标。主题设计尤其关键,通过业务驱动的视角组织数据,为整个数据中台提供结构化基础。
2025-07-07 13:48:30
939
原创 PyArrow 和 Parquet 的组合通过内存优化和高效存储,显著提升大数据处理的性能
**Apache Arrow 实现**:PyArrow 是 Arrow 的 Python 库,提供跨语言的内存数据结构,支持零拷贝数据共享,提升数据处理速度。- **高效计算**:内置计算函数(如过滤、聚合),可直接在 Arrow 内存数据上操作,避免转换为 Pandas 的开销。- **压缩与编码**:高效的压缩算法(如 Snappy、GZIP)和编码方式(如字典编码),降低存储成本。- **嵌套数据**:PyArrow 支持 Parquet 的嵌套结构,但需注意转换时的数据类型匹配。
2025-03-25 13:11:39
591
原创 一文理清:阿里系数据中台-数据治理工具集(傻傻也能分清楚)
数仓全链路:DataWorks(开发) + MaxCompute(存储计算) + Dataphin(治理) + Quick BI(可视化)。实时分析:ADB为核心,结合DataWorks数据同步。开源需求:优先选择EMR,搭配DataWorks管理任务。根据具体场景选择组合,可参考阿里云官方文档或社区案例进一步优化方案。
2025-03-11 10:45:23
952
原创 一文理清概念:数据中台(DMP)-数据仓库(DW)-数据湖(DL)-湖仓一体-数据治理(DG)
一种面向主题的、集成的、稳定的数据存储系统,用于支持企业决策分析(如BI、报表)。数据通常经过ETL(抽取、转换、加载)处理,以结构化形式存储,采用。
2025-03-10 22:02:12
1253
原创 GPT从入门到精通 之 GPT-2 模型进阶
在之前的文章中,我们已经介绍了如何在 Tensorflow2.x 环境中使用 GPT 模型进行文本生成。本篇文章中,我们将进一步讨论 GPT-2 模型的进阶应用,包括如何使用预训练模型和微调模型来提高模型的质量和效果。GPT-2 模型是 GPT 模型的升级版,它利用了更多的数据和更强的计算能力进行训练,进而取得了更好的效果。GPT-2 模型使用了 transformer 模型架构,该架构由多个 transformer 模型组成。
2023-06-08 15:36:51
2446
原创 GPT从入门到精通之 如何使用 GPT 模型进行文本生成
Tensorflow2.x 和 Transformers 库:Tensorflow2.x 是一种深度学习框架,而 Transformers 库是用于构建和使用自然语言处理模型的 Python 库。GPT 模型是一种自然语言处理的技术,在文本生成等任务中表现出了非常优秀的效果。Tokenizer:GPT 模型需要接受文本输入,您需要使用 GPT2Tokenizer 类将文本转换为模型可用的标记。GPT 模型:GPT 模型是预训练模型,您可以在 Transformers 库中找到和下载相应的模型。
2023-06-08 15:15:06
2835
原创 GPT从入门到精通之 Tensorflow2.x 中如何使用 GPT 模型
在本篇文章中,我们将详细介绍如何使用 Tensorflow2.x 构建并使用 GPT 模型。在这个示例中,我们首先使用 GPT2Tokenizer 将输入的文本编码为 ID,然后使用 TFGPT2Model 将编码的 ID 传递给模型进行学习。首先,我们需要安装 Tensorflow2.x 和 Transformers 库(该库是一个用于构建和使用自然语言处理模型的 Python 库)。在安装完成 Tensorflow2.x 和 Transformers 库之后,我们需要配置 GPT 模型的参数。
2023-06-08 15:02:25
1160
1
原创 GPT从入门到精通之 GPT 模型入门及原理介绍
敏捷开发,在国内逐步兴起,不管什么公司都追求开发模型的更新跟进。敏捷开发从传统零售,到银行,药企都掀起了一波浪潮。那面对不同行业,不同公司的不同风格,敏捷开发出现了本地化的适配。不过最终的目标是一致的,追求快速迭代,小步快跑,适应市场需求。针对敏捷开放,需要提高效率,所以来记录下高效实战经验。关于测试部分,敏捷开放是怎样的流程呢?第一步:定制效率工具的流程第二部:跟进US边界User case第三步:提交测试计划第四步:进行测试,所有问题直接提交给负责人来处理修复第五步:未完成修
2023-06-08 14:58:22
4514
原创 AI图像(AIGC for PIC)大模型实战|Stable Diffusion
Stable diffusion:V1.4/v1.5/v2.0/v2.1都是大模型,泛化性通用性好,大模型自带VAE模型,不额外挂在。那针对目前火爆的AImodel我们开始进行学习,尝试本地化部署,生成自己的模型。pruned:剪枝模型,存储小,效率搞,优化后的神经网络。什么时大模型/底模型,VAE模型和微调模型/fune tuning。: 模型是某一特定训练后保存参数的模型,某一阶段的模型版本。:在大模型基础山的微调模型,可选的,可以特定生产图像。pickletensor以。safetensor.以。
2023-04-03 18:36:19
3660
原创 因果推断-学习入门路径
由于普通的AI(神经网络)只能预测相关性,不能判断因果,这会严重限制模型的用途。因此向大家隆重推荐以下的文章和包,用于【因果推断】的场景
2022-08-16 13:48:20
771
原创 敏捷开发改进优化 之 测试work way
敏捷开发,在国内逐步兴起,不管什么公司都追求开发模型的更新跟进。敏捷开发从传统零售,到银行,药企都掀起了一波浪潮。那面对不同行业,不同公司的不同风格,敏捷开发出现了本地化的适配。不过最终的目标是一致的,追求快速迭代,小步快跑,适应市场需求。针对敏捷开放,需要提高效率,所以来记录下高效实战经验。关于测试部分,敏捷开放是怎样的流程呢?第一步:定制效率工具的流程第二部:跟进US边界User case第三步:提交测试计划第四步:进行测试,所有问题直接提交给负责人来处理修复第五步:未完成修
2022-04-06 13:31:32
345
原创 [数理工程学] 梅花易数-[宋]邵雍 宋抄本影印
《梅花易数》是中国古代占卜法之一。现在的梅花心易就是梅花易数的别称。相传为宋代易学家邵雍所著,梅花易数起源于汉易,是一部以易学中的数学为基础,结合易学中的“象学”进行占卜的书,相传邵雍运用时每卦必中,屡试不爽。梅花易数依先天八卦数理,即乾一,兑二,离三,震四,巽五,坎六,艮七,坤八,随时随地皆可起卦,取卦方式多种多样。...
2022-03-25 14:46:06
1189
转载 CVA考试解答与交流社区
CVA考试解答与交流社区1.问:CVA考试是什么形式?考试时间多久?怎么报名?2.问:请问两个阶段有什么区别?是什么意思3.问:全日制在校学生报名付款时怎么证明学生身份?4.问:CVA考试有培训机构么?5.问:成为持证人之后,必须缴纳会费么?6.问:CVA考试的难易程度在什么水平呢7.问:考试报名后,有考生互相交流的群吗?8.问:CVA证书的含金量是什么?9.问:CVA考试需要复习多长时间?10.问:请问Excel案例建模这个科目怎么来复习?11.问:如果报名考试时是全日制在校学生并取得学生优惠,到考试日时
2021-04-08 17:01:40
3511
翻译 推荐系统-协同过滤之电影推荐
IntroductionThis example demonstratesCollaborative filteringusing theMovielens dataset(https://www.kaggle.com/c/movielens-100k)to recommend movies to users. The MovieLens ratings dataset lists the ratings given by a set of users to a set of movies...
2020-06-13 16:28:50
982
转载 如何利用网络技术赚钱的
How To Make Money, Using Web ScrapingI’m going to show you 3 unique ways to make money, using Web ScrapingChristopher ZitaFeb 10·7min readDid you know what your reading right now is data. It may just seem like a few words to you but on the ba...
2020-05-27 21:17:57
908
原创 Git使用教程(Step By Step)[核心问题解决了,其他都没问题]
1、git如何安装自行百度2、基本命令1.把独立工程代码合入已建立gitlab工程中 git clone http://dsfdsdidsafd.com:8080.git 工程到本地 cp需要上传到代码到clone的目录 git checkout branch 切换分支 git status 查看当前分支 git add ./[needtouploadCode] 添加所需要合入的代码 git commit -m "This is the cod
2020-05-19 13:24:53
441
原创 下载文件保存excel,纯数字超17位会被转成科学记述发之解决
问题描述:将数据导出为excel时,对于文本字符,就要前面加上单引号,但是如果让这个单引号在excel中不显示呢?------------------------------------------------对于身份证这样的长数字串,如果导出excel时,前面不加单引号,则用excel软件打开时,会成为科学计数法。所以必须要加上单引号才行。但是问题是,这个单引号,会显示出来。很不好看...
2019-10-15 13:47:46
807
原创 主流数据库解释MySQL、Postgres、Oracle、SQL server、DB2、Teradata、Netezza、Hive、Hbase 、MongoDB
Mysql 不解释了PostgresPostgreSQL是一种特性非常齐全的自由软件的对象-关系型数据库管理系统(ORDBMS),是以加州大学计算机系开发的POSTGRES0.索引方面,全面支持R-/R+tree索引、哈希索引、反向素引、部分素引、Expression 索引、GiST、GIN(用来加速全文检索),从8.3版本开始支持位图索引。1.其他对...
2019-07-11 11:20:25
2915
1
原创 (2019)Git常用命令总结
Git命令fromhttps://github.com/joshnh/bash_profile/blob/master/.bash_profile--初始化和创建工程命令命令 说明 git init 初始化本地 Git仓库 git clone ssh://git@github.com/[username]/[repository-name].git ...
2019-04-02 21:54:13
448
1
原创 Apache atlas 元数据管理系统编译过程
编译准备:1.安装jdk-1.8 配置环境变量2.安装maven 3.0 下载到 /opt/maven/apache-maven-3.5.4-bin.tar.gz 解压maven:cd /opt/maven && tar -zxvf apache-maven-3.5.4-bin.tar.gz 新建软链:ln -s /opt/maven/apa...
2018-12-14 19:07:07
2355
7
原创 虚拟机网络连接方式或parallels Desktop
MAC上Parallel Desktop工具的网络连接模式虚拟机可以设置三种不同的网络连接模式:1.共享网络(Shared Network)2.桥接网络(Bridged Network)3.仅主机模式(host-only Network)切换模式时要在虚拟机关机情况下,在设置菜单Devices menu > Network下面介绍下三种网络方式:共享网络:...
2018-12-13 21:52:49
19440
3
转载 【2018Update_0803】 2机器学习、自然语言处理相关教程机器学习研究会
Over 200 of the Best Machine Learning, NLP, and Python Tutorials — 2018 Edition本文包含了迄今为止我发现的最好的一些教程内容。它绝不是网上每个ML相关教程的简单详尽列表(这个工作量无疑是十分巨大而又枯燥重复的),而是经过详细筛选后的结果。我的目标就是将我在机器学习和自然语言处理领域各个方面找到的我认为最好的教程整...
2018-08-20 14:57:22
782
原创 shell基于日常工作需要 【黏贴即用】
需要转义的字符awkA.按照“|”切分,并输出指定列数的行的第一个字段B.print 输出用 $+数字,索引字段,一个print 可紧跟多个字段输出C.带if语句判断符合条件字段输出,注意:小心勿用 = ,否则显示的数据是被替换的D.awk切分后输出,并以新的分隔符输出sortA.找第三字段为某值时,并按照第五字段排序,唯一输出:B.以“|”切分,第一字段>=10,然后输出第二字段,并排序去...
2018-06-06 16:54:44
569
转载 学习数据科学的本质--资源路径
如果用一个句子总结学习数据科学的本质,那就是: 学习数据科学的最佳方法就是应用数据科学。 如果你是一个初学者,你每完成一个新项目后自身能力都会有极大的提高,如果你是一个有经验的数据科学专家,你已经知道这里所蕴含的价值。 本文将为您提供一个网站/资源列表,从中你可以使用数据来完成你自己的数据项目,甚至创造你自己的产品。 一.如何使用这些资源?如何使用这些数据源是没
2018-03-09 17:20:27
1003
转载 CDD之管理层访谈
(1) 什么是管理层访谈?商业尽职调查中最有价值的信息来源莫过于管理层访谈。通过管理层访谈可以获取公开披露以外的信息,了解到部门问的权力博弈对公司决策产生怎样影响,或者体会到对人才培育产生直接影响的企业文化等。诚然,整个调查过程中,会涉及从管理层到基层员工的各种访谈。但是,在抱有“收购”等于“强占”观点的企业中,访谈过程自始至终都是以敌意态度面对代表收购方的调研人员的管理者不在少数。这种情况下,要...
2018-03-08 17:08:39
2366
翻译 【Data Sciencs】不同迁移率下的迁移学习
Transfer Learning using differential learning ratesIn this post, I will be sharing how one can use popular deep learning models for their own specific task using transfer learning. We will cover some ...
2018-02-08 14:59:23
734
原创 Visual Studio CodeV与 github 构建本地阅读仓库
1.VSCode 介绍Visual Studio Code (简称 VS Code / VSC) 是一款免费开源的现代化轻量级代码编辑器,支持几乎所有主流的开发语言的语法高亮、智能代码补全、自定义热键、括号匹配、代码片段、代码对比 Diff、GIT 等特性,支持插件扩展,并针对网页开发和云端应用开发做了优化。软件跨平台支持 Win、Mac 以及 Linux,运行流畅,可谓是微软的良心之作……2.V...
2018-02-08 11:52:46
2171
原创 【Data Science 之 基本软硬实力】Google,Facebook的数据科学家应该具备哪些软硬技能
A data scientist is better statistician than any software engineer and better engineer as compared to any statistician. Data scientist is termed to be the “sexiest job of the 21st century. Let’s discu...
2018-02-08 11:43:54
918
原创 【基础算法--java】字符串分割封装算法
java字符串分割的封装算法: package com.hadoop.ot.util;import java.security.MessageDigest;import java.util.ArrayList;import java.util.List;import com.hadoop.plat.util.SplitValueBuilder;/** */publ
2018-02-07 14:53:59
627
原创 【Data Science之BA Tools】power bi
Power BI是微软最新的商业智能(BI)概念,它包含了一系列的组件和工具。话不多说,先上图:<img src="https://pic4.zhimg.com/50/3c62b6d0810117ac863dc344b2e5ac7f_hd.jpg" data-rawwidth="1443" data-rawheight="736&qu
2018-02-05 10:35:32
488
原创 【基础学习--数据结构】java中注释规范
一、Java 中注释规范1、类注释在每个类前面必须加上类注释,注释模板如下:/*** Copyright (C), 2006-2010, ChengDu Lovo info. Co., Ltd.* FileName: Test.java* 类的详细说明** @author 类创建者姓名* @Date 创建日期* @version 1.00*/2、属
2018-02-01 17:31:42
411
原创 “够用就好”的Linux命令快速教程
Different operating systems have long catered to different audiences: Windows for the business professional, Mac for the creative professional and Linux for the software developer. For OS providers, t
2017-11-22 17:52:48
688
原创 数据科学家的修行之路---基本功
基本功今天开始周一三五更新数据科学家修行之路第一篇:基本功基本工具的介绍基本工具的使用基本工具的workflow内容大致入下:ScikitsNumpyMatplotlibScipyPythonCypthonIPython
2017-05-08 10:37:37
2573
2023 New book: 数据Mesh挖掘领域新书实战
2023-03-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人