
数据分析&大模型
文章平均质量分 92
本专栏是作者亲自备考CDA二级,CDA三级的笔记。
二级以认证教材《商业策略数据分析》为基础,作者亲自实践。记录了过程中遇到的各种问题,并提供解决方法。三级以最新大纲和题库为出发点,作者深度挖掘和还原考点知识背景,力争为读者提供三级复习资料。
优惠券已抵扣
余额抵扣
还需支付
¥39.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
ErbaoLiu
计算数学 本硕
展开
-
Transformer深度解析
Transformer由谷歌团队的Vaswani等人在2017年在论文中首次被提出。Transformer是基于自注意力机制的神经网络模型,用于处理序列数据。相比于传统的循环神经网络模型(RNN),Transformer模型具有更好的并行性能和更短的训练时间,因此在自然语言处理领域中得到了广泛应用。Transformer模型的TensorFlow实现可以作为包的一部分。哈佛大学的NLP小组创建了一个,用PyTorch实现了这篇论文。原创 2020-04-19 21:51:18 · 1155 阅读 · 1 评论 -
第7章-使用统计方法进行变量有效性测试-7.5.4-模型评估
准确率(Accuracy)是指分类正确的样本数占总体样本数的比例,即从混淆矩阵来看,行总(TP)TP+FN(TN)FP+TN列总TP+FPFN+TN对角线元素之和即为分类正确的样本数,所有元素之和即为样本总数,也就是精准率(Precision或者Positive Predictive Value)是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。从混淆矩阵来看,行总(TP)TP+FN(TN)FP+TN列总TP+FPFN+TN。原创 2023-12-10 11:36:40 · 1259 阅读 · 0 评论 -
Quinlan C4.5剪枝U(0,6)U(1,16)等置信上限如何计算?
f可以是E/N,有时候用修正的f=(E+0.5)/N。猜测Quinlan使用是f=(E+0.5)/N,而且使用了如下两个值进行线性插值计算。之前看到Quinlan中关于C4.5决策树算法剪枝环节中,关于错误率e置信区间估计,为啥。当E=0时,U(0,1)=0.75,U(0,6)=0.206,U(0,9)=0.143?本文将给出本作者的一个大胆猜测。(2)对于E不为0的情况。原创 2025-01-15 20:32:56 · 345 阅读 · 0 评论 -
自动数据挖掘与分析实操代码(免费领取)
本项目旨在自动实现数据挖掘与分析全流程,为用户更快速、精准洞察数据价值。凡订阅如下专栏之一的读者:自然语言处理&大模型数据分析&大模型机器学习&大模型均可免费领取自动数据挖掘与分析实操完整代码。自动数据分析模块主要分为:1、数据接入2、数据探索3、数据处理4、数据切分5、数据模型(模型选择、数据建模、模型评估、模型调优、模型预测)。原创 2024-11-06 12:53:20 · 179 阅读 · 0 评论 -
PART 1 数据挖掘概论 — 数据挖掘方法论
CRISP-DM(Cross-Industry Standard Process for Data Mining)是一种广泛使用的数据挖掘过程框架,由SPSS公司提出。SEMMA(Sample, Explore, Modify, Model, and Assess)是另一种数据挖掘方法论,由SAS公司提出。数据库知识发掘(Knowledge Discovery in Database,KDD)是从数据库中的大量数据中发现不明显、之前未知、可能有用的知识。(data mining)和。原创 2024-10-29 10:14:06 · 500 阅读 · 0 评论 -
ChatGLM + LangChain + Gradio构建前后端分离的大模型应用程序
ChatGLM-6B中英双语对话大模型Windows本地部署实战-优快云博客LangChain是一个用于开发由大型语言模型(llm)支持的应用程序的框架。LangChain简化了LLM应用程序生命周期的每个阶段:(1)开发:使用LangChain的开源构建块组件和第三方集成来构建应用程序。使用LangGraph构建具有一流的流和人在循环支持的有状态代理。(2)产品化:使用LangSmith来检查、监控和评估您的链,以便您可以自信地持续优化和部署。原创 2024-10-28 11:35:26 · 233 阅读 · 0 评论 -
ChatGLM-6B LoRA微调实战(含完整代码)
本文将使用LoRA微调方法对ChatGLM-6B大模型进行微调。原创 2024-10-24 15:03:38 · 464 阅读 · 0 评论 -
ChatGLM-6B大模型 + Bert预训练模型 + RAG实现知识库信息抽取(含完整代码)
本文将基于ChatGLM-6B大模型、Bert预训练模型和RAG完整金融知识库信息抽取任务。原创 2024-10-21 22:01:05 · 437 阅读 · 0 评论 -
ChatGLM-6B和Prompt搭建专业领域知识问答机器人应用方案(含完整代码)
本文基于ChatGLM-6B大模型和Pompt提示工程搭建医疗领域知识问答机器人为例。原创 2024-10-21 10:47:43 · 891 阅读 · 0 评论 -
ChatGLM-6B中英双语对话大模型Windows本地部署实战
ChatGLM是智谱清言大模型的开源版本,目前有ChartGLM、ChatGLM2、ChatGLM3和GLM-4版本。ChatGLM:GitHub - THUDM/ChatGLM-6B: ChatGLM-6B: An Open Bilingual Dialogue Language Model | 开源双语对话语言模型简介:中文领域效果最好的开源底座模型之一,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持。原创 2024-10-19 16:55:23 · 513 阅读 · 0 评论 -
使用keras搭建GRU神经网络创作莎士比亚小说
【代码】使用keras搭建GRU神经网络创作莎士比亚小说。原创 2024-10-08 15:55:50 · 334 阅读 · 0 评论 -
使用keras-tuner微调神经网络超参数
本文将介绍keras-tuner提供了三种神经网络超参数调优方法。它们分别是随机搜索RandomSearch、HyperBand和贝叶斯优化BayesianOptimization。原创 2024-10-06 10:16:55 · 393 阅读 · 0 评论 -
使用TensorBoard可视化模型
TensorBoard是一款出色的交互式的模型可视化工具。安装TensorFlow时,会自动安装TensorBoard。原创 2024-10-05 22:02:07 · 468 阅读 · 0 评论 -
Ollama本地私有化部署通义千问大模型Qwen2.5
Qwen是阿里巴巴集团Qwen团队的大型语言模型和大型多模态模型系列。现在大型语言模型已经升级到Qwen2.5。语言模型和多模态模型都是在大规模多语言和多模态数据上进行预训练的,并在符合人类偏好的高质量数据上进行后训练。Qwen具有自然语言理解、文本生成、视觉理解、音频理解、工具使用、角色扮演、人工智能代理等功能。在Qwen2发布的过去三个月里,许多开发人员在Qwen2语言模型上构建了新的模型,向我们提供了宝贵的反馈。在此期间,我们专注于创建更智能、知识更丰富的语言模型。原创 2024-09-26 14:39:40 · 5198 阅读 · 0 评论 -
机器学习实战—天猫用户重复购买预测
商家有时会在特定日期,例如节礼日(Boxing-day),黑色星期五或是双十一(11月11日)开展大型促销活动或者发放优惠券以吸引消费者,然而很多被吸引来的买家都是一次性消费者,这些促销活动可能对销售业绩的增长并没有长远帮助,因此为解决这个问题,商家需要识别出哪类消费者可以转化为重复购买者。通过对这些潜在的忠诚客户进行定位,商家可以大大降低促销成本,提高投资回报率(Return on Investment, ROI)。众所周知的是,在线投放广告时精准定位客户是件比较难的事情,尤其是针对新消费者的定位。原创 2024-09-18 22:27:02 · 904 阅读 · 0 评论 -
模型验证 — 交叉验证Cross Validation的方法
交叉验证(Cross Validation)是验证模型性能的一种统计分析方法,其基本思想是在某种意义下将原始数据进行分组,一部分作为模型的训练数据集(训练集),另一部分作为模型的验证数据集(验证集)。首先用训练集对模型进行训练,再利用验证集来测试训练得到的模型,以此来作为评价模型的性能指标。常用的交叉验证方法有简单交叉验证、K折交叉验证、留一法交叉验证和留P法交叉验证。本文以一个模拟的线性回归模型为例来介绍各种交叉验证方法。原创 2024-09-18 13:48:31 · 555 阅读 · 0 评论 -
长短期记忆网络(LSTM)理解
长短期记忆网络(Long Short Term Memory Network)是建立在RNN基础之上的,理解RNN有助于理解LSTM网络,建议读者阅读。原创 2020-03-31 15:20:22 · 5755 阅读 · 1 评论 -
循环神经网络(RNN)原理及BPTT算法
因循环神经网络基于ANN之上,理解ANN有助于理解RNN,所以阅读此文,建议先阅读。原创 2020-03-31 11:50:30 · 1531 阅读 · 1 评论 -
Level3 — PART 3 — 自然语言处理与文本分析
N-Gram 分词分词及词性标注的难点法则式分词法。原创 2024-09-08 12:41:37 · 359 阅读 · 0 评论 -
Level3 — PART 2 — 高级数据处理与特征工程
高级数据预处理高级数据预处理。原创 2024-09-05 12:23:17 · 218 阅读 · 0 评论 -
隐马尔可夫模型(HMM)——从理论证明、算法实现到实际应用
实心圆之间的箭头,表示隐状态转移,比如图中的红色箭头,表示t-1时刻状态Y1,在t时刻转移为状态Y2。(1)对于时刻t=1,也就是第一天,可能的状态为{下雨,晴天},小宝第一天选择的是郊游,另外,从Start开始只有一条路径到达晴天,所以。的位置上,因为隐状态的初始分布式是已知的,而且隐状态到观测状态的概率也是已知的,所以此时你可沿着箭头方向向下走一步生成观测值。现在固定t时刻的状态,假设为。(下雨)=P(x1=郊游,y1=下雨)=P(x1=郊游|y1=下雨)P(y1=下雨)=0.1*0.6=0.06。原创 2020-03-16 13:17:12 · 5345 阅读 · 3 评论 -
人工神经网络(ANN)原理、公式推导及TensorFlow代码实践
损失函数L可以理解成模型在输出层的预测误差,接着递推公式(4)将这个误差传递到了前一层的各个神经元,因为误差是引入了模型参数才引起的,最后这个误差被传递到了公式(2)和(3)表示的模型参数上。输出层的每个神经元也要对数据进行处理,对于输出层,本文采用的是该层只对数据线性加权处理,和隐藏层中神经元的第一步线性加权方式相同。细胞体是神经元的核心,它把各个树突传递过来的信号“加总”起来,形成一个总的刺激信号,这个总的信号会刺激与细胞体连着的轴突,当这个刺激信号超过某个强度阈值,轴突会将信号通过尾端连着的多个“原创 2020-03-27 13:26:32 · 1657 阅读 · 0 评论 -
机器学习之矩阵微积分及其性质
1、矩阵符号约定(1)标量:使用普通小写字母表示,例如;(2)列向量:使用加粗的小写字母来表示,比如等;(3)行向量:使用列向量的转置表示,例如;(4)矩阵:使用加粗的大写字母表示,比如等; 使用表示矩阵的第行和第列元素,也就是,即; 使用表示矩阵的第行; ...原创 2018-12-11 22:51:29 · 2264 阅读 · 5 评论 -
Level3 — PART 4 机器学习算法 — 集成学习
集成学习(Ensemble Learning)作为一种流行的机器学习,它通过在数据集上构建多个模型,并集成所有模型的分析预测结果。常见的集成学习算法包括:随机森林、梯度提升树、XGBoost等。集成学习的目标:通过考虑多个评估器的预测分析结果,汇总后得到一个综合的结果,以达到比单个模型更好的回归/分类性能的结果。多个模型集成的模型叫做集成评估器(ensemble estimator),其中的每个模型叫做基评估器(base estimator)。原创 2024-09-02 21:41:31 · 298 阅读 · 0 评论 -
word2vec和doc2vec模型详解及应用
词袋模型(Bag of Word Model) 将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个词语都是独立的。例如如下2个例句:Jane wants to go to Shenzhen.Bob wants to go to Shanghai.就可以构成一个词袋,袋子里包括{ Jane,wants,to,go,Shenzhen,Bob,Shangh...原创 2020-04-11 19:13:03 · 1545 阅读 · 1 评论 -
机器学习之支持向量机SVM(理论基础)
本文符号约定参见《 机器学习之矩阵微积分及其性质》。考虑如下一般形式的约束优化问题(constrained optimization problem): ...原创 2018-12-22 01:44:52 · 2629 阅读 · 0 评论 -
机器学习之支持向量机SVM(完整版)
目录1 支持向量机简介2 线性可分支持向量机2.1 什么是线性可分2.2 什么是几何间隔2.3 最大几何间隔分离超平面2.4 支持向量和最大几何间隔3 线性支持向量机3.1 支持向量4 KKT条件和对偶问题4.1 线性可分支持向量机4.2 线性支持向量机5 非线性支持向量机5.1 非线性分类问题...原创 2018-12-20 20:02:34 · 3956 阅读 · 7 评论 -
Level3 — PART 4 — 机器学习算法 — 序列模式
在关联规则挖掘中,更关注项集和项集(或两个项)同时出现的关系,而忽略了数据中的序列信息,例如时间、空间等。序列模式挖掘(sequence pattern mining)最早是由Agrawal和Srikant提出的,它在关联规则基础之上,挖掘相对时间(空间)或其他模式出现频率高的模式,典型的应用还是限于离散型的序列。原创 2024-08-29 16:48:37 · 145 阅读 · 0 评论 -
Level3 — PART 4 — 机器学习算法 — 模型评估
目录模拟题CDA LEVEL III 模拟题(一)CDA LEVEL III 模拟题(二) 关于模型评估,读者可以阅读如下几篇文章:分类模型评估:第7章-使用统计方法进行变量有效性测试-7.5.4-模型评估-优快云博客聚类模型评估:第9章-用户分群方法-聚类评估指标-优快云博客回归模型评估:第7章-使用统计方法进行变量有效性测试-7.5-逻辑回归-优快云博客第7章-使用统计方法进行变量有效性测试-7.4.2-多元线性回归-优快云博客第7章-使用统计方法进行变量有效性测试-7.4.1-原创 2024-08-29 11:48:38 · 161 阅读 · 0 评论 -
Level3 — 集成学习 — 袋装法Bagging — 随机森林(Random Forest)
Bagging(Bootstrap Aggregating)算法是建立在一种随机抽样的基础之上的,这种随机抽样叫Boostrap Sample,自助抽样,有的地方也叫自助法。所以介绍Bagging算法之前需要介绍Bootstrap抽样。原创 2020-05-11 12:27:12 · 1158 阅读 · 1 评论 -
Level3 — 集成学习 — 提升法Boosting — AdaBoost
Boosting算法是一种集成学习算法。基本思想如下:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的样本在后续受到更多关注,然后基于调整后的样本分布训练下一个基学习器,如此重复进行,直到基学习器数据达到事先指定的值T,最终将这T个基学习器进行加权结合。与Bagging算法相同的是:(1)它们都是一类算法的抽象框架,(2)都由多个弱学习器组成,(3 )每个弱学习器对样本都有一个预测值,最后综合每个弱分类器的结果得到最终的预测值。原创 2020-05-11 21:27:27 · 758 阅读 · 0 评论 -
Level3 — PART 4 — 机器学习算法 — 关联规则
Apriori算法是一种经典的关联规则数据挖掘算法,主要用于在给定数据集中发现频繁项集和关联规则。该算法最早是由Rakesh Agrawal等人在1993年提出的。最初提出的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则。这些规则可以刻画顾客的购买行为模式,对于商家来说,可以用来指导科学地安排进货、库存以及货架设计等。Apriori算法的名字来源于算法基于先验知识(prior knowledge)来压缩搜索空间,提高算法效率。原创 2024-08-28 16:10:07 · 219 阅读 · 0 评论 -
Level3 — PART 4 机器学习算法 — 决策树
决策树主要由节点和有向边构成,节点主要分为和(1)根结点(root node):没有入边,但有零条或多条出边(2)内部结点(internal node):恰有一条入边和 两条或多条出边(3)叶结点(leaf node):恰有一条入边,无出边。如图:虽然在一些资料中提到外部节点,但在决策树的基本构成中,外部节点并不是一个独立的节点类型。通常,叶节点已经涵盖了外部节点的概念,即它们是决策树的最终输出点。决策树既可以用来解决分类问题,也可以用来解决回归问题,通常分为和。原创 2024-08-27 16:22:27 · 377 阅读 · 0 评论 -
Level3 — PART 4 机器学习算法 — 朴素贝叶斯
贝叶斯定理由英国数学家发展,用来描述两个条件概率之间的关系,比如和和是两个随机事件。按照乘法法则,可以立刻导出:其中表示随机事件和随机事件同时发生的概率,表示在事件发生的情况下,事件发生的概率,类似地,表示在事件发生的情况下,事件发生的概率。原创 2024-08-24 15:06:29 · 525 阅读 · 0 评论 -
第6章-用户标签体系与用户画像
和属于用户视角下的数据分析。用户标签是进行用户画像的基础,用户画像可以辅助业务人员制定用户分群策略。原创 2024-01-07 14:32:50 · 1298 阅读 · 0 评论 -
第3章-指标体系与可视化-3.3-指标体系
指标体系是指系统地反映评价对象整体的多个具体指标的集合。指标体系有指标和维度两个构件组成。指标其实就是与业务相关的连续型变量的某个统计量,例如金额、频次、数量等,是反映企业经营管理在一定时间和条件下的规模、程度、比例、结构等的概念和数值,而维度通常是分类型变量,例如产品维度、渠道维度,是对企业在业务经营过程中涉及的对像的属性进行划分的方式。指标通常有基础数据汇总而来,例如“总销售额”指标,可以通过交易的销售明细汇总得到,然后与地区、产品、渠道等维度相结合,以报表形式呈现,继而可以做仪表盘或进行多维分析。原创 2024-01-06 12:05:11 · 1177 阅读 · 0 评论 -
各章练习题解析
第1题A选项:敏捷分析阶段主要针对业务宏观方面的分析,如财务报表、财务报告或经营分析。行为分析阶段对应的是微观个体层面的洞察。C选项:在协同思维阶段,业务运营人员会逐渐认识到数据驱动的重要性,与数学科学家合作一同完成模型的开发,也就是业务与技术的协同。D选项:自适应阶段其实属于企业自主决策阶段,自主决策阶段,实现数据自适应,业务流程完全自动化。在该阶段流程中,当发现存在生产问题时,会自动识别出现问题的具体原因,并进行及时修正。也会涉及业务流程优化。原创 2024-01-03 15:13:34 · 610 阅读 · 0 评论 -
第1章 EDIT模型概述
在进行预测时,我们是在用户个体层面上进行分析、建立模型的,这样的分析属于微观层面。在开始建立模型时,一般情况下都是数据科学家主导建模,但是数据科学家对业务的理解并不是那么透彻,为了更好的分析业务需求,业务运营人员与数据科学家进行深度合作,企业进入协同思维阶段,也被称为协同分析。随着数据应用场景逐渐丰富,企业开始进行数据产品化管理,数据产品的需求量越来越大,于是进入了分析应用阶段。包括定性的外部因素分析、内部因素分析,以及定量的画像分群分析、趋势维度分析、漏洞洞察分析、行为轨迹分析和留存分析。原创 2024-01-03 14:45:40 · 1265 阅读 · 0 评论 -
第9章-用户分群方法-K-means聚类算法
给定个样本构成的样本集,每个样本有个特征。算法步骤如下:1、随机选取(超参数)个质心,其中,每个质心对应一个类别,分别记作;2、对于每个样本,计算该样本到每个质心的距离将分配到距离最近的质心对应的类别中,如下:;如果样本类别不再变化,停止。3、重新计算每个类别的质心得到个类别的质心。4、更新,继续步骤2。如图:图(a)中是所有的样本点的分布,从分布来看,初步将样本分为两类,所以设置;图(b)中红色和蓝色叉是随机选择的两个质心,类别分为标记为。原创 2023-12-29 11:39:55 · 1072 阅读 · 0 评论 -
第9章-用户分群方法-层次聚类
层次聚类算法(Hierarchical Clustering)根据层次分解的顺序分为:自下向上和自上向下,即凝聚的(agglomerative)层次聚类算法和分裂的(divisive)层次聚类算法,也可以理解为自下而上法(bottom-up)和自上而下法(top-down)。:凝聚型层次聚类,就是一开始每个个体(object)都是一个类,然后根据联系(linkage)寻找同类,最后形成一个“类”。原创 2023-12-27 15:51:15 · 579 阅读 · 0 评论