数据挖掘-分类和预测

来自🥬🐶程序员 Truraly | 田园 的博客,最新文章首发于:田园幻想乡 | 原文链接 | github (欢迎关注)

概念

分类&预测是有监督学习,聚类是无监督学习。

一个学数据挖掘的开发者的博客 | 博客

包含了决策树,神经网络相关的博客

KNN 算法

Python—KNN 分类算法(详解) | 知乎

KNN 算法是一种分类算法,它的思想是:如果一个样本在特征空间中的 K 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

决策树

一文看懂决策树(Decision Tree)| 知乎

决策树原理详解(无基础的同样可以看懂)| 优快云

决策树 – Decision tree | 产品经理的人工智能学习库

ID3 算法

信息增益和信息熵 | 博客

熵(信息论)| wiki

ID3 算法的核心思想是:每次选择信息增益最大的特征作为节点,递归地生成决策树。

信息熵:表示随机变量不确定性的度量,即随机变量的不确定性越大,信息熵越大。

I ( S ) = − ∑ i = 1 n p i log ⁡ 2 p i I(S) = -\sum_{i=1}^{n}p_i\log_2p_i I(S)=i=1npilog2pi

其中, p i 表示第 i 个类别的概率。 其中,p_i 表示第 i 个类别的概率。 其中,pi表示第i个类别的概率。

信息增益:表示得知特征 X 的信息而使得类 Y 的信息的不确定性减少的程度。

G a i n ( S , X ) = I ( S ) − ∑ v ∈ V a l u e s ( X ) ∣ S v ∣ ∣ S ∣ I ( S v ) Gain(S, X) = I(S) - \sum_{v \in Values(X)}\frac{|S_v|}{|S|}I(S_v) Gain(S,X)=I(S)vValues(X)SSvI(Sv)

其中, S v 表示特征 X 取值为 v 时的样本集合。 其中,S_v 表示特征 X 取值为 v 时的样本集合。 其中,Sv表示特征X取值为v时的样本集合。

信息增益越大,表示特征 X 对于类 Y 的区分能力越强。

缺点
  1. 信息增益偏向于选择取值较多的特征,比如 ID,每个样本的 ID 都不同,那么信息增益就会很大,但是 ID 对于分类没有任何帮助。

C4.5 算法

C4.5 使用信息增益率来选择特征,信息增益率是信息增益除以特征的熵。解决了 ID3 算法的缺点。

CART 算法

Gini 系数生成决策树 | 博客

CART 使用 Gini 系数来选择特征,Gini 系数是衡量数据集纯度的指标,即数据集中随机抽取两个样本,其类别标签不一致的概率。

贝叶斯算法

朴素贝叶斯算法

朴素贝叶斯算法的前提:假设每个特征之间相互独立,即每个特征都是独立的,不会因为其他特征的变化而变化。

核心思想:

P ( C k ∣ X ) = P ( X ∣ C k ) P ( C k ) P ( X ) P(C_k|X) = \frac{P(X|C_k)P(C_k)}{P(X)} P(CkX)=P(X)P(XCk)P(Ck)

即,当给定一个未分类样本 X 时,计算它属于每个类别的概率,哪个概率大,就把它归为哪个类别。

直接寻找 P ( C k ∣ X ) P(C_k|X) P(CkX) 并不合适,因为符合 X 的数据可能并不多(甚至可以是 0),算出来的概率可能不接近真实概率。

使用 P ( X ∣ C k ) P ( C k ) P ( X ) \frac{P(X|C_k)P(C_k)}{P(X)} P(X)P(XCk)P(Ck) 代替会用到更多的数据,更接近真实概率。

在实际计算中,因为 P ( X ) P(X) P(X) 对于所有类别都是相同的,所以可以忽略,只计算并比较 P ( X ∣ C k ) P ( C k ) P(X|C_k)P(C_k) P(XCk)P(Ck) 的大小。

贝叶斯信念网络算法

神经网络算法

神经网络 | 博客

生成式和判别式模型

判别式模型和生成式模型的区别 | 知乎

一张图介绍判别式和生成式模型,左边是判别式模型,右边是生成式模型,判别式模型是直接对后验概率进行建模,生成式模型是对联合概率进行建模,然后通过贝叶斯公式求后验概率。

图片显示失败

支持向量机算法 SVM

SVM 支持向量机 | 知乎

分类准确率评估

错误率、精度、准确率、召回率、F1 度量 | 优快云

优化

装袋

把多个分类器/预测器组合起来

提升

————————————————

版权声明:本文为 田园幻想乡 的原创文章,遵循 CC 4.0 BY-NA-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:http://truraly.fun/课程笔记/数据挖掘/【6】分类和预测.html

### 关于ArcGIS License Server无法启动的解决方案 当遇到ArcGIS License Server无法启动的情况,可以从以下几个方面排查并解决问题: #### 1. **检查网络配置** 确保License Server所在的计算机能够被其他客户端正常访问。如果是在局域网环境中部署了ArcGIS Server Local,则需要确认该环境下的网络设置是否允许远程连接AO组件[^1]。 #### 2. **验证服务状态** 检查ArcGIS Server Object Manager (SOM) 的运行情况。通常情况下,在Host SOM机器上需将此服务更改为由本地系统账户登录,并重启相关服务来恢复其正常工作流程[^2]。 #### 3. **审查日志文件** 查看ArcGIS License Manager的日志记录,寻找任何可能指示错误原因的信息。这些日志可以帮助识别具体是什么阻止了许可服务器的成功初始化。 #### 4. **权限问题** 确认用于启动ArcGIS License Server的服务账号具有足够的权限执行所需操作。这包括但不限于读取/写入特定目录的权利以及与其他必要进程通信的能力。 #### 5. **软件版本兼容性** 保证所使用的ArcGIS产品及其依赖项之间存在良好的版本匹配度。不一致可能会导致意外行为完全失败激活license server的功能。 #### 示例代码片段:修改服务登录身份 以下是更改Windows服务登录凭据的一个简单PowerShell脚本例子: ```powershell $serviceName = "ArcGISServerObjectManager" $newUsername = ".\LocalSystemUser" # 替换为实际用户名 $newPassword = ConvertTo-SecureString "" -AsPlainText -Force Set-Service -Name $serviceName -StartupType Automatic New-ServiceCredential -ServiceName $serviceName -Account $newUsername -Password $newPassword Restart-Service -Name $serviceName ``` 上述脚本仅作为示范用途,请依据实际情况调整参数值后再实施。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值