自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(124)
  • 资源 (2)
  • 收藏
  • 关注

原创 新手村:逻辑回归-理解04:熵是什么?

逻辑回归中的熵理论是机器学习的重要基础之一。通过学习熵、交叉熵以及它们在逻辑回归中的应用,你可以更好地理解分类模型的工作原理。建议按照上述计划逐步深入学习,并通过代码实践巩固理论知识。

2025-03-25 01:30:38 879

原创 新手村:逻辑回归-理解03:逻辑回归中的最大似然函数

似然函数Lwb∏i1Nyiyi1−yi1−yiLwbi1∏N​y​iyi​​1−y​i​1−yi​对数似然函数log⁡Lwb∑i1Nyilog⁡yi1−yilog⁡1−yilogLwbi1∑N​yi​logy​i​1−yi​log1−y​i​。

2025-03-25 01:26:26 1224

原创 新手村:逻辑回归-01.什么是逻辑回归-初识速学

逻辑回归()是机器学习中一种基础且重要的分类算法,常用于二分类问题(如垃圾邮件检测、疾病诊断等),而非预测连续数值。它是机器学习和统计学中应用最广泛的模型之一,尽管名字中包含“回归”,但它本质上是一个分类模型线性组合特征:将输入与权重结合;概率转换:用Sigmoid函数输出概率;参数优化:通过极大似然估计找到最佳参数;决策边界划分:根据概率阈值(如0.5)分类。扩展思考如何处理非线性可分数据?(引入多项式特征或核方法)如何防止过拟合?(正则化、交叉验证)逻辑回归能否用于多分类问题?

2025-03-23 00:16:03 3424 2

原创 新手村:逻辑回归-理解02:逻辑回归中的伯努利分布

伯努利分布在逻辑回归中的潜在含义及其与后续推导的因果关系

2025-03-22 23:36:25 814

原创 新手村:逻辑回归-理解01:目标变量、伯努利分布的概率、特征X之间的关系

逻辑回归 理解:解释逻辑回归中目标变量 𝑌Y、伯努利分布的概率 𝑝p 即 𝑃(𝑦=1∣𝑥)P(y=1∣x)和输入特征 𝑥x 之间的关系。假设我们想预测某人是否会购买某款新手机。

2025-03-22 22:22:44 956

原创 新手村:协方差、方差、标准差的作用

主题描述数据的重要性解释为什么我们需要分 析数据统计学简介简述统计学的基本概念及其在数据分析中的作用。

2025-03-17 23:13:11 888

原创 新手村;相关度分析方法

目标:理解相关分析的定义、应用场景及基本工具。知识点:教学示例:销售与广告投入的关系目标:掌握不同相关系数的计算方法及适用场景。知识点:扩展示例:计算皮尔逊相关系数目标:通过代码验证理论,理解相关分析在实际中的应用。代码示例(Python+NumPy+SciPy):阶段4:进阶与扩展目标:探索相关分析的局限性及高级应用。知识点:如何选择皮尔逊还是斯皮尔曼相关系数?卡方检验适用于什么场景?相关系数接近0是否意味着无关?

2025-03-17 17:36:18 617

原创 新手村:逻辑回归

通过代码验证理论,理解逻辑回归在实际中的应用。:理解逻辑回归的定义、输入输出关系及核心思想。:掌握逻辑回归的数学推导及优化过程。:探索逻辑回归的局限性及高级应用。

2025-03-17 11:29:58 555

原创 新手村: 模型评估方法-线性回归评估方法

线性回归模型的评估通常涉及多种指标,以全面了解模型的性能。常用的评估方法包括均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)和决定系数 ( R^2 )。以下是这些评估方法的详细说明以及如何在代码中实现它们。

2025-03-17 00:49:15 793

原创 新手村:数据预处理-异常值检测方法

异常检测是机器学习中关键的预处理步骤,其核心是区分“正常”与“异常”数据。学习路径应从统计方法(如Z-score、IQR)开始,逐步过渡到复杂模型(如LOF、Isolation Forest)。实际应用中需结合业务场景选择算法,并通过可视化和评估指标(如F1分数、ROC-AUC)验证效果。进阶学习可探索深度学习和实时检测技术,以应对复杂数据挑战。

2025-03-16 23:35:50 976

原创 新手村:数据预处理-特征缩放

方法描述适用场景优点缺点标准化将特征转换为均值为0,标准差为1的标准正态分布。线性回归、逻辑回归、SVM、KNN、神经网络等。不受数据范围影响,适用于大多数算法。对异常值较为敏感,可能导致极端值的影响被放大。归一化(Min-Max缩放)将特征缩放到一个特定范围(通常是[0, 1])。需要将数据限制在特定范围内的情况。数据范围固定,适用于需要严格控制输出范围的场景。受数据范围影响较大,对异常值敏感,可能导致信息丢失。

2025-03-16 23:25:07 837

原创 新手村:数据预处理-缺失值补充策略

通过上述表格和示例代码,您可以更好地理解不同的缺失值补充策略及其应用场景。删除含有缺失值的行或列:适用于缺失值较少的情况,简单但可能导致数据丢失。用固定值填充:适用于大多数情况,但需谨慎选择填充值以避免引入偏差。用插值法填充:适用于有序数据,能较好地保留趋势。用模型预测填充:适用于复杂数据集,但实现复杂且计算成本较高。

2025-03-16 22:18:25 304

原创 新手村:混淆矩阵

通过本教程,学生将掌握混淆矩阵的构建、核心指标的计算与分析,并能够通过代码实现模型评估。后续可深入学习ROC-AUC曲线、多分类场景及实际应用中的优化策略,逐步构建更鲁棒的分类模型。A:假设数据中95%为负类,模型全预测负类,准确率可达95%,但完全忽略了正类样本,此时需用召回率或F1分数评估。A:精准率 = TP/(TP+FP),召回率 = TP/(TP+FN)。A:β>1时,召回率权重更高(如医疗诊断);则精准率是预测为正类(第二列)中的正确比例,召回率是实际为正类(第二行)中的正确比例。

2025-03-16 16:16:32 853

原创 新手村:线性回归-实战-波士顿房价预测

本文介绍了如何在机器学习模型中引入非线性项以提高预测准确性,并通过实际案例演示了具体步骤。我们还提供了后续练习题目以及进一步学习的方向,帮助读者深化理解和实践技能。

2025-03-16 08:27:57 596

原创 新手村:异常值检测-Z-score与IQR方法

(聚焦Z-score与IQR方法)掌握均值、中位数、标准差、四分位数等统计量计算。计算均值(μ)和标准差(σ):计算每个数据点的Z-score:设定阈值并筛选异常值:示例它绘制数据的直方图和理论上对应的正态分布曲线,并在图中标记出异常值排序数据并计算Q1、Q3:计算IQR:设定上下界并筛选异常值:示例数据集:住院天数 计算:Q1 = 4.5,Q3 = 7,IQR = 2.5下界 = 4.5 - 3.75 = 0.75,上界 = 7 + 3.75 = 10.

2025-03-16 00:19:59 1195

原创 新手村:统计量均值、中位数、标准差、四分位数

Q1(第一四分位数):位于数据集第25%位置的值。Q2(第二四分位数):位于数据集第50%位置的值,即中位数。Q3(第三四分位数):位于数据集第75%位置的值。统计量位置公式插值计算公式示例(数据集 [1, 2, 3, 4, 5, 6, 7, 8])Q1n1×0.25n1×0.25LQ1FQ1×UQ1−LQ1LQ1​FQ1​×UQ1​−LQ1​20.25×3−22.2520.25×3−2。

2025-03-15 23:04:18 877

原创 新手村:线性回归

线性回归是通过一条直线(一元)或超平面(多元)拟合数据,预测因变量与自变量之间的线性关系。公式yβ0β1xϵyβ0​β1​xϵ其中,yyy是因变量,xxx是自变量,β0\beta_0β0​是截距,β1\beta_1β1​是斜率,ϵ\epsilonϵ是误差项。通俗解释假设你想根据房屋面积(自变量)预测房价(因变量),线性回归就是找到一条最能代表数据趋势的直线,这条直线的方程就是你的预测模型。

2025-03-15 20:39:36 1354

原创 最小二乘法和梯度下降法的区别

最小二乘法和梯度下降区别

2025-03-15 17:28:55 1005

原创 均方误差(MSE)与最小二乘法(LS)的区别

MSE用于计算预测值 $\hat{y} $与真实值 $ y $的平均平方误差,作为模型好坏的指标。通过理解这两者的区别,可以更清晰地应用它们:用MSE评估模型,用最小二乘法(或其他优化方法)训练模型。通过求解以下方程组,直接得到使MSE最小的参数。:MSE和最小二乘法是同一件事?根据知识库中的信息(知乎回答),:最小二乘法仅适用于线性模型?:MSE越小模型一定越好?

2025-03-15 17:16:44 655

原创 TensorFlow 是什么?

TensorFlow 是一个由 Google 开发的开源机器学习框架,它提供了丰富的工具和库用于构建和训练各种机器学习模型。总的来说,TensorFlow 是一个功能强大的机器学习框架,适用于各种不同领域的机器学习和深度学习任务,能够帮助开发者快速构建和训练复杂的模型。

2025-03-15 12:34:01 477

原创 机器学习_重要知识点整理

以上术语覆盖了机器学习的核心概念,从数学基础到算法实现、评估优化,再到业务应用。(如数据特征、业务目标),才能全面掌握机器学习的理论与实践。(如概率论、优化理论)、

2025-03-14 11:45:57 600

原创 机器学习计划_重点知识点

重点应该包括监督学习中的核心算法,比如线性回归、逻辑回归、SVM、决策树、随机森林、梯度提升树,以及无监督学习中的K-means、PCA,还有模型评估方法如交叉验证、过拟合处理。非重点可能是一些较新的方法,或者应用较少的算法,比如EM算法、Apriori,或者某些特定领域的应用,比如强化学习中的复杂算法。首先,我需要回顾之前提供的知识库内容,看看有哪些信息可以利用。用户之前提供的资料包括机器学习的基础知识、算法分类、数学基础、以及一些具体算法的讲解,比如线性回归、逻辑回归、SVM、聚类、强化学习等。

2025-03-13 18:06:25 964

原创 机器学习_特征工程

通过以上步骤和案例,你可以系统掌握特征工程的实施方法,并在实际项目中灵活应用!

2025-03-13 17:09:32 695

原创 机器学习_交叉验证

【代码】机器学习_交叉验证。

2025-03-13 09:51:27 999

原创 python LLM工具包

http://mirrors.aliyun.com/pypi/simple/https://modelscope.cn/docs/models/download

2025-03-10 21:17:53 315

原创 SpringBoot AI + PgVector向量库 + Openai Embedding模型

【代码】SpringBoot AI + PgVector向量库 + Openai Embedding模型。

2025-03-01 22:17:37 411

原创 2-PostgreSQL docker compose 安装教程-Pgvector

Postgres: 开源的向量相似度搜索存储你的向量数据与你其余的数据一起。精确和近似最近邻搜索单精度,半精度,二进制,以及稀疏向量L2 距离, 内积, 余弦距离, L1 距离, 哈明距离, 和杰卡德距离任何带有 Postgres 客户端的语言加上 ACID 兼容性、即时恢复、JOIN 操作,以及 Postgres 的其他所有出色功能。

2025-03-01 15:25:36 1451

原创 1-PostgreSQL 简介

PostgreSQL 凭借其开源特性、功能丰富性和强大的扩展能力,成为企业级应用和复杂数据场景的首选数据库之一。)是一款功能强大的开源关系型数据库管理系统(RDBMS),以其高度可扩展性、标准兼容性和对复杂查询的支持而闻名。严格遵循原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability),确保事务安全可靠。PostgreSQL 遵循开源协议(PostgreSQL License),允许免费使用、修改和分发,拥有活跃的全球开发者社区支持。

2025-03-01 12:30:13 1080

原创 MySQL 和 PostgreSQL 的详细对比

【代码】MySQL 和 PostgreSQL 的详细对比。

2025-02-28 23:22:04 978

原创 知识图谱-资源网

kg resource url

2025-02-28 21:43:22 243

原创 知识图谱-Neo4j-开始构建知识图谱-01

关系(Relationships):连接两个节点,具有方向(→ 或 ←)和类型(Type),可附加属性。属性(Properties):键值对,存储节点或关系的详细信息(如 , )。(2) Cypher 查询语言直观语法:通过模式匹配直接描述图结构。高效遍历:支持复杂关系路径查询(如最短路径、模式匹配)。3. 核心优势(1) 原生图存储物理存储优化:数据以图结构直接存储,避免传统数据库的“表连接”开销。高效遍历:通过指针直接访问相邻节点,时间复杂度接近 O(1)。(2) 高性

2025-02-26 00:59:27 1639

原创 知识抽取前沿技术

只是抽取前沿技术

2025-02-23 01:08:43 74

原创 4-知识图谱的抽取与构建-4_5事件识别和抽取

(Event Recognition and Extraction)是信息抽取(Information Extraction)的子任务,目标是(Event Type):如"收购"、“地震”、“会议”(Trigger):标识事件发生的核心词(动词/名词)(Arguments):事件的参与者及属性。

2025-02-23 00:46:56 682

转载 2025-02-22资讯 20万块GPU炼出Grok-3:性能超越OpenAI o3-mini、DeepSeek R1

1. 技术亮点与性能训练规模:动用20万块GPU(包括10万块英伟达H100集群),计算量是前代Grok-2的10倍。关键创新思维链推理:模仿人类逐步拆解复杂任务,展示推导过程(如数学问题),提升逻辑连贯性。合成数据训练:解决隐私问题,通过模拟场景提高学习效率。逻辑自检机制:模型可自我修正错误数据,提升输出准确性。多模态能力:文本与图像分析显著增强,可生成3D动画代码及简单游戏(如俄罗斯方块)。2. 性能表现与争议Benchmark成绩:在数学、代码类测试中击败。争议点。

2025-02-22 09:31:58 40

原创 4-知识图谱的抽取与构建-4_2实体识别与分类

实体识别(Entity Recognition)是从文本中提取出具体的事物,如人名、地名、组织名等。分类(Entity Classification)则是将这些实体归类到已知的类别中,比如“演员”可以分为“歌手”、“演员”、“运动员”等。它就像知识图谱的“骨架”,帮助我们更好地组织和理解信息。💡。

2025-02-21 02:01:09 966

原创 基于序列标注的机器学习方法

检查模型是否正确标注“李彦宏(B-PER)”、“北京(B-LOC)”、“文心一言(B-PRODUCT)”。:假设模型将“苹果公司”中的“苹果”错误标注为“B-FRUIT”(水果)。“2023年,李彦宏在北京发布了百度的AI产品文心一言。DeepSeek R1 AI 生成。“马云在杭州创立了阿里巴巴。:使用Python的。

2025-02-21 01:27:57 1076

原创 4-知识图谱的抽取与构建-4_1重新理解知识工程和知识获取

💡 什么是知识工程?知识工程是通过计算机技术对人类知识进行建模、管理和应用的一门交叉学科。它不仅仅是编写代码,更是通过构建知识库、实现智能问答、推荐系统等应用,让技术真正服务于人类!💡🔥 什么是知识获取?知识获取是从现有数据、文本、图像等多种来源中提取有价值的知识,构建知识表示的过程。它包括自然语言处理、数据挖掘、机器学习等多种技术!🔥🔧 知识工程与知识获取的关系知识工程依赖知识获取,而知识获取又是知识工程的基础。两者相辅相成,共同推动人工智能技术的发展!🔧

2025-02-21 00:23:00 1021

原创 知识图谱-学习计划

以下是一个循序渐进的学习计划和课程安排,帮助你从零开始学习知识图谱构建。由于知识图谱是一个综合性很强的领域,涉及自然语言处理、图数据库、知识表示、机器学习等多个方向,因此学习计划会围绕这些核心知识点展开。通过这个学习计划,你可以逐步掌握知识图谱的基本概念、构建技术、应用开发以及优化方法。知识图谱是一种通过图结构表示知识的技术,它可以帮助我们更清晰地理解和组织信息。:通过构建知识图谱,你可以更好地理解事物之间的关系,锻炼逻辑思维能力。:掌握知识图谱构建的核心技术,包括数据抽取、清洗、模型构建等。

2025-02-20 23:21:08 687

原创 3-知识图谱-知识图谱的存储与查询

基础概念:邻接与索引邻接关系:在图结构中(比如社交网络、知识图谱),节点(如用户、文章)之间的连接称为边(如好友关系、引用关系)。邻接关系描述的是“节点直接相连”这一特性。索引的作用:在传统数据库(如关系型数据库)中,要高效查询数据,通常需要建立索引(如 B 树、哈希表)。索引像一本目录,能快速定位数据的位置,但维护索引需要额外的时间和空间成本。图结构和查询分析:属性图注重知识的建模,描述结构复杂的关联关系,知识推理: RDF Resource Definition Framework。

2025-02-20 22:28:09 956

原创 开源的 LLM 应用开发平台-Dify 部署和使用

官网生成式 AI 应用创新引擎开源的 LLM 应用开发平台Dify 为开发者提供了健全的应用模版和编排框架,你可以基于它们快速构建大型语言模型驱动的生成式 AI 应用,将创意变为现实,也可以随时按需无缝扩展,驱动业务增长。

2025-02-20 01:49:38 2576 1

实战-波士顿房价预测数据集

实战-波士顿房价预测数据集

2025-03-15

pptist code ddddddd

pptist code ddddddd

2025-03-11

知识图谱-Neo4j-官方教材-cata

知识图谱-Neo4j-官方教材-产品-目录-供应商

2025-02-28

知识图谱-Neo4j-官方教材-供应商

知识图谱-Neo4j-官方教材-产品-目录-供应商

2025-02-28

知识图谱-Neo4j-官方教材-产品-目录-供应商

知识图谱-Neo4j-官方教材-产品-目录-供应商

2025-02-28

大型语言模型应用程序栈的关键要素与构建 - LLMs应用开发与集成

内容概要:本文主要介绍了有关LLM(大规模语言模型)的应用程序栈的重要组成部分,包括用于提供上下文的数据集,以及提示词(prompts)、查询请求和输出响应间的交互。为了进一步了解相关项目,可以通过GitHub搜索'langgenius/dify'来获得更多信息源码等。 适用人群:致力于研究或使用大规模语言模型技术的专业人士或开发团队。 使用场景及目标:帮助开发者熟悉大型语言模型应用程序开发过程中所需要考虑的各种因素和技术要点,确保对模型训练、部署及优化有深入理解。 其他说明:文中提到了一个可以在GitHub上查找的具体仓库,它可能包含了更多实际案例或者开源代码,对于想要深入了解这个领域的从业者来说非常有价值。

2025-02-20

Vector database学习资料

Vector database学习资料

2025-02-17

LlamaFactory-Deepseek模型微调+CUDA Toolkit+cuDNN安装

llamaFactory/data/identity.json 身份数据集测试

2025-02-14

规则模式pdf-中文版

规则模式pdf中文版

2023-10-12

LegacyEmpireEFI_V108

这个工具是virtualbox安装mac os x 系统时的引导文件。帮助我们安装mac的

2016-08-21

dmg2iso.rar

工具

2016-08-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除