自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(71)
  • 问答 (1)
  • 收藏
  • 关注

原创 crawl4ai 的本地部署

crawl4ai是一个网站爬取工具,可通过Docker快速部署。安装Docker后,在DockerHub搜索unclecode/crawl4ai镜像,拉取并运行服务,通过浏览器访问本地端口即可使用。该工具支持通过网站sitemap.xml系统抓取内容,若无sitemap可使用xml-sitemaps.com生成。相关资源包括n8n、工作流文件和CherryStudio等,具体操作命令和工具链接见文档。

2025-12-19 12:01:30 205

原创 n8n--自动化网站内容抓取与知识库构建工作流

本文档介绍了一个自动化工作流系统,用于抓取和结构化处理网站内容。该系统通过五个核心阶段实现:1)用户输入站点地图URL触发流程;2)解析站点地图获取页面URL列表;3)异步抓取页面内容;4)利用大型语言模型(LLM)对内容进行结构化处理;5)将结果保存为Markdown文件。工作流采用n8n平台构建,包含URL解析、异步抓取轮询、AI内容处理等关键组件,最终生成适用于检索增强生成(RAG)知识库的标准化内容。该系统实现了从原始网页到结构化知识库的自动化转换,提升了知识库构建效率。

2025-12-19 11:52:06 968

原创 n8n--智能新闻简报自动化工作流

摘要:本文介绍了一个AI驱动的自动化新闻简报工作流系统,通过整合定时调度、RSS抓取、网页内容提取和AI摘要生成等技术,实现了新闻资讯的高效处理与分发。该系统每4小时自动运行,从HackerNews等指定源获取新闻,经DeepSeek等AI模型生成结构化简报,最终以HTML格式邮件发送。工作流包含七大核心模块:定时触发、信息获取、内容筛选、深度抓取、AI摘要生成、结果聚合和邮件分发,通过模块化设计实现了从数据采集到智能处理的完整闭环。

2025-12-19 08:53:32 571

原创 小白入门 PyTorch:手把手实现线性回归(附完整代码 + 保姆级注释)

本文以线性回归为例,介绍如何使用PyTorch实现深度学习入门项目。通过模拟100组房屋面积-价格数据,详细讲解了数据生成、模型搭建、训练过程及结果可视化等关键步骤。代码包含完整注释,使用小批次训练和随机梯度下降优化器,最终使模型学习到接近真实值的参数。文章还解释了张量、批次训练、梯度下降等核心概念,并提供了常见问题解决方法。通过这个项目,读者可以快速掌握PyTorch的基本使用和机器学习核心流程。

2025-12-04 18:33:40 1395

原创 OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.OMP: Hint

在Anaconda环境下发现存在两个相同的libiomp5md.dll文件,这可能导致冲突。建议检查虚拟环境路径,删除重复文件或保留最新版本,以避免潜在的库加载问题。

2025-12-04 18:12:28 158

原创 Python数据可视化:7种图表轻松掌握

本文介绍了使用Python的Matplotlib库绘制多种常见图表的方法。主要包括折线图、柱状图、条形图、饼图和环形图的绘制步骤。每种图表都包含详细的代码示例和可视化效果展示,涵盖了标题设置、坐标轴标签、图例添加、网格线控制、数据点标注等基本要素。特别展示了饼图的变形应用,包括环形图和爆炸式饼图。所有示例均采用中文显示,并提供了颜色设置、百分比显示等实用技巧,为数据可视化提供了完整的实现方案。

2025-11-28 14:21:59 328

原创 从0到1学AlexNet:用经典网络搞定花分类任务

摘要:本文介绍了如何使用AlexNet经典网络实现图像分类任务。文章首先讲解了图像分类的基本概念和AlexNet的历史意义,详细拆解了其8层网络结构(5卷积+3全连接层)及创新点(ReLU激活、Dropout等)。随后提供了完整的代码实现步骤,包括数据预处理、模型搭建、训练参数设置和测试方法,使用PyTorch框架完成花卉分类任务(玫瑰、郁金香等5类)。文章特别针对深度学习新手,用通俗语言解释了技术原理,并给出了常见问题解决方案和优化方向建议,帮助读者快速上手实践经典深度学习模型。

2025-11-20 15:58:28 1174 1

原创 揭秘计算机网络的核心组成与功能

计算机网络是互联计算机系统的集合,由硬件(主机、路由器、交换机)和软件(协议、应用)组成,通过传输介质连接实现数据交换和资源共享。其主要功能包括:数据通信(信息传输)、资源共享(硬件、软件、数据)、分布式处理(负载均衡)以及提高系统可靠性(冗余备份)。网络按规模分为局域网(LAN)、城域网(MAN)和广域网(WAN),通过TCP/IP等协议实现互联互通,是现代信息化社会的重要基础设施。

2025-11-20 15:49:56 55

原创 掌握Excel函数技巧,数据分析更轻松

本文汇总了Excel常用函数公式:1. 条件求和(SUMIF/SUMIFS);2. 环比/同比计算公式;3. 文本处理(LEFT/MID/RIGHT);4. 查找引用(VLOOKUP/INDEX);5. 数学统计(MAX/MIN/COUNT);6. 逻辑判断(IF/AND/OR);7. 日期处理(YEAR/MONTH/DATEDIF)等。涵盖数据统计、文本处理、日期计算等场景,提供完整的函数语法和使用说明。

2025-11-20 10:07:44 611

原创 手写数字识别:从零搭建神经网络

本文介绍了一个基于卷积神经网络(CNN)的手写数字识别系统,使用MNIST数据集实现。系统包含两个核心组件:模型构建(model.py)和训练过程(train.py)。模型采用典型CNN结构,包括卷积层(特征提取)、展平层(数据转换)和全连接层(分类计算)。训练过程通过数据预处理(归一化、添加通道维度)、批量训练(32样本/批次)和Adam优化器完成。系统在5个epoch内即可达到较高准确率,展示了CNN在图像识别任务中的有效性。整个过程清晰展现了深度学习模型的构建、训练和评估流程。

2025-11-19 18:17:46 1194

原创 使用 PyTorch 实现 LeNet 网络进行 CIFAR10 图像分类(小白入门教程)

本文介绍了使用PyTorch实现LeNet卷积神经网络在CIFAR10数据集上进行图像分类的完整流程。项目包含三个核心文件:model.py定义LeNet网络结构,包含卷积层、池化层和全连接层;train.py实现模型训练过程,包括数据预处理、网络训练和模型保存;predict.py用于加载训练好的模型进行图像预测。文中详细解析了各模块的功能和代码实现,包括网络结构定义、数据加载与预处理、训练循环、验证过程和预测方法。该项目可作为深度学习初学者的入门案例,通过实践帮助理解卷积神经网络的工作原理及其在图像分类

2025-11-19 16:55:42 494

原创 安装node时Invalid Drive: D:\,真正的解决办法

就会看到这里面有之前安装的盘符路径,把Node.js这个节点删了就行。因为我之前安装的时候是安装到了D盘,但是我后来给D盘格式化了。注册表可以用win+r打开运行窗口,输入regedit打开。然后再给这里面的node.js删了重新安装。解决办法是注册表中有之前安装的遗留信息。

2025-11-16 16:05:47 236

原创 解决 This application failed to start because no Qt platform plugin could be initialized 问题

本文介绍了PyQt5开发环境的配置方法。首先通过pip安装PyQt5和pyqt5-tools两个必要包,然后重点说明如何设置Qt的platforms插件路径:在Windows系统中,需要找到PyQt5安装目录下的Qt5/plugins文件夹,并将该路径设置为QT_QPA_PLATFORM_PLUGIN_PATH环境变量。文中提供了两种查找路径的方法:直接指定完整路径或通过pip show命令查询PyQt5安装位置后拼接路径。这些步骤解决了PyQt5开发中常见的插件路径配置问题。

2025-11-16 09:41:41 132

原创 Python数据分析:轻松导入处理数据

本文演示了使用Pandas库进行数据导入、处理和导出的基本操作。首先导入CSV格式的员工数据,查看数据类型和数据尾部信息,计算薪资的平均值、最小值和最大值。随后将处理后数据导出为新的CSV文件,并展示了JSON格式数据的导入方法。整个过程涵盖了Pandas的基本数据操作流程,包括数据读取、统计分析和格式转换等常见任务。

2025-11-13 18:00:00 512

原创 Pandas DataFrame创建与操作指南

摘要:本文介绍了Pandas中创建DataFrame的两种主要方式:通过Series字典创建和使用字典直接创建。演示了如何指定列名、索引等参数,并展示了DataFrame的基本属性(索引、列名、值、维度等)。此外,还讲解了使用loc/iloc进行元素访问的操作方法,包括行选择、列选择等。最后展示了DataFrame的转置操作(T属性)以及对数据类型(dtypes)的查看。

2025-11-13 10:00:00 769

原创 Pandas Series创建与操作指南

摘要:本文介绍了Pandas库中Series数据结构的创建、属性和常用操作方法。主要内容包括:通过列表或字典创建Series,自定义索引和名称;Series的基本属性访问(如index、values等);数据筛选与访问方法(loc、iloc等);常用统计函数(mean、std等);以及去重、排序等数据处理功能。代码示例展示了Series从创建到数据处理的完整流程,是Pandas基础数据操作的实用指南。

2025-11-12 23:36:40 336

原创 掌握NumPy:ndarray核心特性与创建

本文介绍了NumPy中ndarray数组的基本特性和创建方法。主要内容包括:1) ndarray的多维性和同质性特性,不同维度数组的创建与属性;2) ndarray的各种属性如shape、ndim、size、dtype等;3) 多种数组创建方法,包括从列表创建、复制数组,以及使用zeros、ones、empty、full等函数创建预定义形状的数组;4) 类似函数zeros_like、ones_like等的使用方法。通过示例代码演示了不同创建方式的差异和应用场景。

2025-11-12 23:34:19 196

原创 ubantu网络助手打不开

ubantu网络助手打不开

2022-12-31 09:43:51 451

原创 hadoop生产调优之综合调优

hadoop生产调优之综合调优

2022-12-25 19:37:02 296

原创 hadoop生产调优之Hadoop-Yarn 生产经验(参数调优)

hadoop生产调优之Hadoop-Yarn 生产经验(参数调优)

2022-12-25 19:24:49 1543

原创 hadoop生产调优之HDFS—集群迁移和MapReduce 生产经验

hadoop生产调优之HDFS—集群迁移和MapReduce 生产经验

2022-12-25 18:52:06 234

原创 hadoop生产调优之HDFS—故障排除

hadoop生产调优之HDFS—故障排除

2022-12-25 18:44:58 652

原创 hadoop生产调优之HDFS—存储优化

hadoop生产调优之HDFS—存储优化

2022-12-25 18:12:26 480

原创 hadoop生产调优之HDFS—集群扩容及缩容和服务器间数据均衡

hadoop生产调优之HDFS—集群扩容及缩容和服务器间数据均衡

2022-12-25 17:44:19 725

原创 hadoop生产调优之HDFS—多目录

hadoop生产调优之HDFS—多目录和集群数据均衡

2022-12-25 17:18:35 300

原创 hadoop生产调优之HDFS—集群压测

hadoop生产调优之HDFS—集群压测

2022-12-25 17:07:05 548

原创 hadoop生产调优之HDFS核心参数

hadoop生产调优 ------ HDFS核心参数

2022-12-25 16:50:16 233

原创 PySpark--spark local 的环境部署

PySpark--spark local 的环境部署

2022-12-17 15:03:54 816

原创 PySpark--spark的基本概念

PySpark--spark的基本概念

2022-12-17 14:37:45 406

原创 python报org.apache.spark.SparkException: Python worker failed to connect back.

org.apache.spark.SparkException: Python worker failed to connect back.

2022-12-06 15:11:22 2124 3

原创 MapReduce经典案例--WordCount代码

MapReduce经典案例--WordCount代码

2022-11-11 20:32:53 1268

原创 3、电商数仓(数仓数据同步策略)

3、电商数仓(数仓数据同步策略)

2022-10-25 14:16:54 543

原创 Hive元数据配置到MySQL

Hive元数据配置到MySQL

2022-10-25 14:08:42 1005

原创 大数据技术之DataX

大数据技术之DataX

2022-10-25 13:27:16 688

原创 2、电商数仓(业务数据采集平台)

电商数仓(业务数据采集平台)

2022-10-24 14:58:19 598

原创 大数据技术之Maxwell

大数据技术之Maxwell

2022-10-24 14:54:24 403 1

原创 Linux的MySQL安装

Linux的MySQL安装

2022-10-24 14:20:04 454

原创 1、电商数仓(用户行为采集平台)

电商数仓(用户行为采集平台)

2022-10-24 09:30:22 1258

原创 Flume基础(3.0版本)

Flume安装部署(3.0版本)

2022-10-14 08:43:07 252

原创 Kafka安装部署(3.0.0)

Kafka安装部署(3.0.0)

2022-10-13 14:01:05 1933

【人工智能基础】基于高等数学与概率论的大模型核心技术解析:导数梯度矩阵与贝叶斯定理在深度学习中的应用研究

内容概要:本文系统介绍了大模型技术所依赖的核心数学基础知识,涵盖高等数学、线性代数和概率论三大领域。重点讲解了导数、偏导数、梯度、方向导数、二阶导数与函数凹凸性及拐点的关系;在线性代数部分涵盖了向量、矩阵、张量的基本运算、矩阵求导及其在梯度矩阵和黑塞矩阵中的应用;在概率论部分深入解析了概率基础、条件概率、贝叶斯定理、全概率公式、常见概率分布(如均匀分布、正态分布)、中心极限定理以及极大似然估计等关键概念。整体内容为理解深度学习和大模型背后的数学机制提供理论支撑。; 适合人群:具备一定数学基础,从事人工智能、机器学习或大模型相关研究与开发的工程师、研究人员,以及希望深入理解模型底层原理的学生(本科高年级及以上)。; 使用场景及目标:①掌握大模型训练过程中涉及的优化算法(如梯度下降)的数学原理;②理解损失函数、正则化、参数更新等操作的数学表达与推导;③为阅读和复现前沿论文中的数学公式打下坚实基础;④支持对模型行为进行数学建模与分析。; 阅读建议:建议结合具体的大模型实践项目同步学习,注重公式的推导过程与几何直观理解,可配合Python中的NumPy、SciPy等工具进行数值验证与仿真,以增强对抽象概念的实际感知。

2025-11-20

机器学习基于统计模型与算法的数据驱动技术:监督学习分类回归及无监督聚类降维方法研究

内容概要:本文系统介绍了机器学习的基本概念、发展历程、核心理论与常用算法。涵盖了机器学习的定义、与人工智能和深度学习的关系,梳理了从早期探索到大模型时代的发展脉络。详细阐述了机器学习三要素(模型、策略、算法)、主要分类(监督、无监督、半监督、强化学习),并通过建模流程引出特征工程的关键环节,包括特征选择、转换、构造与降维。深入讲解了模型评估中的损失函数、过拟合与欠拟合、正则化、交叉验证等核心技术,并介绍了梯度下降、牛顿法等求解算法。文章还重点剖析了KNN、线性回归、逻辑回归、感知机、决策树、支持向量机、集成学习及聚类等多种经典算法的原理、实现与应用。 适合人群:具备一定编程基础和数学基础(如线性代数、概率统计),正在入门或希望系统巩固机器学习知识的研发人员、数据分析师及高校学生。 使用场景及目标:①全面理解机器学习的核心概念、发展脉络和技术体系;②掌握从数据预处理、模型选择、训练优化到评估部署的完整建模流程;③深入理解KNN、线性回归、逻辑回归、决策树、SVM、集成学习等主流算法的工作原理和数学基础;④学会运用特征工程、正则化、交叉验证等关键技术解决实际问题。 阅读建议:建议结合文中提供的代码示例进行动手实践,加深对算法实现的理解。在学习过程中,应重点关注模型背后的数学原理和假设,并通过实际项目应用来体会不同算法的适用场景和性能差异。

2025-11-20

hive和mysql的安装

hive和mysql的安装

2022-12-18

大数据团队赛知识框架.xmind

大数据团队赛知识框架.xmind

2023-01-04

Python(基础).xmind

Python(基础).xmind

2023-01-04

Python(高级).xmind

Python(高级).xmind(爬虫)

2023-01-04

Kafka3.x从入门到精通.xmind

Kafka3.x从入门到精通.xmind

2023-01-04

azkaban需要用到的资料文件

azkaban

2023-01-04

hadoop(HDFS)思维导图.xmind

hadoop(HDFS)思维导图.xmind

2022-11-13

hadoop(Mapreduce)思维导图.xmind

hadoop(Mapreduce)思维导图.xmind

2022-11-13

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除