- 博客(71)
- 问答 (1)
- 收藏
- 关注
原创 crawl4ai 的本地部署
crawl4ai是一个网站爬取工具,可通过Docker快速部署。安装Docker后,在DockerHub搜索unclecode/crawl4ai镜像,拉取并运行服务,通过浏览器访问本地端口即可使用。该工具支持通过网站sitemap.xml系统抓取内容,若无sitemap可使用xml-sitemaps.com生成。相关资源包括n8n、工作流文件和CherryStudio等,具体操作命令和工具链接见文档。
2025-12-19 12:01:30
205
原创 n8n--自动化网站内容抓取与知识库构建工作流
本文档介绍了一个自动化工作流系统,用于抓取和结构化处理网站内容。该系统通过五个核心阶段实现:1)用户输入站点地图URL触发流程;2)解析站点地图获取页面URL列表;3)异步抓取页面内容;4)利用大型语言模型(LLM)对内容进行结构化处理;5)将结果保存为Markdown文件。工作流采用n8n平台构建,包含URL解析、异步抓取轮询、AI内容处理等关键组件,最终生成适用于检索增强生成(RAG)知识库的标准化内容。该系统实现了从原始网页到结构化知识库的自动化转换,提升了知识库构建效率。
2025-12-19 11:52:06
968
原创 n8n--智能新闻简报自动化工作流
摘要:本文介绍了一个AI驱动的自动化新闻简报工作流系统,通过整合定时调度、RSS抓取、网页内容提取和AI摘要生成等技术,实现了新闻资讯的高效处理与分发。该系统每4小时自动运行,从HackerNews等指定源获取新闻,经DeepSeek等AI模型生成结构化简报,最终以HTML格式邮件发送。工作流包含七大核心模块:定时触发、信息获取、内容筛选、深度抓取、AI摘要生成、结果聚合和邮件分发,通过模块化设计实现了从数据采集到智能处理的完整闭环。
2025-12-19 08:53:32
571
原创 小白入门 PyTorch:手把手实现线性回归(附完整代码 + 保姆级注释)
本文以线性回归为例,介绍如何使用PyTorch实现深度学习入门项目。通过模拟100组房屋面积-价格数据,详细讲解了数据生成、模型搭建、训练过程及结果可视化等关键步骤。代码包含完整注释,使用小批次训练和随机梯度下降优化器,最终使模型学习到接近真实值的参数。文章还解释了张量、批次训练、梯度下降等核心概念,并提供了常见问题解决方法。通过这个项目,读者可以快速掌握PyTorch的基本使用和机器学习核心流程。
2025-12-04 18:33:40
1395
原创 OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.OMP: Hint
在Anaconda环境下发现存在两个相同的libiomp5md.dll文件,这可能导致冲突。建议检查虚拟环境路径,删除重复文件或保留最新版本,以避免潜在的库加载问题。
2025-12-04 18:12:28
158
原创 Python数据可视化:7种图表轻松掌握
本文介绍了使用Python的Matplotlib库绘制多种常见图表的方法。主要包括折线图、柱状图、条形图、饼图和环形图的绘制步骤。每种图表都包含详细的代码示例和可视化效果展示,涵盖了标题设置、坐标轴标签、图例添加、网格线控制、数据点标注等基本要素。特别展示了饼图的变形应用,包括环形图和爆炸式饼图。所有示例均采用中文显示,并提供了颜色设置、百分比显示等实用技巧,为数据可视化提供了完整的实现方案。
2025-11-28 14:21:59
328
原创 从0到1学AlexNet:用经典网络搞定花分类任务
摘要:本文介绍了如何使用AlexNet经典网络实现图像分类任务。文章首先讲解了图像分类的基本概念和AlexNet的历史意义,详细拆解了其8层网络结构(5卷积+3全连接层)及创新点(ReLU激活、Dropout等)。随后提供了完整的代码实现步骤,包括数据预处理、模型搭建、训练参数设置和测试方法,使用PyTorch框架完成花卉分类任务(玫瑰、郁金香等5类)。文章特别针对深度学习新手,用通俗语言解释了技术原理,并给出了常见问题解决方案和优化方向建议,帮助读者快速上手实践经典深度学习模型。
2025-11-20 15:58:28
1174
1
原创 揭秘计算机网络的核心组成与功能
计算机网络是互联计算机系统的集合,由硬件(主机、路由器、交换机)和软件(协议、应用)组成,通过传输介质连接实现数据交换和资源共享。其主要功能包括:数据通信(信息传输)、资源共享(硬件、软件、数据)、分布式处理(负载均衡)以及提高系统可靠性(冗余备份)。网络按规模分为局域网(LAN)、城域网(MAN)和广域网(WAN),通过TCP/IP等协议实现互联互通,是现代信息化社会的重要基础设施。
2025-11-20 15:49:56
55
原创 掌握Excel函数技巧,数据分析更轻松
本文汇总了Excel常用函数公式:1. 条件求和(SUMIF/SUMIFS);2. 环比/同比计算公式;3. 文本处理(LEFT/MID/RIGHT);4. 查找引用(VLOOKUP/INDEX);5. 数学统计(MAX/MIN/COUNT);6. 逻辑判断(IF/AND/OR);7. 日期处理(YEAR/MONTH/DATEDIF)等。涵盖数据统计、文本处理、日期计算等场景,提供完整的函数语法和使用说明。
2025-11-20 10:07:44
611
原创 手写数字识别:从零搭建神经网络
本文介绍了一个基于卷积神经网络(CNN)的手写数字识别系统,使用MNIST数据集实现。系统包含两个核心组件:模型构建(model.py)和训练过程(train.py)。模型采用典型CNN结构,包括卷积层(特征提取)、展平层(数据转换)和全连接层(分类计算)。训练过程通过数据预处理(归一化、添加通道维度)、批量训练(32样本/批次)和Adam优化器完成。系统在5个epoch内即可达到较高准确率,展示了CNN在图像识别任务中的有效性。整个过程清晰展现了深度学习模型的构建、训练和评估流程。
2025-11-19 18:17:46
1194
原创 使用 PyTorch 实现 LeNet 网络进行 CIFAR10 图像分类(小白入门教程)
本文介绍了使用PyTorch实现LeNet卷积神经网络在CIFAR10数据集上进行图像分类的完整流程。项目包含三个核心文件:model.py定义LeNet网络结构,包含卷积层、池化层和全连接层;train.py实现模型训练过程,包括数据预处理、网络训练和模型保存;predict.py用于加载训练好的模型进行图像预测。文中详细解析了各模块的功能和代码实现,包括网络结构定义、数据加载与预处理、训练循环、验证过程和预测方法。该项目可作为深度学习初学者的入门案例,通过实践帮助理解卷积神经网络的工作原理及其在图像分类
2025-11-19 16:55:42
494
原创 安装node时Invalid Drive: D:\,真正的解决办法
就会看到这里面有之前安装的盘符路径,把Node.js这个节点删了就行。因为我之前安装的时候是安装到了D盘,但是我后来给D盘格式化了。注册表可以用win+r打开运行窗口,输入regedit打开。然后再给这里面的node.js删了重新安装。解决办法是注册表中有之前安装的遗留信息。
2025-11-16 16:05:47
236
原创 解决 This application failed to start because no Qt platform plugin could be initialized 问题
本文介绍了PyQt5开发环境的配置方法。首先通过pip安装PyQt5和pyqt5-tools两个必要包,然后重点说明如何设置Qt的platforms插件路径:在Windows系统中,需要找到PyQt5安装目录下的Qt5/plugins文件夹,并将该路径设置为QT_QPA_PLATFORM_PLUGIN_PATH环境变量。文中提供了两种查找路径的方法:直接指定完整路径或通过pip show命令查询PyQt5安装位置后拼接路径。这些步骤解决了PyQt5开发中常见的插件路径配置问题。
2025-11-16 09:41:41
132
原创 Python数据分析:轻松导入处理数据
本文演示了使用Pandas库进行数据导入、处理和导出的基本操作。首先导入CSV格式的员工数据,查看数据类型和数据尾部信息,计算薪资的平均值、最小值和最大值。随后将处理后数据导出为新的CSV文件,并展示了JSON格式数据的导入方法。整个过程涵盖了Pandas的基本数据操作流程,包括数据读取、统计分析和格式转换等常见任务。
2025-11-13 18:00:00
512
原创 Pandas DataFrame创建与操作指南
摘要:本文介绍了Pandas中创建DataFrame的两种主要方式:通过Series字典创建和使用字典直接创建。演示了如何指定列名、索引等参数,并展示了DataFrame的基本属性(索引、列名、值、维度等)。此外,还讲解了使用loc/iloc进行元素访问的操作方法,包括行选择、列选择等。最后展示了DataFrame的转置操作(T属性)以及对数据类型(dtypes)的查看。
2025-11-13 10:00:00
769
原创 Pandas Series创建与操作指南
摘要:本文介绍了Pandas库中Series数据结构的创建、属性和常用操作方法。主要内容包括:通过列表或字典创建Series,自定义索引和名称;Series的基本属性访问(如index、values等);数据筛选与访问方法(loc、iloc等);常用统计函数(mean、std等);以及去重、排序等数据处理功能。代码示例展示了Series从创建到数据处理的完整流程,是Pandas基础数据操作的实用指南。
2025-11-12 23:36:40
336
原创 掌握NumPy:ndarray核心特性与创建
本文介绍了NumPy中ndarray数组的基本特性和创建方法。主要内容包括:1) ndarray的多维性和同质性特性,不同维度数组的创建与属性;2) ndarray的各种属性如shape、ndim、size、dtype等;3) 多种数组创建方法,包括从列表创建、复制数组,以及使用zeros、ones、empty、full等函数创建预定义形状的数组;4) 类似函数zeros_like、ones_like等的使用方法。通过示例代码演示了不同创建方式的差异和应用场景。
2025-11-12 23:34:19
196
原创 python报org.apache.spark.SparkException: Python worker failed to connect back.
org.apache.spark.SparkException: Python worker failed to connect back.
2022-12-06 15:11:22
2124
3
【人工智能基础】基于高等数学与概率论的大模型核心技术解析:导数梯度矩阵与贝叶斯定理在深度学习中的应用研究
2025-11-20
机器学习基于统计模型与算法的数据驱动技术:监督学习分类回归及无监督聚类降维方法研究
2025-11-20
机器学习的sklearn库安装
2023-02-06
hive怎么撤销上次动作
2022-07-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅