长不大的蜡笔小新-优快云博客

原创 crawl4ai 的本地部署

crawl4ai是一个网站爬取工具，可通过Docker快速部署。安装Docker后，在DockerHub搜索unclecode/crawl4ai镜像，拉取并运行服务，通过浏览器访问本地端口即可使用。该工具支持通过网站sitemap.xml系统抓取内容，若无sitemap可使用xml-sitemaps.com生成。相关资源包括n8n、工作流文件和CherryStudio等，具体操作命令和工具链接见文档。

2025-12-19 12:01:30 205

原创 n8n--自动化网站内容抓取与知识库构建工作流

本文档介绍了一个自动化工作流系统，用于抓取和结构化处理网站内容。该系统通过五个核心阶段实现：1)用户输入站点地图URL触发流程；2)解析站点地图获取页面URL列表；3)异步抓取页面内容；4)利用大型语言模型(LLM)对内容进行结构化处理；5)将结果保存为Markdown文件。工作流采用n8n平台构建，包含URL解析、异步抓取轮询、AI内容处理等关键组件，最终生成适用于检索增强生成(RAG)知识库的标准化内容。该系统实现了从原始网页到结构化知识库的自动化转换，提升了知识库构建效率。

2025-12-19 11:52:06 968

原创 n8n--智能新闻简报自动化工作流

摘要：本文介绍了一个AI驱动的自动化新闻简报工作流系统，通过整合定时调度、RSS抓取、网页内容提取和AI摘要生成等技术，实现了新闻资讯的高效处理与分发。该系统每4小时自动运行，从HackerNews等指定源获取新闻，经DeepSeek等AI模型生成结构化简报，最终以HTML格式邮件发送。工作流包含七大核心模块：定时触发、信息获取、内容筛选、深度抓取、AI摘要生成、结果聚合和邮件分发，通过模块化设计实现了从数据采集到智能处理的完整闭环。

2025-12-19 08:53:32 571

原创小白入门 PyTorch：手把手实现线性回归（附完整代码 + 保姆级注释）

本文以线性回归为例，介绍如何使用PyTorch实现深度学习入门项目。通过模拟100组房屋面积-价格数据，详细讲解了数据生成、模型搭建、训练过程及结果可视化等关键步骤。代码包含完整注释，使用小批次训练和随机梯度下降优化器，最终使模型学习到接近真实值的参数。文章还解释了张量、批次训练、梯度下降等核心概念，并提供了常见问题解决方法。通过这个项目，读者可以快速掌握PyTorch的基本使用和机器学习核心流程。

2025-12-04 18:33:40 1395

原创 OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.OMP: Hint

在Anaconda环境下发现存在两个相同的libiomp5md.dll文件，这可能导致冲突。建议检查虚拟环境路径，删除重复文件或保留最新版本，以避免潜在的库加载问题。

2025-12-04 18:12:28 158

原创 Python数据可视化：7种图表轻松掌握

本文介绍了使用Python的Matplotlib库绘制多种常见图表的方法。主要包括折线图、柱状图、条形图、饼图和环形图的绘制步骤。每种图表都包含详细的代码示例和可视化效果展示，涵盖了标题设置、坐标轴标签、图例添加、网格线控制、数据点标注等基本要素。特别展示了饼图的变形应用，包括环形图和爆炸式饼图。所有示例均采用中文显示，并提供了颜色设置、百分比显示等实用技巧，为数据可视化提供了完整的实现方案。

2025-11-28 14:21:59 328

原创从0到1学AlexNet：用经典网络搞定花分类任务

摘要：本文介绍了如何使用AlexNet经典网络实现图像分类任务。文章首先讲解了图像分类的基本概念和AlexNet的历史意义，详细拆解了其8层网络结构（5卷积+3全连接层）及创新点（ReLU激活、Dropout等）。随后提供了完整的代码实现步骤，包括数据预处理、模型搭建、训练参数设置和测试方法，使用PyTorch框架完成花卉分类任务（玫瑰、郁金香等5类）。文章特别针对深度学习新手，用通俗语言解释了技术原理，并给出了常见问题解决方案和优化方向建议，帮助读者快速上手实践经典深度学习模型。

2025-11-20 15:58:28 1174 1

原创揭秘计算机网络的核心组成与功能

计算机网络是互联计算机系统的集合，由硬件（主机、路由器、交换机）和软件（协议、应用）组成，通过传输介质连接实现数据交换和资源共享。其主要功能包括：数据通信（信息传输）、资源共享（硬件、软件、数据）、分布式处理（负载均衡）以及提高系统可靠性（冗余备份）。网络按规模分为局域网（LAN）、城域网（MAN）和广域网（WAN），通过TCP/IP等协议实现互联互通，是现代信息化社会的重要基础设施。

2025-11-20 15:49:56 55

原创掌握Excel函数技巧，数据分析更轻松

本文汇总了Excel常用函数公式：1. 条件求和（SUMIF/SUMIFS）；2. 环比/同比计算公式；3. 文本处理（LEFT/MID/RIGHT）；4. 查找引用（VLOOKUP/INDEX）；5. 数学统计（MAX/MIN/COUNT）；6. 逻辑判断（IF/AND/OR）；7. 日期处理（YEAR/MONTH/DATEDIF）等。涵盖数据统计、文本处理、日期计算等场景，提供完整的函数语法和使用说明。

2025-11-20 10:07:44 611

原创手写数字识别：从零搭建神经网络

本文介绍了一个基于卷积神经网络(CNN)的手写数字识别系统，使用MNIST数据集实现。系统包含两个核心组件：模型构建(model.py)和训练过程(train.py)。模型采用典型CNN结构，包括卷积层(特征提取)、展平层(数据转换)和全连接层(分类计算)。训练过程通过数据预处理(归一化、添加通道维度)、批量训练(32样本/批次)和Adam优化器完成。系统在5个epoch内即可达到较高准确率，展示了CNN在图像识别任务中的有效性。整个过程清晰展现了深度学习模型的构建、训练和评估流程。

2025-11-19 18:17:46 1194

原创使用 PyTorch 实现 LeNet 网络进行 CIFAR10 图像分类（小白入门教程）

本文介绍了使用PyTorch实现LeNet卷积神经网络在CIFAR10数据集上进行图像分类的完整流程。项目包含三个核心文件：model.py定义LeNet网络结构，包含卷积层、池化层和全连接层；train.py实现模型训练过程，包括数据预处理、网络训练和模型保存；predict.py用于加载训练好的模型进行图像预测。文中详细解析了各模块的功能和代码实现，包括网络结构定义、数据加载与预处理、训练循环、验证过程和预测方法。该项目可作为深度学习初学者的入门案例，通过实践帮助理解卷积神经网络的工作原理及其在图像分类

2025-11-19 16:55:42 494

原创安装node时Invalid Drive: D:\，真正的解决办法

就会看到这里面有之前安装的盘符路径，把Node.js这个节点删了就行。因为我之前安装的时候是安装到了D盘，但是我后来给D盘格式化了。注册表可以用win+r打开运行窗口，输入regedit打开。然后再给这里面的node.js删了重新安装。解决办法是注册表中有之前安装的遗留信息。

2025-11-16 16:05:47 236

原创解决 This application failed to start because no Qt platform plugin could be initialized 问题

本文介绍了PyQt5开发环境的配置方法。首先通过pip安装PyQt5和pyqt5-tools两个必要包，然后重点说明如何设置Qt的platforms插件路径：在Windows系统中，需要找到PyQt5安装目录下的Qt5/plugins文件夹，并将该路径设置为QT_QPA_PLATFORM_PLUGIN_PATH环境变量。文中提供了两种查找路径的方法：直接指定完整路径或通过pip show命令查询PyQt5安装位置后拼接路径。这些步骤解决了PyQt5开发中常见的插件路径配置问题。

2025-11-16 09:41:41 132

原创 Python数据分析：轻松导入处理数据

本文演示了使用Pandas库进行数据导入、处理和导出的基本操作。首先导入CSV格式的员工数据，查看数据类型和数据尾部信息，计算薪资的平均值、最小值和最大值。随后将处理后数据导出为新的CSV文件，并展示了JSON格式数据的导入方法。整个过程涵盖了Pandas的基本数据操作流程，包括数据读取、统计分析和格式转换等常见任务。

2025-11-13 18:00:00 512

原创 Pandas DataFrame创建与操作指南

摘要：本文介绍了Pandas中创建DataFrame的两种主要方式：通过Series字典创建和使用字典直接创建。演示了如何指定列名、索引等参数，并展示了DataFrame的基本属性（索引、列名、值、维度等）。此外，还讲解了使用loc/iloc进行元素访问的操作方法，包括行选择、列选择等。最后展示了DataFrame的转置操作(T属性)以及对数据类型(dtypes)的查看。

2025-11-13 10:00:00 769

原创 Pandas Series创建与操作指南

摘要：本文介绍了Pandas库中Series数据结构的创建、属性和常用操作方法。主要内容包括：通过列表或字典创建Series，自定义索引和名称；Series的基本属性访问（如index、values等）；数据筛选与访问方法（loc、iloc等）；常用统计函数（mean、std等）；以及去重、排序等数据处理功能。代码示例展示了Series从创建到数据处理的完整流程，是Pandas基础数据操作的实用指南。

2025-11-12 23:36:40 336

原创掌握NumPy：ndarray核心特性与创建

本文介绍了NumPy中ndarray数组的基本特性和创建方法。主要内容包括：1) ndarray的多维性和同质性特性，不同维度数组的创建与属性；2) ndarray的各种属性如shape、ndim、size、dtype等；3) 多种数组创建方法，包括从列表创建、复制数组，以及使用zeros、ones、empty、full等函数创建预定义形状的数组；4) 类似函数zeros_like、ones_like等的使用方法。通过示例代码演示了不同创建方式的差异和应用场景。

2025-11-12 23:34:19 196

原创 ubantu网络助手打不开

ubantu网络助手打不开

2022-12-31 09:43:51 451

原创 hadoop生产调优之综合调优

hadoop生产调优之综合调优

2022-12-25 19:37:02 296

原创 hadoop生产调优之Hadoop-Yarn 生产经验（参数调优）

hadoop生产调优之Hadoop-Yarn 生产经验（参数调优）

2022-12-25 19:24:49 1543

原创 hadoop生产调优之HDFS—集群迁移和MapReduce 生产经验

hadoop生产调优之HDFS—集群迁移和MapReduce 生产经验

2022-12-25 18:52:06 234

原创 hadoop生产调优之HDFS—故障排除

hadoop生产调优之HDFS—故障排除

2022-12-25 18:44:58 652

原创 hadoop生产调优之HDFS—存储优化

hadoop生产调优之HDFS—存储优化

2022-12-25 18:12:26 480

原创 hadoop生产调优之HDFS—集群扩容及缩容和服务器间数据均衡

hadoop生产调优之HDFS—集群扩容及缩容和服务器间数据均衡

2022-12-25 17:44:19 725

原创 hadoop生产调优之HDFS—多目录

hadoop生产调优之HDFS—多目录和集群数据均衡

2022-12-25 17:18:35 300

原创 hadoop生产调优之HDFS—集群压测

hadoop生产调优之HDFS—集群压测

2022-12-25 17:07:05 548

原创 hadoop生产调优之HDFS核心参数

hadoop生产调优 ------ HDFS核心参数

2022-12-25 16:50:16 233

原创 PySpark--spark local 的环境部署

PySpark--spark local 的环境部署

2022-12-17 15:03:54 816

原创 PySpark--spark的基本概念

PySpark--spark的基本概念

2022-12-17 14:37:45 406

原创 python报org.apache.spark.SparkException: Python worker failed to connect back.

org.apache.spark.SparkException: Python worker failed to connect back.

2022-12-06 15:11:22 2124 3

原创 MapReduce经典案例--WordCount代码

MapReduce经典案例--WordCount代码

2022-11-11 20:32:53 1268

原创 3、电商数仓（数仓数据同步策略）

3、电商数仓（数仓数据同步策略）

2022-10-25 14:16:54 543

原创 Hive元数据配置到MySQL

Hive元数据配置到MySQL

2022-10-25 14:08:42 1005

原创大数据技术之DataX

大数据技术之DataX

2022-10-25 13:27:16 688

原创 2、电商数仓（业务数据采集平台）

电商数仓（业务数据采集平台）

2022-10-24 14:58:19 598

原创大数据技术之Maxwell

大数据技术之Maxwell

2022-10-24 14:54:24 403 1

原创 Linux的MySQL安装

Linux的MySQL安装

2022-10-24 14:20:04 454

原创 1、电商数仓（用户行为采集平台）

电商数仓（用户行为采集平台）

2022-10-24 09:30:22 1258

原创 Flume基础（3.0版本）

Flume安装部署（3.0版本）

2022-10-14 08:43:07 252

原创 Kafka安装部署（3.0.0）

Kafka安装部署（3.0.0）

2022-10-13 14:01:05 1933

【人工智能基础】基于高等数学与概率论的大模型核心技术解析：导数梯度矩阵与贝叶斯定理在深度学习中的应用研究

内容概要：本文系统介绍了大模型技术所依赖的核心数学基础知识，涵盖高等数学、线性代数和概率论三大领域。重点讲解了导数、偏导数、梯度、方向导数、二阶导数与函数凹凸性及拐点的关系；在线性代数部分涵盖了向量、矩阵、张量的基本运算、矩阵求导及其在梯度矩阵和黑塞矩阵中的应用；在概率论部分深入解析了概率基础、条件概率、贝叶斯定理、全概率公式、常见概率分布（如均匀分布、正态分布）、中心极限定理以及极大似然估计等关键概念。整体内容为理解深度学习和大模型背后的数学机制提供理论支撑。; 适合人群：具备一定数学基础，从事人工智能、机器学习或大模型相关研究与开发的工程师、研究人员，以及希望深入理解模型底层原理的学生（本科高年级及以上）。; 使用场景及目标：①掌握大模型训练过程中涉及的优化算法（如梯度下降）的数学原理；②理解损失函数、正则化、参数更新等操作的数学表达与推导；③为阅读和复现前沿论文中的数学公式打下坚实基础；④支持对模型行为进行数学建模与分析。; 阅读建议：建议结合具体的大模型实践项目同步学习，注重公式的推导过程与几何直观理解，可配合Python中的NumPy、SciPy等工具进行数值验证与仿真，以增强对抽象概念的实际感知。

2025-11-20

机器学习基于统计模型与算法的数据驱动技术：监督学习分类回归及无监督聚类降维方法研究

内容概要：本文系统介绍了机器学习的基本概念、发展历程、核心理论与常用算法。涵盖了机器学习的定义、与人工智能和深度学习的关系，梳理了从早期探索到大模型时代的发展脉络。详细阐述了机器学习三要素（模型、策略、算法）、主要分类（监督、无监督、半监督、强化学习），并通过建模流程引出特征工程的关键环节，包括特征选择、转换、构造与降维。深入讲解了模型评估中的损失函数、过拟合与欠拟合、正则化、交叉验证等核心技术，并介绍了梯度下降、牛顿法等求解算法。文章还重点剖析了KNN、线性回归、逻辑回归、感知机、决策树、支持向量机、集成学习及聚类等多种经典算法的原理、实现与应用。适合人群：具备一定编程基础和数学基础（如线性代数、概率统计），正在入门或希望系统巩固机器学习知识的研发人员、数据分析师及高校学生。使用场景及目标：①全面理解机器学习的核心概念、发展脉络和技术体系；②掌握从数据预处理、模型选择、训练优化到评估部署的完整建模流程；③深入理解KNN、线性回归、逻辑回归、决策树、SVM、集成学习等主流算法的工作原理和数学基础；④学会运用特征工程、正则化、交叉验证等关键技术解决实际问题。阅读建议：建议结合文中提供的代码示例进行动手实践，加深对算法实现的理解。在学习过程中，应重点关注模型背后的数学原理和假设，并通过实际项目应用来体会不同算法的适用场景和性能差异。

2025-11-20

TA关注的人

【人工智能基础】基于高等数学与概率论的大模型核心技术解析：导数梯度矩阵与贝叶斯定理在深度学习中的应用研究

机器学习基于统计模型与算法的数据驱动技术：监督学习分类回归及无监督聚类降维方法研究

hive和mysql的安装

大数据团队赛知识框架.xmind

Python（基础）.xmind

Python(高级).xmind

Kafka3.x从入门到精通.xmind

azkaban需要用到的资料文件

hadoop(HDFS)思维导图.xmind

hadoop（Mapreduce）思维导图.xmind

机器学习的sklearn库安装

hive怎么撤销上次动作