自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(79)
  • 收藏
  • 关注

原创 知识图谱03——知识图谱的存储与查询

第1节 基于关系型数据库的知识图谱存储第2节 基于原生图数据库的知识图谱存储第3节 原生图数据库实现原理浅析

2025-11-18 01:04:12 667

原创 知识图谱02——知识图谱的表示

第1节什么是知识表示第2节AI历史长河中的知识表示方法第3节知识图谱的符号表示第4节知识图谱的向量表示

2025-11-18 00:15:02 784 1

原创 知识图谱01——知识图谱概述

第1节语言与知识第2节知识图谱的起源第3节知识图谱的价值第4节知识图谱的技术内涵

2025-11-17 20:07:27 770

原创 推理技术 01

命题逻辑以“命题”为最小单位,仅能表示简单事实,无法刻画复杂关系;谓词逻辑通过引入谓词、变量、量词等,解决了命题逻辑的局限性,是更灵活的形式化表示工具。

2025-11-13 14:56:18 852

原创 神经网络 - 循环神经网络

时间序列数据指在不同时间点收集的数据,反映某一事物或现象随时间变化的状态或程度。序列数据不一定随时间变化(如文本序列),但所有序列数据都有一个共同特征:后序数据与前序数据存在关联。

2025-11-07 01:54:07 911

原创 神经网络 - 卷积神经网络

在全连接层中,假设前一层有nnn个神经元,当前层有mmm个神经元,那么会存在n×mn \times mn×m个可训练的权重(参数)。ajf∑i1nwji⋅xibjaj​f∑i1n​wji​⋅xi​bj​其中,xix_ixi​是前层第iii个神经元的输出,wjiw_{ji}wji​是前层第iii个神经元到当前层第jjj个神经元的权重,bjb_jbj​是当前层第jjj。

2025-11-07 00:18:02 1067

原创 神经网络—— 优化

类型批量大小核心特点随机梯度下降(SGD)每次随机选1个样本更新参数;更新速度快,但方向随机性大,收敛波动明显。小批量梯度下降(MBGD)1<batch_size<N(N为总样本数)综合SGD与BGD的优点:更新速度较快,波动较小;支持矩阵运算优化,无内存瓶颈。朴素梯度下降(BGD)每次用全部样本计算梯度;更新方向准确、稳定,但训练时间长,不支持在线更新。

2025-11-06 14:13:53 798

原创 神经网络—— 学习与感知器(细节补充)

用线性模型zθTxθ0zθTxθ0​学习特征与输出的关系;通过Sigmoid函数将zzz映射为[0,1]的概率hθxhθ​x;用交叉熵损失衡量预测误差,构建代价函数JθJ(\theta)Jθ;通过梯度下降法最小化JθJ(\theta)Jθ,得到最优参数θ\thetaθ;根据hθx≥0.5hθ​x≥0.5或0.5<0.50.5进行二分类。样本xxx到超平面的几何距离r∣wTxb∣∥w∥r。

2025-11-05 19:51:27 371

原创 神经网络—— 学习与感知器

监督学习是机器学习的一种方法,通过构建算法从带标签的训练数据(每个样本为“输入-期望输出”对)中学习,生成推理函数,用于对新样本进行预测或决策,而非遵循固定程序指令。无监督学习使用无标签样本进行训练,算法通过挖掘数据自身的内在结构(如聚类、降维)获取知识,无需人工提供“正确答案”。

2025-11-05 16:41:17 978

原创 神经网络—— 人工神经网络

生物神经元是构成神经系统的基本功能单位,其结构与信息处理机制是大脑实现认知功能的基础。

2025-11-05 16:34:17 1354 2

原创 神经网络—— 人工神经网络导论

人工智能是指通过计算机模拟或实现的智能,是研究如何使机器具备智能的技术,尤其研究如何在计算机上实现或复现人工智能。它是计算机科学的一个分支,融合了计算机科学、脑科学、神经生理学、心理学、语言学、逻辑学、认知科学、思维科学、行为科学、数学、信息论、控制论和系统论等多个领域的知识。人工神经网络(简称ANN)是一种信息处理系统,其设计灵感源于生物大脑,基于对生物大脑结构与功能的模拟,通过数学和物理方法开展研究。

2025-11-05 15:29:15 767

原创 neo4j

目录说明:bin:存放启动 / 停止数据库的脚本(如 neo4j.bat 是 Windows 启动脚本);conf:核心配置文件目录(重点修改 neo4j.conf);data:存储数据库数据(节点、关系等);logs:日志文件目录(排查错误用)。

2025-10-22 15:23:37 895

原创 &桶排序&

桶排序(Bucket Sort)是一种,核心思想是将待排序数据分散到若干个“桶”中,对每个桶内的数据单独排序(可复用插入排序、快速排序等),最后将所有桶的元素按顺序合并,得到整体有序的结果。它的效率高度依赖数据的分布特性,适合处理(如浮点数、整数)。

2025-10-17 17:47:41 877

原创 NLP意图识别

意图识别是自然语言处理(NLP)的核心任务,核心是,比如用户说“明天上海冷吗”,意图是“查询上海明日天气”。它是所有智能交互系统的“大脑中枢”,没有意图识别,机器就无法理解用户要“做什么”意图识别的方法随NLP技术演进,分为(依赖人工设计)和(自动学习特征)两大类,各有适用场景,需根据数据量、意图复杂度选择。

2025-10-17 13:49:49 675

原创 知识库检索

文本检索的本质是,主流算法分为“距离度量”和“相似度度量”两类,需根据场景选择最适合的方法。SimAB∥A∥∥B∥A⋅B​其中A⋅B是向量点积,∥A∥和∥B∥是向量的L2范数。计算两个向量夹角的余弦值,范围为 ([-1, 1])。值越接近1,方向越相似;值为0表示正交(无关)。

2025-10-17 11:57:56 691

原创 文本向量化

文本向量化的核心是,且向量需精准携带文本的语义信息(如“猫”和“狗”的向量距离近,“猫”和“飞机”的向量距离远)。

2025-10-17 11:33:01 754

原创 ollama+deepseek-r1:7b+ragflow+docker

RAGFlow是部署在虚拟机里的,默认情况下,Ollama 只能允许本机访问(监听 localhost:11434),其他设备(比如虚拟机)是无法连接的。如果你的 Ollama 只想给自己的虚拟机使用,而不想直接暴露 11434 端口让任何设备都能访问,你可以通过SSH 端口转发来实现;OLLAMA_HOST=0.0.0.0:11434:让虚拟机里的程序能访问本机上运行的 Ollama 模型。可能存在的问题:如果配置后虚拟机无法访问,可能是你的本机防火墙拦截了端口 11434,需要放行它。

2025-10-11 02:22:31 453

原创 Retrieval-Augmented Generation,检索增强生成

rag的流程拆解

2025-10-10 15:49:25 779

原创 自然语言处理(03)

语义分析

2025-09-28 15:17:18 685

原创 自然语言处理(02)

文本预处理

2025-09-27 18:43:37 829

原创 自然语言处理(01)

NLP是融合(语法、语义、语用)、(算法、数据结构)、

2025-09-27 16:25:24 605

原创 搜索技术(课堂例题)

要解决这个旅行商问题(从城市A出发,访问其他城市不多于一次并返回A,找最短路径),我们用状态空间法,通过定义状态、构建状态空间图来分析。深度优先搜索(DFS)的特点是尽可能“深”地搜索树的分支,优先沿着一条路径一直搜索到叶子节点,再回溯搜索其他路径。宽度优先搜索(BFS)的特点是按“层”遍历树,先访问完当前层的所有节点,再访问下一层的节点。,最佳路径的弧线依次连接上述各城市状态节点,代价标注为各段路程的数值之和。表示状态,其中已访问城市集合用集合形式,A为起始和最终城市,初始状态为。

2025-09-26 14:29:28 1105

原创 搜索技术(自学版02)

全文本搜索技术(FTS)是针对非结构化文本数据的高效检索方案,核心是通过倒排索引实现快速查询。其技术流程分为离线预处理和在线查询两大阶段:预处理环节包括文本清洗、分词、停用词过滤、词形归一化和索引构建;查询环节则包含查询处理、检索匹配和相关性排序。该技术解决了非结构化文本检索、海量数据处理和语义关联性三大核心挑战,广泛应用于搜索引擎、日志分析等场景。通过建立词条与文档的映射关系,实现毫秒级响应,同时支持AND/OR逻辑、短语匹配和模糊查询等多种检索方式。

2025-09-26 02:09:00 897

原创 搜索技术(自学版01)

传统搜索、图搜

2025-09-26 01:41:13 388

原创 LLaMA-Factory+Lora+modelscope(离线版)

LLaMA-Factory是一个开源的大模型训练与微调平台,支持多模态任务和跨硬件部署。其特点包括:1)支持上百种主流模型;2)提供多样化训练算法和量化技术降低显存需求;3)通过Web UI实现低代码操作;4)兼容国内网络环境。安装时需注意tokenizer配置问题,可能因网络或环境配置导致连接失败。该平台特别适合资源受限环境下的模型微调,相比Hugging Face等框架更易上手,但超大规模训练仍需依赖分布式工具。

2025-09-19 01:41:56 1184

原创 多线程与JUC并发编程

/ 自定义拒绝策略:将被拒绝的任务存入数据库,并发送告警@Override// 1. 将任务信息持久化到数据库(后续可人工重试)// 伪代码:保存任务详情// 2. 发送告警通知(如邮件、短信给开发人员)sendAlert("线程池任务被拒绝,任务信息:" + r.toString());// 伪代码:告警逻辑// 3. 可选:打印日志System.err.println("任务" + r + "被拒绝,当前线程池状态:" +

2025-09-04 16:04:38 731

原创 Java网络编程

目的是确保双方“发送能力”和“接收能力”都正常,避免“历史无效连接”。

2025-08-21 21:07:57 1091

原创 IP数据报相关内容

子网掩码(Subnet Mask)是一个32位的二进制数,与IP地址配合使用,用于明确区分IP地址中的“网络部分”(含原始网络位和子网划分时借的子网位)和“主机部分”。二进制中,1代表“网络位”,0代表“主机位”;例如:C类地址默认子网掩码,二进制是,表示前24位是网络位,后8位是主机位。

2025-08-17 00:34:18 696

原创 回顾稀疏数组

假设一个1000×1000的二维数组,其中只有10个非0元素,其余都是0。如果直接存储,需要占用1000×1000=1,000,000个存储空间;而用稀疏数组存储,只需要存储这10个有效元素的位置和值,极大节省内存。的二维数组的数据结构。当一个二维数组中只有少量有效数据(非0元素),而大部分元素是默认值(如0)时,使用稀疏数组可以大幅减少存储空间。通过稀疏数组,可以高效压缩数据,节省存储空间和传输成本。:存储原始数组的基本信息。:存储每个非0元素的信息。

2025-08-12 17:17:26 408

原创 web服务器 网站部署的架构

正向代理是代理服务器位于客户端与目标服务器之间,客户端通过它向目标服务器发送请求,目标服务器无法直接知道请求源于哪个客户端。反向代理是一种服务器,接收客户端的请求并将其转发到内部的一台或多台服务器。这种情况下,客户端并不知道具体哪个服务器在处理其请求。

2025-01-22 23:37:47 2269

原创 web速览

前端开发是构建网站用户界面的过程,主要关注网站的视觉效果和用户体验。又称为客户端。

2025-01-22 20:44:41 809

原创 CNN+LSTM+AM研究方向初尝试

长期特征提取:使用LSTM捕捉电力负荷数据的趋势和季节性。非平稳性处理:利用CNN处理负荷数据的随机性特征。自注意力机制:突出重要信息,建模长距离依赖关系。输入层输入为序列数据,通常是电力负荷数据。数据格式可能为一个二维张量,形状为[样本数, 时间步长, 特征数]。在短期负荷预测中,特征数可能只有一个,即电力负荷。LSTM层该层负责处理时间序列数据的长期依赖性。LSTM 通过内部的门控机制(输入门、遗忘门和输出门)来捕捉数据中的趋势和周期性。

2024-12-05 01:02:00 2206

原创 查漏补缺01

召回是从大量候选物品中筛选出一小部分潜在感兴趣的物品的过程。它在推荐系统中扮演着至关重要的角色,因为它在某种程度上决定了整个推荐的上限。

2024-12-02 00:21:56 1567

原创 Dify+Docker

直接下载(1)访问(2)点击绿色的"Code"按钮,然后选择"Download ZIP"(1)先找到文件所在的文件夹(通常在 dify 目录下的 docker 文件夹中)进入这个命令会启动在中定义的所有服务。

2024-11-30 00:15:42 1109

原创 大模型 LLM 八股文

LLM(Large Language Model,大型语言模型)是指基于大规模数据和参数量的语言模型。Transformer 架构:大模型 LLM 常使用 Transformer 架构,它是一种基于自注意力机制的序列模型Transformer 架构由多个编码器层和解码器层组成,每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离的依赖关系和语言结构,适用于处理大规模语言数据。自注意力机制(Self-Attention):自注意力机制是 Transformer 架构的核心组件之一。

2024-11-29 00:59:34 1173

原创 简历面-面经03

用户分类:根据用户的角色和职责划分用户类型,例如管理员、开发者和普通用户。角色创建:为不同的用户或服务创建特定的角色,这些角色具有不同的访问权限。例如,开发者角色可以管理函数代码,但不能删除函数。

2024-11-27 23:43:49 936

原创 简历面--面经03

使用特殊符号(如箭头)代替 NoOp 节点,直接在节点之间表示数据流向,减少节点数量,使图更清晰。例如,使用向上的箭头表示节点有一个输出指向 NoOp,使用向下的箭头表示节点有一个输入来自 NoOp。节点聚类和边缘捆绑: 根据命名空间和节点类型对节点进行聚类,并将同一层级的节点之间的多条边捆绑成一条边。将同一层且只有一个输出、没有输入且指向相同目标节点的常量节点合并成一个节点,减少节点数量,简化图的结构。简化图结构: 常量节点通常数量众多,且功能单一,将其聚合可以显著减少图中的节点数量,使图更简洁易懂。

2024-11-27 17:08:45 727

原创 简历面--面经02

编码器(下采样部分)和解码器(上采样部分)。编码器(Contracting Path)功能:提取特征并降低图像分辨率。结构:由一系列卷积层和池化层组成。每个卷积块通常包含两个卷积层,后跟一个最大池化层。通过这种方式,网络逐渐增加特征图的深度,减少空间维度。例如:在最开始的层中,输入图像通过一系列的卷积操作,得到更多的特征信息,再通过池化层减小尺寸。瓶颈层功能:连接编码器和解码器部分,通常是卷积操作,进一步提取特征。解码器(Expanding Path)功能。

2024-11-27 02:22:49 818

原创 简历面--面经01

Python 常用于数据分析、机器学习和 Web 开发,Java 则常用于企业应用和 Android 开发。我比较喜欢 Python,因为它的语法简单易读,而且社区支持非常强大,适合快速开发。O(n * W): 在处理背包问题时,W 表示背包的容量,n 表示物品的数量,表示存储所有可能状态所需的空间。请详细说明你在 Python 和 Java 中的项目经验。O(log n): 空间需求与输入规模成对数关系,通常出现在二分查找的递归实现中。O(1): 算法在运行时只需要常数级别的空间,与输入规模无关。

2024-11-26 15:55:27 798

原创 哈希表(极速学习版)

留余数法:简单易用,适合整数,但对数组大小选择敏感。折叠法:适合处理长键,具有较好的分布性,但实现较复杂。乘法哈希:能够生成更均匀的哈希值,适用性广,但实现相对复杂。

2024-11-22 17:42:52 822

从周期到非周期:傅里叶级数到傅里叶变换

从周期到非周期:傅里叶级数到傅里叶变换

2024-10-29

信息安全中的数论速通(快速理解纯干货版)

信息安全中的数论速通(快速理解纯干货版)

2024-10-28

数论中的代码实现(01)

数论中的代码实现(01)

2024-10-28

传统加密 代码篇(附markdown笔记源码)

传统加密 代码篇(附markdown笔记源码)

2024-10-14

Numpy数组概述(推免复习专用)

Numpy数组概述(推免复习专用)

2024-08-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除