- 博客(48)
- 收藏
- 关注
原创 自然语言处理nlp--2.词汇分析(中英文单词形态分析,汉字自动分词原则、算法,未登录词识别,词性标注方法,词汇分析性能评价,含python.jieba库分词实验代码)
自然语言处理中的词法分析与词性标注是NLP的基础任务,其中词法分析包括英语的形态还原(处理规则/不规则变化、特殊形式和合成词)和中文分词(解决歧义切分和未登录词识别),主要采用最大匹配法、最短路径法和统计语言模型等方法;词性标注则针对词性兼类问题,结合规则(如词缀和上下文规则)、统计模型(HMM、ME)和深度学习方法(BiLSTM-CRF、BERT),并依赖标准标注集(如北大和Penn Treebank),其性能通过正确率、召回率和F值评估,这些技术为上层NLP应用提供基础支撑。也介绍了jieba库的原理。
2025-03-31 00:00:54
1168
原创 自然语言处理nlp--1.绪论(概念辨析、研究内容、主要困难、研究现状、研究方法、中/英文汉字/单词极限熵-信息量的比较)
自然语言处理的研究内容涵盖了从基础的语言理解到实际应用的多个方面,如机器翻译、信息检索、自动文摘等。其基本问题包括形态学、句法、语义、语用学和语音学等问题,主要困难在于歧义、未知语言现象、数据不充分性和语言知识表达的复杂性等。研究方法则主要分为理性主义方法和经验主义方法,近年来逐渐趋向于两者的融合。同时,给出了不同规模语料和不同语种字符的熵的比较和计算--单个汉字所携带的信息量平均为3.25个英文单词所携带的信息量,而全文的信息量不论语种应是趋于相同的。单个字符的熵最终会趋于收敛与一个定值。
2025-03-24 00:00:00
1546
原创 代表网络浅析(MLP BNN AlexNet VGG GooLeNet ResNet SENet U-Net R-CNN YOLO SSD GAN 扩散 LSTM GRU Seq2seq 注意力机制)
《智能计算系统-从深度学习到大模型(第二版-陈云霁等)》第三章学习笔记和拓展。本文汇总了各领域代表的神经网络,方便对比。深度学习作为机器学习的核心技术,推动了智能系统的快速发展。从最基础的多层感知机(MLP)到复杂的卷积神经网络(CNN)和生成对抗网络(GAN),深度学习模型在图像识别、自然语言处理等领域取得了显著进展。特别是在目标检测领域,R-CNN、YOLO和SSD等模型通过不同的创新优化了检测性能。近年来,Transformer、GPT和BERT等预训练模型的成功,标志着深度学习在NLP领域的突破。
2025-02-10 00:00:00
1874
原创 网络爬虫Spider--一篇搞懂(入门基础知识-网络、并发、练习网站,初级爬虫-Requests、BeautifulSoup库,中级爬虫-Scrapy框架,高级爬虫-动态页面、反爬虫,部署,含代码)
从入门到精通python网络爬虫技术:涵盖解析HTML和DOM结构,包括使用Python的requests库发送GET和POST请求,设置Headers和管理Session,通过BeautifulSoup解析HTML提取数据。对于动态内容,Selenium或Playwright等工具模拟浏览器执行JavaScript和处理AJAX请求。Scrapy框架管理爬取流程,支持登录和Token验证,并通过代理和其他策略应对反爬措施。爬取的数据可存入数据库或导出为文件,中间件和日志工具则优化爬虫的性能与调试。
2025-01-13 04:42:31
3101
原创 《智能系统控制》上机实验MATLAB(开环/闭环系统对比,专家PID控制器及五条规则,模糊控制及隶属度函数,模糊控制器设计实例-水箱、洗衣机,神经网络控制-BP逼近、RBF逼近、自适应控制,遗传算法)
《智能控制(第四版)-刘金琨》课本例题和课后上机实验代码汇总(部分)
2025-01-04 00:47:35
1136
2
原创 《信息论》研讨--信息论的深度学习模型理解
信息论由克劳德·香农(Claude Shannon)在20世纪中叶创立,主要研究信息的度量、存储、传输与处理。在机器学习和深度学习中,信息论提供了强有力的数学工具和理论框架,用于理解模型的学习机制、优化模型性能、进行特征选择以及提升模型的可解释性。本文研讨了信息论的概念、估计方法、基础应用以及在高维数据中的应用,结合论文,提出了总结与展望。
2024-12-11 16:29:47
1940
原创 《人工智能前沿》课程报告--论文精读--Seeing the Unseen: A Frequency Prompt Guided Transformer for Image Restoration
《看见未见之物:一种频率提示引导的用于图像修复的变换器》图像修复是计算机视觉中的重要任务,特别是在恶劣环境下,如雨天或雾霾中拍摄的图像。传统方法依赖空间信息,忽视频率成分,而频率成分对图像质量有重要影响。本文提出了一种基于频率提示的修复方法FPro,通过动态学习低通和高通滤波器解耦图像特征,利用频率提示调制器增强修复效果。与传统方法相比,FPro能更有效恢复图像细节和结构,尤其适用于复杂退化情况。该方法利用频率域信息提升修复效果,尤其是在去雨、去雾等任务中表现出色。
2024-12-08 23:53:26
1403
2
原创 从0开始机器学习--12.决策分析-运筹优化与数学建模(决策分析方法,评价模型-层次分析法AHP、灰色综合评价法/灰色关联法、模糊综合评价法、TOPSIS法、数据包络分析DEA、组合评价法,含代码)
机器学习与评价模型的关系紧密,决策分析方法用于解决多目标、多准则的问题,广泛应用于评价模型中。常见的评价模型包括层次分析法(AHP)、灰色综合评价法(灰色关联法)、模糊综合评价法、TOPSIS法、数据包络分析(DEA)及组合评价法。从思想原理、算法步骤、应用场景、优缺点、简单python代码方面介绍和实现这些方法。
2024-12-05 02:15:19
1278
原创 Python制图(数据可视化处理与分析绘图大全,词云图,瀑布图、桑基图、旭日图、蜡烛图、地图,机器学习模型解释性图、训练决策边界、梯度优化过程、拟合结果,TensorBoard介绍,含代码和展示)
本文介绍了多种数据可视化方法,使用经典数据集如iris或伪数据为例,绘制了以下图表:核密度图、箱线图、小提琴图、气泡图、蜂群图、三维散点图、折线图、雷达图、散点图回归线、条形分布图、堆叠条形图、饼图、配对图、热力图、极坐标图、分面图、区域图、平行坐标图、漏斗图、瀑布图、树状图、甘特图、桑基图、旭日图、蜡烛图、地图,以及文字形式的词云图、网络图等。此外,还介绍了tensorboard的使用以及展示了模型解释性图表,如梯度下降过程的三维可视化和训练集与测试集分布对比图以及模型的训练可视化结果。
2024-11-29 02:04:09
2629
1
原创 从0开始机器学习--11.关联规则挖掘基础(概念-频繁项集、关联规则、支持度置信度提升度,经典算法-Apriori、哈希树优化支持计数,关联模式评估与复杂度分析,应用与未来趋势,含代码)
关联规则挖掘是一种从海量数据中发现隐藏模式的核心技术,广泛应用于零售、网络安全、医疗诊断等领域。通过经典算法如Apriori和高级优化方法如FP-Growth,结合支持度、置信度等评估指标,解决复杂数据分析难题。面对高维数据和倾斜支持度等挑战,未来趋势包括深度学习融合、实时挖掘和隐私保护。探索关联规则挖掘,助力数据价值最大化!
2024-11-18 00:54:21
2316
原创 《操作系统OS》期末复习笔记(引论、进程描述与控制、处理机调度与死锁、存储器管理、虚拟存储器、系统调用概念及UNIX系统命令)
根据《计算机操作系统(第四版)--汤小丹 梁红兵等》整理的操作系统前五章期末复习笔记及UNIX系统中常用的系统调用命令整理(知识点+例题)。操作系统的主要功能和四大特性、引起进程创建和终止的事件、进程同步机制和经典的进程同步问题、线程概述、作业和进程调度算法、如何避免死锁、连续分配存储管理方式、分页和分段存储管理方式、快表、请求分页和请求分段存储管理方式以及各自的地址变换流程、页面置换算法、系统调用和常见的UNIX命令。
2024-11-12 02:18:16
1381
原创 《数字图像处理》课程设计--基于灰度变换、Harris角点检测与聚类的图像区域分割方法--报告+代码
设计要求:对图像中任意感兴趣区域提取和标记。
2024-11-09 03:17:15
1045
原创 《数字图像处理》课程设计--基于预处理和EasyOCR的图像文本识别技术研究--报告+代码
解决问题:分割随机角度拍摄的图中的标签,并将标签中的字符按序识别出来。
2024-11-09 02:51:14
1360
4
原创 《DIP数字图像处理》复习笔记--6.图像分割与描述识别(边缘检测-Canny检测,直线检测-霍夫Hough变换,阈值分割,区域生长分割,模板、算子,图像表达与描述,模式识别概论)
根据“冈萨雷斯《数字图像处理》(第四版)”教材,本文重点介绍了图像分割和边缘检测技术,包括基于边界和区域的分割方法,以及Canny边缘检测、阈值分割、区域分割和分水岭变换,并且介绍了各类检测模板和算子。此外,简述了图像特征描述方法,如链码和傅里叶描述子,及模式识别在图像分类中的应用。
2024-11-08 04:58:14
1313
原创 《DIP数字图像处理》复习笔记--5.图像编码基础(图像压缩、冗余、编码定理,霍夫曼Huffman编码、香农Shannon-Fano编码、算术编码、LZW字典编码、行程编码、预测编码、变换编码,案例)
根据“冈萨雷斯《数字图像处理》(第四版)”教材,本文讨论图像编码基础。图像压缩旨在通过编码减少数据冗余,以便节省存储空间和传输带宽。编码方式分为有损与无损压缩,常见方法包括霍夫曼编码、Shannon-Fano编码、算术编码和LZW编码等。JPEG和MPEG则通过离散余弦变换与熵编码实现高效压缩。不同编码技术可根据需求在存储、传输和处理效率间取得平衡。
2024-11-08 02:35:44
1304
原创 《DIP数字图像处理》复习笔记--4.彩色图像处理(色彩基础、颜色模型及转换、色彩变换,灰度映射、彩色图像增强,含matlab中的相关函数)
根据“冈萨雷斯《数字图像处理》(第四版)”教材,本文主要讨论了图像颜色的基础知识和相关模型,重点包括颜色的三要素(色调、饱和度、明度),三基色原理,RGB、CMY、HSV等颜色模型的定义及应用,并介绍了色度图和伪彩色处理的技术。文中还概述了不同颜色模型的转换方法和在特定领域(如视频处理)的应用特点。
2024-11-08 00:08:59
1398
原创 《DIP数字图像处理》复习笔记--3.频率域滤波(傅里叶变换FT、余弦变换CT、沃什变换和哈达玛变换、低通滤波、高通滤波)
根据“冈萨雷斯《数字图像处理》(第四版)”教材,本文介绍了傅里叶变换在数字图像处理中的应用,包括其将图像从时域转换到频域以简化滤波和降噪。傅里叶变换使卷积操作更高效,有助于频域滤波器的设计,用于增强或抑制图像特征。在频域中,低频位于中心代表平滑区域,高频位于边缘表示细节。
2024-11-07 20:32:10
1515
原创 《DIP数字图像处理》复习笔记--2.灰度变换与空间滤波(图像运算,图像增强,直方图修改技术,空域滤波-图像平滑、中值滤波、线性滤波,什么是卷积,图像边界处理策略,图像锐化-梯度算子、拉普拉斯算子)
根据“冈萨雷斯《数字图像处理》(第四版)”教材,系统介绍了图像增强、滤波、编码和分割等基础知识,图像增强技术通过灰度变换、锐化和滤波等手段,提升图像质量,利于识别和分析。空域与频域处理结合逻辑、算术运算,用于噪声抑制与细节增强,广泛用于医学、遥感等领域。
2024-11-07 17:03:43
1303
2
原创 《DIP数字图像处理》复习笔记--1.数字图像基础(定义,概念、图像数字化,采样定理,量化级数选择,插值公式,参数信息、图像分类、像素间的相邻关系、图像存储)
根据“冈萨雷斯《数字图像处理》(第四版)”教材的顺序展开,解释数字图像处理中的重要知识点,本章主要介绍了数字图像处理的基本概念、过程和技术。数字图像是由具有不同灰度值的像素组成,通过采样、量化和编码等步骤实现数字化。图像处理的过程包括图像的采集、存储、传输和处理,广泛应用于医学、遥感等领域。处理的核心问题涉及图像数据的有效化、存储和传输,并且通过采样定理保证图像信号的完整性。图像的分辨率、灰度级和存储需求是影响图像质量和处理效率的重要因素,同时还介绍了邻接像素点之间的关系一级距离的计算。
2024-11-07 11:02:26
2005
原创 《计算机网络》详细复习笔记(概述、物理层、数据链路层、网络层、运输层,含重要知识点、协议讲解,名词解释,英语缩写介绍)
根据教材《计算机网络》谢希仁编著(第八版),包括计算机网络的基本概念包括分层模型(如OSI七层和TCP/IP四层)、数据传输方式(电路交换、报文交换、分组交换)、协议要素(语法、语义、同步)、时延与性能(传播时延、发送时延、处理时延)、数据链路层功能(帧封装、差错控制)、网络层路由机制(IP地址、路由器)及网络设备(如交换机、网桥)。运输层则涵盖UDP和TCP协议,包括UDP与TCP首部结构、socket定义、数值端口号、TCP连接的三次握手、数据发送、四次挥手,以及滑动窗口、流量控制和拥塞控制等概念。
2024-11-05 17:10:18
1085
原创 大模型微调、优化与评估(什么是大模型,知识外挂RAG,前缀微调prefix-tuning,低秩适应方法LoRA、QLora,微调方法对比总结,迁移学习,领域适应,评估指标BLEU、ROUGE)
大模型的出现就是一次生产力的进步,本文深入探讨大模型微调、优化与评估技术,尤其微调和领域适应,通过详尽实例、图表和清晰解释什么是检索知识增强RAG、指令微调低秩适应方法LoRA以及他的改进版QLora,让复杂概念易于理解。微调技术涵盖知识注入和指令微调,以实际案例展示RAG方法增强信息检索。文中进一步介绍迁移学习的原因与分类及适用场景、评估标准(如BLEU和ROUGE)。
2024-11-01 03:37:05
1276
原创 《数据结构》课程设计--c++快速排序、希尔排序、冒泡排序、堆排序、归并排序、基数排序
使用c++实现 std::sort函数、快速排序(第一个元素作为枢纽元、中间的元素作为枢纽元)、希尔排序、冒泡排序、堆排序、归并排序、基数排序。含代码和分析。
2024-10-27 04:15:57
756
原创 《博弈论与强化学习》课程报告--论文精读--基于Offline-to-Online深度强化学习的分散式任务卸载策略研究
原论文通过离线预训练和在线微调相结合,构建了O2O-DRL模型以解决冷启动问题,从而在边缘环境中实现高效、实时的任务调度。实验结果表明,O2O-DRL在多种负载条件下优于传统方法,展示了其在边缘计算应用中的可行性和扩展潜力。
2024-10-27 03:47:45
1662
原创 《数据挖掘》课程设计--表单票据的理解识别
本次实验,本组成员在colab环境下利用Layoutlmv3模型对XFUND数据集中的中文、德语、日语、法语、意大利语表单进行内容识别,通过改进模型以及选择不同的模型提升表单识别准确率,验证了Layoutlmv3模型在处理多语言、复杂布局表单的内容识别任务中的有效性,同时深入了解了Layoutlmv3这种多模态模型。目的使用Layoutlmv3模型对XFUND数据集进行预测。方法1. 使用cnn和bert拆解Layoutlmv3模型;2. 在colab上运行layoutlmv3模型。结果。
2024-10-27 01:16:42
854
原创 GIT学习笔记(命令查询手册大全)
本文介绍了git的区域、基本命令大全及作用、如何远程链接(github)以及对一个项目的分支划分,还有git功能在vscode中的便捷使用。
2024-10-08 06:00:00
1047
原创 从0开始机器学习--10.延申应用-数据分析DA(GMV,A/B测试,辛普森悖论,蒙特卡洛模拟,吉布斯采样,含2024数学建模国赛相关部分代码)
主要是数据分析岗位的一些面经,包括GMV、A/B测试、辛普森悖论、蒙特卡洛模拟、吉布斯采样,以及相关部分的一些具有实际意义的python代码。
2024-10-08 00:57:18
1508
原创 从0开始机器学习--9.启发式算法(pulp,粒子群PSO、模拟退火SA、遗传GA算法剖析+对比,TOPSIS、NSGA-II组合算法介绍,含代码)
详细介绍粒子群PSO、模拟退火SA、遗传GA算法,并详细介绍和对比这些启发式算法的主要应用场景,并含TOPSIS、NSGA-II组合算法。含可运行的代码。
2024-10-07 22:41:33
1826
2
原创 从0开始机器学习--8.强化学习(详细原理概念、策略Q-学习,SARSA,DQN、策略优化、算法大全,含代码)
深入解析:基础概念,动态规划、Q-learning、SARSA、DQN、ac、PD算法,Boltzmann、ϵ-greedy策略,优先级回放技术
2024-10-07 05:15:15
2167
原创 《机器学习》《数据挖掘》课程设计--推荐算法(“CCSCW2024”赛题-学者网数据分析)
本文着重打造了一个解释性高的学者推荐系统--CCSCW全国计算机支持的协同工作学术会议2024协同智能大数据赛题
2024-10-06 22:56:04
1738
原创 从0开始机器学习--7.模型的评估&敏感性分析(评估目标,数据集划分方法,泛化概念,混淆矩阵,性能度量-Acc、查准/查全率、F1、ROC曲线、MSE、R方,PAWN、导数、单变量扰动,含公式、代码)
介绍了几种常见的机器学习模型评估方法,包括测试集选择与划分方法、交叉验证方法、性能度量等。测试集用于估计模型的泛化误差,交叉验证法和自助法等可减少训练集大小的影响。对于分类任务,采用准确率、精确率、召回率、F1分数、AUC值等指标来评估模型效果;而回归任务则通过均方误差、均方根误差、平均绝对误差和决定系数等指标进行评估。混淆矩阵在分类任务中用于详细展示模型的误差类型,帮助分析模型性能。
2024-10-06 05:16:59
1278
原创 从0开始机器学习--6.2神经网络模型(深度学习、cnn卷积、rnn循环、lstm、解码编码器、自编码器,含mnist处理代码)
聚焦于pytorch框架下的cnn(含mnist识别手写数字集)、rnn和lstm、解码器编码器、自编码器模型(对MNIST数据集图像的降维和重建)。
2024-10-06 04:54:44
1803
原创 从0开始机器学习--6.1神经网络概念+基础(深度学习框架介绍,什么是张量tensor?梯度?超参数?Epoch?批Batch?激励、损失函数?优化器?初始化?,含华为2024“智联杯”实战)
介绍并对比三种最常见的深度学习框架。以pytorch框架展开,详细介绍梯度问题、数据类型、两种典型的数据初始化方法、超参数的意义与作用、model.train()和model.eval()的用法与区别、以及激励函数损失函数和优化器的定义与作用、实际搭建步骤、算法原理、前向后向传播、快速搭建法、保存和提取,以及迁移学习等神经网络模型中的基础知识。
2024-10-06 02:22:05
1287
原创 从0开始机器学习--5.正则化技术(L1、Lasso模型,L2、岭回归,Elastic Net,含代码)
这篇文章详细介绍了机器学习中用于降低模型复杂度的三种正则化技术,并提供代码和可视化结果说明和检验。
2024-10-05 04:50:48
1215
原创 从0开始机器学习--4.4分类(knn、决策树、集成模型、自定义回归器类、逻辑回归、对数几率回归、SVM支持向量机、朴素贝叶斯、贝叶斯估计,概念、算法原理、决策边界、代码)
机器学习分类模型--knn、决策树、集成模型、逻辑回归、对数几率回归、SVM支持向量机、朴素贝叶斯。具体概念介绍、原理解析、决策边界辨析、任务场景、示例代码......
2024-10-05 03:59:38
1816
2
原创 从0开始机器学习--4.3机器学习模型-回归(线性回归模型原理、假设、衍生,ARIMA(SARIMA),灰色预测模型,train_test_split 函数,含代码和场景实战)
详细解析专用于回归的基础机器学习模型--线性回归(包括多项式非线性回归),ARIMA(SARIMA)模型以及灰色预测模型。详细原理、数据假设、参数检验。
2024-10-04 22:10:01
1562
原创 从0开始机器学习--4.2机器学习模型-降维(含t-sne处理美团、微博相关语料,ICA分离混合信号,LDA线性判别分析介绍-Fisher判别器,PCA降维iris数据集实战)
简要介绍了几种常见的降维方法,包括主成分分析(PCA)、线性判别分析(LDA)、t-SNE和独立成分分析(ICA),并且对于每一种方法给出了应用示例。从0入门机器学习--降维模型算法。
2024-10-04 02:55:29
1228
原创 从0开始机器学习--4.1机器学习模型-聚类(距离算法,K-means、层次聚类、DBSCAN,评价指标、轮廓系数、肘部原则,含代码、分析潜在客户实战)
从0入门机器学习,本篇分享几种最常用的聚类算法如k-means,参差聚类等等,包括其原理、聚类算法的评价指标,还有对各种距离公式(马氏、欧式、明氏、余弦距离、汉明距离等等)的计算。
2024-10-04 00:22:28
1804
原创 从0开始机器学习--4.0编码和嵌入(onehot独热、word2vec、node2vec、TFIDF,LabelEncoder、 OneHotEncoder和TargetEncoder,含代码)
本文详细介绍了不同的编码(onehot)、嵌入(word2vec、node2vec)、文本提取(TF-IDF)方式,并介绍了不同的编码器库函数。
2024-10-03 21:35:00
1084
原创 从0开始机器学习--3.数据预处理(图像、文本、音频、结构化数据清洗、增强方法大全,大数据相关性分析,含2024年亚太杯中文赛实战)
数据处理是机器学习中至关重要的一步,确保模型在干净、高质量的数据上进行训练。在这一篇文章中,我们将聚焦对于各种数据形式的各种处理方式。含2024亚太杯中文赛项相关题目实战。
2024-10-03 20:06:55
1954
工科必修基础课-大学物理(力学、电磁学、光学)-手写笔记
2024-10-27
高等数学-数一-概率论与数理统计-手写笔记
2024-10-27
高等数学-数一-线性代数-手写笔记
2024-10-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人