自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

原创 深度学习100例 | 第31天-卷积神经网络(DenseNet)识别生活物品

🚀。

2023-07-28 10:16:42 1990 2

原创 【NLP入门教程】二十三、循环神经网络(RNN)| 小白专场

本教程旨在为初学者提供一份全面而系统的,探索NLP的核心概念、方法和技术。无论你是计算机科学的新手,还是对自然语言处理领域感兴趣的研究人员,本教程都将为你提供所需的基础知识和实用技能。当谈到自然语言处理(NLP)时,深度学习已经成为一种强大而广泛应用的技术。深度学习是一种机器学习方法,通过构建具有多层神经网络的模型来模拟和学习数据的复杂特征。在NLP领域,深度学习模型已经在多个任务上取得了突破性的性能,如文本分类、情感分析、机器翻译等。

2023-07-27 22:19:57 1275

原创 【NLP入门教程】二十二、深度学习与NLP简介

本教程旨在为初学者提供一份全面而系统的,探索NLP的核心概念、方法和技术。无论你是计算机科学的新手,还是对自然语言处理领域感兴趣的研究人员,本教程都将为你提供所需的基础知识和实用技能。当谈到自然语言处理(NLP)时,深度学习已经成为一种强大而广泛应用的技术。深度学习是一种机器学习方法,通过构建具有多层神经网络的模型来模拟和学习数据的复杂特征。在NLP领域,深度学习模型已经在多个任务上取得了突破性的性能,如文本分类、情感分析、机器翻译等。

2023-07-27 22:11:02 1046

原创 使用 Pandas 在 Python 中读写 JSON 文件

Pandas 是最常用的数据处理和可视化 Python 库之一。Pandas 库提供了可用于高效读取、操作和可视化以各种文件格式存储的数据的类和功能。在本文中,我们将使用 Python 和 Pandas 读取和写入 JSON 文件。JavaScript 对象表示法(JSON) 是一种以人类可读形式存储数据的数据格式。虽然从技术上讲它可以用于存储,但 JSON 文件主要用于客户端和服务器之间的序列化和信息交换。

2023-07-17 18:05:12 1880 2

原创 TextCNN 实现股票时间序列预测(TensorFlow2版)

本专栏旨在通过实战案例帮助深度学习初学者通过实战案例。

2023-07-17 17:25:04 1299

原创 BiLSTM(双向LSTM)实现股票预测(TensorFlow2版)|时间序列预测

BiLSTM(双向长短期记忆网络)是一种深度学习模型,属于循环神经网络(Recurrent Neural Network,RNN)的一种变体。BiLSTM 在处理序列数据时能够同时考虑上下文信息,因此在自然语言处理(Natural Language Processing,NLP)任务中得到广泛应用。

2023-07-17 10:50:12 1502 1

原创 全网首发!卷积神经网络(AlexNet)实现目标识别【附全部源码】

AleXNet使用了ReLU方法加快训练速度,并且使用Dropout来防止过拟合。AleXNet是首次把卷积神经网络引入计算机视觉领域并取得突破性成绩的模型。获得了ILSVRC 2012年的冠军,再top-5项目中错误率仅仅15.3%,相对于使用传统方法的亚军26.2%的成绩优良重大突破。和之前的LeNet相比,AlexNet通过堆叠卷积层使得模型更深更宽。卷积的计算。

2023-07-16 10:44:28 348

原创 【NLP入门教程】二十一、主题模型(LDA)

本教程旨在为初学者提供一份全面而系统的,探索NLP的核心概念、方法和技术。无论你是计算机科学的新手,还是对自然语言处理领域感兴趣的研究人员,本教程都将为你提供所需的基础知识和实用技能。当谈到主题模型时,最常用且广泛应用的模型之一就是Latent Dirichlet Allocation(潜在狄利克雷分配,简称LDA)。LDA是一种用于从文档集合中发现主题结构的生成概率模型。它可以帮助我们揭示文本数据背后的潜在主题,并对文档进行主题分类。本章将详细介绍LDA的原理、数学表达式和实际应用。

2023-07-02 10:00:00 412

原创 【NLP入门教程】二十、条件随机场(Conditional Random Fields)

条件随机场是一种常用的序列标注模型,广泛应用于自然语言处理任务中。通过考虑序列中标签之间的依赖关系,CRF能够更准确地进行序列标注。在本节中,我们介绍了CRF的数学原理,并以命名实体识别为例进行了说明。通过合理定义特征函数和权重向量,我们可以利用CRF对序列进行标注。希望通过本节的学习,你对条件随机场在自然语言处理中的应用有了更深入的理解。在接下来的教程中,我们将探索更多NLP的主题和技术。

2023-07-01 09:45:00 334

原创 【NLP入门教程】十九、隐马尔科夫模型(Hidden Markov Models)

隐马尔科夫模型(Hidden Markov Models,HMM)是一种统计模型,用于对观测序列和状态序列之间的潜在关系进行建模。它在自然语言处理领域中被广泛应用于语音识别、语言生成、机器翻译等任务。HMM的基本思想是将系统建模为一个马尔科夫过程,其中系统的状态不可见(隐藏状态),但可以通过观测到的数据(观测状态)进行间接推断。

2023-06-30 09:15:00 254

原创 【机器学习教程】六、K近邻算法

通过复杂的实战案例,我们进一步验证了K近邻算法在实际应用中的有效性。在机器学习领域中,有一种简单而强大的算法,被称为K近邻算法(K-Nearest Neighbors,简称KNN)。在本文中,我们将深入探讨K近邻算法的发展历程、重要论文、算法原理以及应用,并提供一个复杂的实战案例。Cover和Hart的论文进一步完善了KNN算法的概念,并提出了一种近似于现代KNN算法的形式。通过这个实战案例,我们可以看到K近邻算法在手写数字识别任务中取得了较高的准确率,展示了其在实际应用中的有效性。

2023-06-29 09:15:00 215

原创 【NLP入门教程】十八、支持向量机(Support Vector Machines)

支持向量机的原理基于统计学习理论和结构风险最小化原则。它的核心思想是找到一个最优超平面,将不同类别的样本分隔开来,并最大化间隔(margin)。该最优超平面由一些支持向量(support vectors)所决定,它们是离超平面最近的样本点。支持向量机有两种形式:线性支持向量机和非线性支持向量机。线性支持向量机在输入空间中寻找一个线性超平面进行分类,而非线性支持向量机通过使用核函数将输入空间映射到高维特征空间,从而实现在非线性情况下的分类。

2023-06-29 08:30:00 281

原创 【NLP入门教程】十七、朴素贝叶斯分类器

朴素贝叶斯分类器基于贝叶斯定理,利用特征的条件概率来进行分类。假设有一个样本x=(x₁, x₂, …, xn),其中x₁, x₂, …, xn是特征。朴素贝叶斯分类器的核心思想是假设给定类别C的条件下,特征之间是相互独立的。根据贝叶斯定理,我们可以计算后验概率P(C|x)如下:其中,P©是类别C的先验概率,P(x|C)是在给定类别C的情况下特征x的条件概率,P(x)是特征x的概率。

2023-06-28 11:30:00 516

原创 【NLP入门教程】十六、使用预训练词嵌入

下载预训练词嵌入模型: 首先,选择适合你任务的预训练词嵌入模型,比如Word2Vec、GloVe或FastText。这些模型通常在大规模语料库上进行训练,可以从官方网站或其他可靠的资源下载预训练的词向量文件。预训练词嵌入模型通过在大规模文本数据上进行训练,将每个单词映射到一个高维向量表示,捕捉了单词之间的语义和语法关系。这些预训练的向量可以用作其他NLP任务的输入特征,有助于提高模型的性能。获取词向量表示: 一旦加载了预训练词嵌入模型,你可以使用它来获取单词的向量表示。),加载下载的预训练词向量文件。

2023-06-27 18:00:00 448

原创 【机器学习教程】五、支持向量机(Support Vector Machines)

Boser B. E., Guyon I. M., Vapnik V. N. (1992) - “A training algorithm for optimal margin classifiers”:这篇论文提出了SVM的最优间隔训练算法,并奠定了SVM理论的基础。Vapnik V. N., Cortes C. (1995) - “Support-vector networks”:这篇经典论文首次引入了SVM的基本概念和原理,并详细介绍了线性可分和线性不可分情况下的解决方法。

2023-06-27 17:00:00 1032

原创 【NLP入门教程】目录

当今,自然语言处理(Natural Language Processing,NLP)已经成为计算机科学与人工智能领域的重要研究方向之一。它涉及计算机如何理解、分析和生成人类语言,使得计算机可以与人类进行自然而流畅的交流。NLP的应用范围广泛,涵盖等诸多领域。本教程旨在为初学者提供一份全面而系统的,探索NLP的核心概念、方法和技术。无论您是计算机科学的新手,还是对自然语言处理领域感兴趣的研究人员,本教程都将为您提供所需的基础知识和实用技能。

2023-06-27 15:23:08 982

原创 【机器学习教程】四、随机森林:从论文到实践

Breiman的论文《Random Forests》详细介绍了随机森林的原理和应用,并对其在分类和回归问题上的性能进行了全面的评估。本文将从算法的发展历程、重要论文、原理以及实际应用等方面详细介绍随机森林,并提供一个复杂的实战案例。随机森林是一种强大的集成学习算法,具有广泛的应用和优秀的性能。本文介绍了随机森林的发展历程、重要论文、原理和应用,并提供了一个复杂的实战案例。随机森林由于其卓越的性能和灵活性,在许多领域得到了广泛的应用。随机森林算法包括两个主要步骤:随机森林的构建和随机森林的预测。

2023-06-26 21:45:00 2572

原创 【NLP入门教程】十五、FastText保姆教程

FastText是一种基于词袋模型和n-gram特征的文本分类算法。相比于传统的词袋模型,FastText引入了子词(subword)的概念,从而更好地处理未登录词(out-of-vocabulary)和模糊词(morphologically rich word)。快速训练速度,适用于大规模文本数据集;能够处理未登录词和模糊词;支持多分类任务;简单易用。

2023-06-26 14:15:00 749

原创 【机器学习教程】三、决策树保姆式详解

我们使用的数据集是威斯康星州乳腺癌数据集(Wisconsin Breast Cancer Dataset),包含了乳腺肿瘤样本的特征信息和对应的良性/恶性标签。数据集中的特征包括肿块的半径、纹理、对称性等。

2023-06-25 14:15:00 188

原创 【NLP入门教程】十四、GloVe词向量模型

GloVe(Global Vectors for Word Representation)是一种用于生成词向量的无监督学习算法,由斯坦福大学的研究团队开发。与其他词向量模型(如Word2Vec)相比,GloVe利用了全局词汇统计信息和局部词汇上下文的共现统计信息,能够更好地捕捉词语之间的语义关系。GloVe模型的核心思想是通过最小化共现矩阵中词语向量之间的距离来学习词向量表示。它将词语之间的共现信息表示为一个稀疏的共现矩阵,然后通过对该矩阵进行因式分解来获得词向量。

2023-06-25 11:45:00 649

原创 【NLP入门教程】十二、词向量简介

词向量(Word Embedding)是自然语言处理中常用的一种表示文本的方法,它将单词映射到一个低维实数向量空间中的向量表示。词向量的出现很大程度上解决了传统文本处理方法中的维度灾难问题,并且能够捕捉到单词之间的语义和语法关系。

2023-06-24 10:15:00 510

原创 【机器学习教程】二、逻辑回归:从概率到分类的利器

我们使用的数据集是威斯康星州乳腺癌数据集(Wisconsin Breast Cancer Dataset),包含了乳腺肿瘤样本的特征信息和对应的良性/恶性标签。数据集中的特征包括肿块的半径、纹理、对称性等。

2023-06-24 08:30:00 904

原创 【Seaborn系列教程】二、基本图表

Seaborn是一个Python数据可视化库,它构建在Matplotlib之上,并使创建各种类型的图表变得更加容易。Seaborn提供了许多内置的图表类型,包括折线图、散点图、直方图、条形图和箱线图等。在本文中,我们将介绍如何使用Seaborn创建这些基本图表,并探讨一些可以用来优化和自定义这些图表的选项。

2023-06-23 15:29:26 355

原创 【机器学习教程】一、线性回归(Linear Regression):预测与拟合的利器

线性回归是一种经典的机器学习算法,用于建立自变量和因变量之间的线性关系模型。线性回归的原理基于对自变量和因变量之间线性关系的建模。其中,Y是因变量,X是自变量,β0和β1是回归系数,ε是误差项。我们的目标是找到最优的β0和β1,使得拟合的直线最好地描述数据。我们有一个包含房屋面积和房屋价格的数据集,我们将基于这些特征建立一个线性回归模型。这只是一个简单的房价预测案例,实际应用中可能会考虑更多的特征和数据预处理技术,以提高模型的准确性。现在,让我们来看一个复杂的实战案例,以演示线性回归的使用。

2023-06-23 14:36:47 911

原创 【NLP入门教程】十一、词袋模型与TF-IDF

词袋模型和TF-IDF是NLP中常用的文本表示方法,它们简单而直观,可以用于许多文本相关的任务,如文本分类、情感分析、信息检索等。词袋模型(Bag-of-Words Model) 词袋模型是一种简化的文本表示方法,它假设文本中的词语是独立的,只考虑词汇的出现频率,而不关注词汇的顺序和上下文信息。当一个词在某个文档中频繁出现(高TF值),并且在其他文档中很少出现(低IDF值)时,它往往具有较高的TF-IDF值,被认为是重要的关键词。可以看到,TF-IDF向量中的每个维度表示对应词汇的重要性。

2023-06-23 10:00:00 633

原创 无需专业知识!学会用TensorFlow 2实现天气识别的秘诀

残差网络是为了解决神经网络隐藏层过多时,而引起的网络退化问题。退化(degradation)问题是指:当网络隐藏层变多时,网络的准确度达到饱和然后急剧退化,而且这个退化不是由于过拟合引起的。深度神经网络的“两朵乌云”梯度弥散/爆炸简单来讲就是网络太深了,会导致模型训练难以收敛。这个问题可以被标准初始化和中间层正规化的方法有效控制。(现阶段知道这么一回事就好了)网络退化随着网络深度增加,网络的表现先是逐渐增加至饱和,然后迅速下降,这个退化不是由于过拟合引起的。ResNet-50有两个基本的块,分别名为。

2023-06-22 21:22:49 246

原创 【NLP入门教程】十三、Word2Vec保姆教程

Word2Vec是一种广泛使用的词嵌入技术,它能够将单词表示为连续向量,将语义上相似的词映射到相近的向量空间。Word2Vec模型是由Tomas Mikolov等人于2013年提出的,它基于分布式假设,即上下文相似的单词具有相似的含义。Word2Vec模型有两个主要的实现算法:连续词袋模型(Continuous Bag of Words,简称CBOW)和Skip-gram。CBOW模型试图从上下文预测目标词,而Skip-gram模型则相反,它从目标词预测上下文。这两种模型都使用了神经网络来学习词向量。

2023-06-22 18:35:15 1217

原创 【NLP入门教程】十、词干提取和词形还原

词干提取通常使用规则和启发式算法来识别和删除单词的词缀,以得到词干。综上所述,词干提取和词形还原是文本预处理过程中的重要步骤,有助于将单词转化为其基本形式。这些技术能够减少词汇表的大小,提高模型的泛化能力,并改善文本分析和建模的效果。在文本处理过程中,词干提取和词形还原是常见的技术,用于将单词转化为它们的基本形式。与词干提取不同,词形还原更加复杂,它考虑了单词的词根、词缀和上下文信息,以确定单词的原始形式。根据任务的要求和性能需求,选择适合的方法进行词干提取或词形还原。3.3 词干提取和词形还原。

2023-06-22 17:20:27 1561

原创 【NLP入门教程】九、停用词移除

停用词是指在文本中频繁出现但对于文本分析没有太多实际意义的词汇,如英语中的“the”、“is”、“and”等。在进行自然语言处理任务时,移除这些停用词可以降低数据维度,减小计算负担,同时提高模型的准确性。

2023-04-08 18:45:00 1116

原创 【NLP入门教程】八、数据清洗

数据清洗是文本预处理的第一步,主要目的是去除文本中的噪声和无关信息,使文本更加干净、规范化。

2023-04-08 11:45:00 1320

原创 【NLP入门教程】七、词义消歧

词义消歧(Word Sense Disambiguation, WSD)其目标是确定文本中词汇的正确含义。由于许多单词具有多种含义,词义消歧对于理解和分析文本具有关键作用。

2023-04-08 10:30:00 794

原创 【NLP入门教程】六、关系抽取

关系抽取(Relation Extraction, RE)是自然语言处理中的一项重要任务,其目标是从文本中识别并分类实体之间的关系。关系抽取对于构建知识图谱、信息抽取和问答系统等任务具有重要价值。

2023-04-08 10:00:00 1305

原创 【Seaborn系列教程】一、安装和设置 Seaborn

安装和设置 Seaborn Seaborn 是一个基于 Matplotlib 的 Python 数据可视化库,它提供了许多优雅、现代化的数据可视化方法,可以帮助您更快地探索和理解数据。总之,在使用 Seaborn 之前,您需要先安装 Seaborn,然后将其导入到 Python 代码中,并设置所需的绘图风格和其他选项。总之,在使用 Seaborn 时,您可以自定义调色板、调整图表风格、创建子图表和网格布局、可视化二元变量等。其他可用的调色板包括 “muted”、“pastel”、“bright” 等。

2023-04-07 15:58:40 7369 1

原创 【NLP入门教程】五、命名实体识别

命名实体识别(Named Entity Recognition, NER)是自然语言处理中的一项重要任务,其目标是从文本中识别并分类实体,如人名、地名、组织名、时间表达式等。命名实体识别对于信息抽取、知识图谱构建和问答系统等任务具有重要价值。

2023-04-07 11:07:34 1053

原创 【NLP入门教程】四、句法分析

句法分析(Syntactic Parsing)是自然语言处理中的一项重要任务,其目标是确定文本中词元之间的结构关系。句法分析可以分为两大类:短语结构分析(Phrase Structure Parsing)和依存关系分析(Dependency Parsing)。

2023-04-07 10:58:21 1157

原创 【NLP入门教程】三、词性标注

词性标注(Part-of-Speech Tagging,POS Tagging)是自然语言处理中的另一个基本任务。它涉及将文本中的每个词元(Token)标注为其对应的词性(如名词、动词、形容词等)。词性标注有助于我们理解文本的语法结构,进而支持更高级的文本分析任务,如句法分析、实体识别和依存关系抽取等。

2023-04-07 10:57:24 2311

原创 【NLP入门教程】二、分词

分词(Tokenization)是自然语言处理的基本步骤之一,它将文本拆分成更小的组成部分,如单词、短语或符号等。这些拆分后的组成部分称为“词元”(Token)。分词在许多NLP任务中都有重要应用,如文本分类、情感分析和机器翻译等。

2023-04-07 10:47:20 880

原创 【NLP入门教程】一、字符编码和Unicode

为了解决字符编码的兼容性问题,Unicode(统一字符编码)应运而生。Unicode是一种跨平台、跨语言的字符编码方案,它旨在为世界上所有的字符提供一个唯一的数字标识符(码点)。Unicode目前已经收录了超过13万个字符,涵盖了现代文字、历史文字、符号和表情等内容。Unicode使用的码点长度可变,通常为21位二进制数(能表示约210万个字符)。为了有效地存储和传输Unicode字符,出现了一些实现方式,如UTF-8、UTF-16和UTF-32等。

2023-04-07 10:43:11 653

原创 目标识别100例 | 第8例:鸟类识别 - 卷积神经网络(ResNet-50)

本文将采用`ResNet-50`实现鸟类图片的识别分类

2022-12-31 19:15:00 663

原创 目标识别100例 | 第7例:识别灵笼中的人物 -卷积神经网络(VGG-19)

本文将实现灵笼中人物角色的识别。较上一篇文章,这次我采用了VGG-19结构,并增加了预测与保存and加载模型两个部分。

2022-12-28 10:45:00 191

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除