人生百态，人生如梦-优快云博客

原创 Hadoop期末复习（完整版）

复习之前我们要有目的性，明确考什么，不考什么。对于hadoop来说，首先理论方面是跑不掉的，而且还是重中之重。例如：hdfs的读写流程，hdfs副本机制等等。其次是hadoop命令,如果学习了hadoop不了解hadoop dfs …和hdfs dfs …那么你可以重修了。最后要明确那一部分会出什么题。下面背景色或者字体改变的背过就完了。

2024-11-01 21:06:18 2977 2

Hadoop分布式文件系统（HDFS）在早期版本中，由于只有一个NameNode来管理整个集群的元数据，随着集群规模的扩大，NameNode成为了性能瓶颈。此外，单个NameNode的设计也带来了单点故障的风险，影响了集群的可用性。为了解决这些问题，Hadoop 2.0引入了Federation机制，通过使用多个独立的NameNode和命名空间来实现水平扩展。在Federation架构中，每个NameNode管理自己的命名空间，并且它们之间是相互独立的，不需要进行协调。

2024-10-23 16:36:22 1430 1

原创大数据处理从零开始————10.MapReduce编程实践之统计历年最高温度

现在我们想统计历年来的最高温度，要从给定的数据中，计算每一年的最高温度是多少。

2024-10-12 16:48:37 863

原创大数据处理从零开始————9.MapReduce编程实践之信息过滤之学生成绩统计demo

1.1 需求概述现在我们要统计某学校学生的成绩信息，筛选出成绩在60分及以上的学生。1.2 业务分析如果我们想实现该需求，可以通过编写一个MapReduce程序，来处理包含学生信息的文本文件，每行包含【学生的姓名，科目，分数】，以逗号分隔，要求如下：分别编写一个Student类和一个Mapper类；Student 类包含以下字段：姓名(String)、科目(String)、分数(int)；需要自定义 Student 对象的序列化和反序列化方法，以便Hadoop能够正确处理它；

2024-10-11 21:59:40 1157

原创大数据处理从零开始————4.认识HDFS分布式文件系统

当单台服务器的存储容量和计算性能已经无法处理大文件时，分布式文件系统应运而生。什么是分布式系统，分布式系统是由多个独立的计算机或节点组成的系统，这些计算机通过网络连接，协同工作，以实现共同的目标或完成某些任务。Hadoop的分布式文件系统HDFS是基于Google的GFS（Google File System）论文建立的。HDFS优化了大数据的存储和访问，为处理海量数据提供了解决方案。HDFS是一个典型的Master/ Slave（主从）架构模型系统，旨在管理大型分布式数据集和密集计算。什么是主从架构？

2024-10-05 23:42:26 1834

原创大数据处理从零开始————8.基于Java构建WordCount项目

下载IntelliJ IDEA。全部下一步，中途遇到需要勾选的全部勾选即可。

2024-09-29 16:40:15 1106

原创大数据处理从零开始————3.Hadoop伪分布式和分布式搭建

伪分布式集群就是只有⼀个服务器节点的分布式集群。在这种模式中，我们也是只需要⼀台机器。但与本地模式不同，伪分布式采⽤了分布式的思想，具有完整的分布式⽂件存储和分布式计算的特点。在进⾏存储和计算时，将涉及到的相关守护进程都运⾏在同⼀台机器上，它们都是独⽴的 Java进程，因⽽称为“伪分布式集群”。伪分布式集群模式，⽐本地模式多了代码调试功能，允许检查内存的使⽤、HDFS输⼊输出、以及其他的守护进程交互情况。在真实的企业环境中，服务器集群会使⽤到多台机器共同配合，来构建⼀个完整的分布式⽂件系统。

2024-09-20 18:11:46 2009

转载 Datawhale------Tiny-universe学习笔记——Qwen(2)

对于推理的过程，问询不一样长没关系，因为所有的权重都是dim-dim，得到的attention_score是一个seq,seq的，权重跟seq的大小没关系。- 推理过程的attention_mask可有可无，是一个一个吐，循环cat到下一个，每一次都取最后一个，代表着预测的是下一个token.对于第二行，则是前两个有不同的权值，让value的128个维度分别依据这两个的权重，在128个维度上根据前两行，计算得出output的第二个词(第二步或者第二行)的128个维度.... 这种加权，体现出考虑前词关系。

2024-09-19 21:46:27 178

原创 Datawhale------Tiny-universe学习笔记——Qwen(1)

对于一个完全没接触过大模型的小白来说，猛一听这个名字首先会一懵：Qwen是啥。这里首先解答一下这个问题。下面是官网给出介绍：Qwen是阿里巴巴集团Qwen团队研发的大语言模型和大型多模态模型系列。其实随着大模型领域的发展，这类产品已经有很多了例如：由百度开发的ERNIE，由清华大学开发的Zhuiyi等等。目前，Qwen已升级至Qwen2版本。无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。

2024-09-16 22:18:55 1456

原创大数据处理从零开始————2.Hadoop环境配置

官网下载即可。密钥：百度搜索一下有很多。

2024-09-12 14:12:15 5992

原创 NLP从零开始------文本中阶处理之序列到序列模型（完整版）

序列到序列( sequence to sequence, seq2seq) 是指输入和输出各为一个序列(如一句话) 的任务。本节将输入序列称作源序列，输出序列称作目标序列。序列到序列有非常多的重要应用，其中最有名的是机器翻译( machine translation), 机器翻译模型的输入是待翻译语言(源语言) 的文本，输出则是翻译后的语言(目标语言) 的文本。此外，序列到序列的应用还有：改写( paraphrase)，即将输入文本保留原意，用意思相近的词进行重写；

2024-09-05 15:33:11 1892

原创 NLP从零开始------18.文本中阶处理之序列到序列模型（3）

贪心解码和束解码只是最基础的解码方法，其解码结果会出现许多问题。这里主要介绍3种常见问题，并简单介绍解决方案。

2024-09-05 15:28:00 1123

原创 NLP从零开始------17.文本中阶处理之序列到序列模型（2）

序列到序列模型可以看成一种条件语言模型，以源句x为条件计算目标句的条件概率该条件概率通过概率乘法公式分解为从左到右每个词的条件概率之积：序列到序列模型的监督学习需要使用平行语料，其中每个数据点都包含一对源句和目标句。以中译英机器翻译为例，平行语料的每个数据点就是一句中文句子和对应的一句英文句子。机器翻译领域较为有名的平行语料库来自机器翻译研讨会( workshop on machine translation， WMT)，其中的语料来自新闻、维基百科、小说等各种领域。

2024-09-04 21:15:50 1202

原创 NLP从零开始------16.文本中阶处理之序列到序列模型（1）

序列到序列( sequence to sequence, seq2seq) 是指输入和输出各为一个序列(如一句话) 的任务。本节将输入序列称作源序列，输出序列称作目标序列。序列到序列有非常多的重要应用，其中最有名的是机器翻译( machine translation), 机器翻译模型的输入是待翻译语言(源语言) 的文本，输出则是翻译后的语言(目标语言) 的文本。此外，序列到序列的应用还有：改写( paraphrase)，即将输入文本保留原意，用意思相近的词进行重写；

2024-09-01 20:05:10 1884

原创大数据处理从零开始————1.Hadoop介绍

大数据的定义是什么？百度百科是这样说的——大数据（Big Data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据有如下几个核心特征：1.容量（Volume）：数据的大小决定所考虑的数据的价值和潜在的信息2.种类（Variety）：数据类型的多样性3.速度（Velocity）：指获得数据的速度4.可变性（Variability）：妨碍了处理和有效地管理数据的过程。

2024-08-31 21:24:38 1442

原创 NLP从零开始------文本中阶序列处理之语言模型（完整版）

要想得到一个语言模型，最简单的想法是从一个大型语料库中直接统计不同文字序列出现的频率。然而由于文字序列的排列组合空间极大，不可能找到一个包含所有合理的文字序列的语料库，因此这个想法是不可行的。既然序列的概率无法通过经验频率来估计，那么是否可以通过概率乘法公式将其转换为一系列条件概率的乘积，转而估算这些条件概率呢?其中，表示输入文字序列中的第i个词。那么这个序列“自然语言”的概率可以分解为P(自然语言)=P(自)×P(然|自)×P(语|自然)×P(言|自然语)

2024-08-29 08:12:37 1467

原创 NLP从零开始------15.文本中阶序列处理之语言模型(3)

循环神经网络的一个主要局限是不能很好地建模长距离依赖，即使像长短期记忆这样的变体也只是改善而不是完全解决了长距离依赖的问题。其根本原因在于，如果序列中的第i个词需要对第j个词(假设j>i)产生影响，需经过j-i个计算步骤，而随着步数增加，第i个词的信息会很快衰减，被两个词之间其他词的信息所淹没。从另一个角度来看，每一步用来预测下一个词的隐状态都需要包含这个词左边所有词的信息，但隐状态的维度有限，因而所能表达的信息容量也有限，从而形成了信息瓶颈，阻碍了前置词信息的准确表示和传递。

2024-08-28 23:24:04 1104

原创 NLP从零开始------14.文本中阶序列处理之语言模型(2)

双向循环神经网络的填充更加复杂，正向和反向的循环神经网络的读取顺序相反，难以保证两个方向的循环神经网络都在末尾填充，实现起来较为困难。需要注意的是，双向循环神经网络在每个位置的输出同时包含来自左边和右边的信息，也就是整个输入序列的信息，因此双向循环神经网络不能用于语言模型，因为语言模型需要仅根据序列中每个词左边的信息来预测这个词。双向循环神经网络的结构包含一个正向的循环神经网络和一个反向的循环神经网络(即从右到左读入文字序列)，将这两个网络对应位置的输出拼接得到最终的输出，如下图所示。

2024-08-27 21:57:58 1205

原创 NLP从零开始------13.文本中阶序列处理之语言模型(1)

要想得到一个语言模型，最简单的想法是从一个大型语料库中直接统计不同文字序列出现的频率。然而由于文字序列的排列组合空间极大，不可能找到一个包含所有合理的文字序列的语料库，因此这个想法是不可行的。既然序列的概率无法通过经验频率来估计，那么是否可以通过概率乘法公式将其转换为一系列条件概率的乘积，转而估算这些条件概率呢?其中，表示输入文字序列中的第i个词。那么这个序列“自然语言”的概率可以分解为P(自然语言)=P(自)×P(然|自)×P(语|自然)×P(言|自然语)

2024-08-25 21:31:10 1433

原创 NLP从零开始------12. 关于前十一章补充（英文分词）

相较于基础篇章，这一部分相较于基础篇减少了很多算法推导，多了很多代码实现。

2024-08-24 22:03:19 1549

原创 AI大模型开发——7.百度千帆大模型调用

在 AI蓬勃发展的时代，大模型平台作为支撑大规模数据处理和复杂模型训练的基石，正逐渐成为推动科技创新和产业升级的重要力量。千帆大模型平台，凭借其卓越的性能、灵活的应用和强大的生态系统，已成为众多企业和研究机构首选的大模型解决方案。千帆大模型平台是一个集数据处理、模型训练、推理部署于一体的综合性平台，它提供了丰富的算法库和工具集，支持多种深度学习框架，能够轻松应对各种复杂的数据处理和模型训练任务。平台采用分布式计算架构，能够充分利用多节点计算资源，以实现高效的大规模数据训练和推理。

2024-08-22 21:43:04 8963 1

原创 AI大模型开发——1.基础概念和环境配置

在过去的几年里， AI大模型已经成为AI领域的一个热门话题，它们的能力在多个应用领域得到了空前的发展。但是， AI大模型究竟是什么?它们为什么如此重要?又是如何工作的呢?AI大模型，简而言之，是一类具有大量参数的深度学习模型，它们能够在大规模数据集上进行训练，学习丰富的数据表示和复杂的模式。与早期的机器学习模型相比，这些大模型通过其庞大的规模，能够捕获更为细致和深入的数据特征，从而在NLP、图像识别、语音识别等多个领域实现突破性的性能。AI大模型的核心特征包括其规模、能力和灵活性。

2024-08-21 14:43:54 1015

原创 AI大模型开发——transformer模型超全完整版（0基础可懂)

为了更深入的了解transformer模型，我们首先从transformer的诞生聊起吧。transformer在2017年由Vaswani等人首次提出，它摒弃了之前流行的循环神经网络和卷积神经网络的架构，引入了自注意力机制( Self-Attention)，显著提高了处理序列数据的能力和效率。transformer模型的这种设计使其在处理长距离依赖问题时，相比于传统的循环神经网络和长短期记忆网络(LSTM)表现得更加出色，至此，开启了NLP技术的新篇章。

2024-08-18 13:00:00 1611

原创 AI大模型开发——6.transformer模型（0基础也可懂）（3）

transformer模型的解码器是负责生成输出序列的部分，它采用与编码器相似但更复杂的结构，以适应序列生成的需求。解码器通过一系列的层来处理信息，每一层都执行特定的功能，包括输出嵌入、位置编码、掩蔽自注意力、编码器-解码器注意力、前馈神经网络以及残差连接和层归一化。以下是解码器执行步骤的详细说明。1 输出嵌入 ( Output Embedding)解码器的第一步是将其输入序列(即之前生成的输出序列)转换成高维空间中的向量表示。

2024-08-17 18:20:27 972

原创 AI大模型开发——5.transformer模型（0基础也可懂）（2）

transformer模型的编码器构成了模型处理输入数据的基础部分。编码器的设计使其能够处理复杂的序列数据，捕获序列内部的细粒度依赖关系。它通过一系列的层来实现，每一层都包含自注意力机制、残差连接( Residual Connection )、层归一化( Layer Normalization)以及前馈神经网络等关键组件。以下是编码器的执行步骤，详细解释了从自注意力机制开始的过程。

2024-08-16 17:58:58 1205

原创 AI大模型开发——4.transformer模型（0基础也可懂）（1）

为了更深入的了解transformer模型，我们首先从transformer的诞生聊起吧。transformer在2017年由Vaswani等人首次提出，它摒弃了之前流行的循环神经网络和卷积神经网络的架构，引入了自注意力机制( Self-Attention)，显著提高了处理序列数据的能力和效率。transformer模型的这种设计使其在处理长距离依赖问题时，相比于传统的循环神经网络和长短期记忆网络(LSTM)表现得更加出色，至此，开启了NLP技术的新篇章。

2024-08-15 21:02:32 1529

原创数模国赛前————latex速通教程

导言区%\documentclass{cumcmthesis} %要使用s{cumcmthesis} 这个环境\documentclass[withoutpreface,bwprint]{cumcmthesis} %去掉封面与编号页\usepackage{url} % 网页链接\usepackage{subcaption} % 子标题、\title{这里是标题}上面代码中\title{这里是标题}括号里面填你自己标题\maketitle % 生成标题。

2024-08-14 16:49:48 1477

原创 AI大模型开发——3.深度学习基础（2）

损失函数( Loss Functions)，也称为代价函数，是用于评估模型预测值与真实值之间差异的函数。在神经网络训练过程中，损失函数用于指导模型参数的更新方向和幅度，以使模型预测的结果尽可能接近真实值。常见的损失函数有以下两个。(1) 均方误差( Mean Squared Error, MSE), 其公式如下:其中，是样本i的真实值，是模型预测值， n是样本数量。MSE是衡量模型预测值与真实值差异的一种方式，通过计算预测值与实际值差的平方后，取平均得到。

2024-08-11 14:26:49 1422

原创 AI大模型开发——2.深度学习基础（1）

什么是深度学习？首先深度学习是机器学习的一个分支，是通过模拟人脑的神经网络结构来进行模式识别和学习。他在语音识别、图像识别，NLP以及其他很多领域展现了前所未有的性能，其中大语言模型是其NLP领域的一大应用。深度学习技术的核心技术在于深度神经网络，这种神经网络由多层的神经元组成，能够自动的从大量数据中学习复杂的表示，每一层都从前一层学习到的信息中提取到更高级的特征，这种层次化提取方法使得深度学习在处理大量非结构化数据（如图像、音频和文本）时表现出色。

2024-08-10 19:08:37 1733

原创 NLP从零开始------11文本进阶处理之新闻文本分类聚类示例

本小节将介绍运用朴素贝叶斯模型，分别采用自定义函数和调用 Python内置函数两种方法对新闻文本进行分类。新闻文本分类的流程包括以下步骤。(1)数据读取。读取原始新闻数据，共有1000条数据。(2)文本预处理。对原始数据进行预处理，对其进行去重、脱敏和分词等操作，并分别统计教育、旅游的词频，随后绘制相应的词云图。由于数据分布不均，对每个类别的数据各抽取400条，共抽取800条数据进行训练模型及分类。(3)分类和预测。

2024-08-09 16:04:52 1329 1

原创 NLP从零开始------10文本进阶处理之分类与聚类

随着网络时代的到来，用户可以获得的信息包含技术资料、商业信息、新闻报道、娱乐资讯的等等，可以构成一个异常庞大的具有异构性、开放性等特性分布式数据库，而这个数据库存放的是非结构化的文本数据，结合人工智能研究领域的nlp技术，从数据挖掘中派生出了文本挖掘这个新兴的数据挖掘研究领域。文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。文本挖掘是NLP中的重要内容。文本挖掘是一个从非结构化文本信息中获取用户感兴趣或有用模式的过程。

2024-08-08 18:26:03 1681

原创 NLP从零开始------9文本进阶处理之文本相似度计算

在自然语言处理中，经常会涉及度量两个文本相似度的问题。在诸如对话系统和信息减速等中，度量句子或短语之间的相似度尤为重要。在新闻学传媒中应用文本相似度可以帮助读者快速检索到想要了解的报道。文本相似度的定义式如下所示：其中，common(A,B)和A和B的共性信息，description(A,B)是描述A和B的全部信息，上式表达出相似度与文本共性成正相关。由于没有限制应用领域，由此此定义被广泛采用。相似度一般可用[0,1]中的实数表示，该实数可通过语义距离计算获得。相似度与语义距离呈负相关。

2024-08-07 17:50:00 4418

原创 NLP从零开始------8文本进阶处理之文本向量化

随着计算机计算能力的大幅度提升，机器学习和深度学习都取得了长足的发展。NLP越来越多的通过应用机器学习和深度学习工具解决问题，例如通过深度学习模型从网络新闻报道中分析出关键词汇与舆论主题并构建关系图谱。在这种背景下，文本向量化成为NLP一个非常重要的工具，因为文本向量化可将文本空间映射到一个向量空间，从而使得文本可计算。文本分类和聚类是NLP得得基础内容。这几节主要介绍文本进阶处理的文本向量化得常用方法、文本相速度的计算方法及常见的文本分类和聚类算法。本节先学习文本向量化。

2024-08-06 13:49:14 1716

原创 NLP从零开始------7基础文本处理之关键词提取

基于当前文档，在3种模型中，TF-IDF模型的结果较好，其次是TextRank算法，最后是LSI模型。LSI模型是较早期的主题模型，存在诸多不足之处，因此用于提取关键词时效果不太理想，相较之下TF-IDF算法和TextRank算法结果会比较好。由于提取关键词时，有些词语在文档中出现的频次、词性等信息比较接近，因此提取关键词时出现的概率很有可能一样，多次运行程序时，关键词出现顺序会往前或往后改变。

2024-08-03 21:59:14 2719 1

原创 NLP从零开始------6基础文本处理之命名实体识别

命名实体识别（Named Entity Recognition，NER）中的“命名实体”一般是指文本中具有特别意义或指代性非常强的实体（比如：人名，地名，时间或者机构组织等）。命名实体可分为实体类、时间类和数字类3大类，以及人名、机构名、地名、时间、日期、货币和百分比7小类。命名实体识别在NLP中占有重要地位，它是信息提取、机器翻译和问答系统等应用领域里的基础工具。命名实体识别的任务就是识别出文本中的命名实体，通常分为实体边界识别和实体类别识别两个过程。

2024-08-02 23:26:24 4384 2

原创 NLP从零开始------5基础文本处理之词性标注

现代汉语中的词性可分为实词和虚词，共有12种词性。实词有名词、动词、形容词等；虚词有副词、介词、连词等。中文词性通常会通过一些简单字母编码对词性进行标注，如动词、名词、形容词分别用“v”、“n”、“adj”表示。词性标注是指为分词结果中的每个词标注一个词性的过程，也就是确定每个词是名词、动词、形容词或其他词性的过程。中文词性标注相比与英文词性标注有一定的难度，这是因为中文不像英文可以通过词的形态变化判断词的词性。一个中文词可能有多种词性，在不同的句子中表现的意思也大不相同。

2024-08-01 22:30:58 1407

原创 NLP从零开始------4基础文本处理之分词（2）

随着近年来NLP技术的快速发展，自然语言处理中实现中文分词的工具逐渐增多，其中包括Ansj、HanLP和盘古分词等分词工具。由于在实际开发与研究过程中，使用jieba进行中文分词的人员占大多数，使用较为广泛。相比其他分词工具而言，jieba不仅包含分词这一功能，而且提供了许多分词以外的算法。jieba使用简单，并且支持Python、R、C++等多种编程语言的实现，对于新手而言是一个较好的入门分词工具。

2024-08-01 17:05:30 1416

原创 NLP从零开始------4基础文本处理之分词（1）

中文分词是指将汉字序列按照一定规范逐个切分为词序列的过程。在英文中，单词之间以空格为自然分隔符，分词自然地以空格为单位切分，而中文分词则需要依靠一定技术和方法寻找类似英文中空格作用的分隔符基于规则的分词是中文分词最先使用的方法，随着统计方法的发展，又提出了一些基于统计的分词模型。基于规则的分词：正向最大匹配发、逆向最大匹配法。基于统计的分词：隐马尔可夫模型、条件随机场模型。

2024-07-31 22:46:35 684

原创 NLP从零开始------3基础文本处理之语料库思考示例代码

1.首先下载一些影视作品的语料库通过构建完语料库之后，可以利用nltk的基本函数进行搜索相似词语。指定内容、搭配词语、查询文本词汇频数等相关操作。

2024-07-31 12:28:41 463

原创 NLP从零开始------3.文本基础处理之语料库

语料库是为某一个或多个应用而专门收集的、有一定结构的、有代表性的、可以被计算机程序检索的、具有一定规模的语料的集合。其实语料库的本质就是经过科学取样和加工的大规模电子文本库。对于语料库来说有三个显著特征：1.语料库中存放的是真实出现过的语言材料。2. 语料库是以计算机为载体，承载语言知识的基础资源。3.语料库是对真实语料进行加工、分析和处理的资源。任何一个信息处理系统都离不开语料库的支持，在nlp中更是如此。

2024-07-30 22:31:58 2095

NLP从零开始-4基础文本处理之分词（2）

空空如也