乱蹦的小鱼干-优快云博客

原创 LLM应用层推荐 -- 基于文档的问答tools & Web UI 框架 & 开源向量库 -- 推荐、对比

（待完善 – 之后会根据不同tools的使用附上使用链接）

2025-04-01 10:16:36 442

原创 LLM 发展简史：带你看懂 NLP 进化史，从 NLP 到 LLM 的非凡旅程（三）！（超细分析CNN、RNN、Transformer、LLM……）

自2022年1 1月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年有了实质性的突破。具体可分为：准备期、跃进期、繁荣期和深化期。SuperCLUE-12月2024测评结果，模型选取了国内外有代表性的42个大模型在12月份的版本。2023-2024年SuperCLUE基准国内外大模型Top3。如果显存充足（16GB+），可以考虑。2024年最值得关注的大模型全景图。通用能力测评：二级细粒度分数。

2025-03-07 18:40:48 788

原创 LLM 发展简史：带你看懂 NLP 进化史，从 NLP 到 LLM 的非凡旅程（二）！（超细分析CNN、RNN、Transformer、LLM……）

Transformer 是一种基于注意力机制（Attention Mechanism）的神经网络，最初用于机器翻译任务。由于其高效的并行计算能力和出色的性能。Transformer 在 NLP 领域广泛应用，解决了传统序列模型在长序列处理上的瓶颈问题，显著提升了NLP任务的性能和效率。输入准备分词输入嵌入位置编码编码器多层编码器结构多头自注意力机制前馈神经网络Add & Norm解码器输入准备多层解码器结构前馈神经网络Add & Norm线性变换和 Softmax生成输出。

2025-03-07 18:22:12 959

原创 LLM 发展简史：带你看懂 NLP 进化史，从 NLP 到 LLM 的非凡旅程（一）！（超细分析CNN、RNN、Transformer、LLM……）

卷积神经网络（Convolutional Neural Network, CNN）是一种深度学习模型，最初用于图像处理和计算机视觉任务。CNN通过卷积操作，可以有效地提取图像中的局部特征。循环神经网络（Recurrent Neural Network, RNN）是一种用于处理序列数据的神经网络，广泛应用于自然语言处理（NLP）和时间序列分析。RNN通过循环结构，能够记住前面输入的信息，适用于处理序列化的数据。

2025-03-07 18:02:57 711

原创 win11安装wsl报错：无法解析服务器的名称或地址（启用wsl2）

此原因是因为没有开启DNS的原因，所以需要我们手动开启DNS。Google的DNS（8.8.8.8和8.8.4.4)全国通用DNS地址 (114.114.114.114)可以看到现在已经可以安装所需的系统了。则需要开启启用虚拟平台。

2025-02-16 22:36:53 1490

原创搭建本地私有知识问答系统：MaxKB + Ollama + Llama3 （wsl网络代理配置、MaxKB-API访问配置）

MaxKB 是一款基于 LLM 大语言模型的开源知识库问答系统，旨在成为企业的最强大脑，支持从多种数据源导入和管理知识。。开箱即用：支持直接上传文档、自动爬取在线文档，支持文本自动拆分、向量化、RAG（检索增强生成），智能问答交互体验好；

2024-07-25 11:31:48 2149

原创 Centos7 搭建Mongodb 分片集群4.0/ PSA（三成员副本集）

MongoDB是一个分布式非关系型数据库管理系统。

2024-04-12 14:58:24 1171

原创 Hadoop_Yarn实践 (三) =＞ (Yarn的基础架构、原理、容量/公平调度器、Tool接口、Yarn常用命令、核心参数)

1）FIFO、容量、公平2）apache默认调度器 =》容量；CDH默认调度器= =》公平3）公平、容量默认有一个default，需要创建多队列中小企业：hive spark flink mr中大企业：业务模块：登录、注册、购物车、营销好处：解耦降低风险双11、618 降级使用4）每个调度器的特点：相同点：支持多队列、可以借资源、支持多用户不同点：容量调度器：优先满足先进来的任务执行公平调度器：在队列里面的任务，公平享有队列资源中小企业：对并发度要求不高，选择容量。

2023-06-27 10:42:12 1083

原创 Hadoop_MapReduce实践 (二) =＞ (核心架构、序列化、Inputformat/切片、Shuffile/分区/排序、outputformat、join、ETL、压缩)

MapReduce是一个分布式运算程序的编程框架，是用户开发基于Hadoop的数据分享应用的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序并发运行在一个Hadoop集群上。1）什么是序列化序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。2）为什么要序列化。

2023-05-29 11:27:11 1082

原创常用快捷键整理（centos7、Notepad++代替操作、Idea、Excel）

【代码】常用快捷键整理（centos7、Notepad++、Idea、Excel）

2023-04-04 17:31:20 2100

原创 Hadoop_HDFS实践 (一)=＞(架构、Shell相关操作、API、NN/2NN工作原理、DataNode工作机制等)

Hadoop Distributed File System，简称 HDFS，是一个分布式文件系统。HDFS 有着高容错性（fault-tolerent）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS 放宽了（relax）POSIX 的要求（requirements）这样可以实现流的形式访问（streaming access）文件系统中的数据。

2023-03-20 10:23:23 715

原创 Hadoop3.3.1完全分布式部署

Hadoop 是一种分析和处理大数据的软件平台，是一个用 Java 语言实现的 Apache 的开源软件框架，在大量计算机组成的集群中实现了对海量数据的分布式计算。结构框架推荐架构一个提供高可用的获取应用数据的分布式文件系统。从字面上来看，SecondaryNameNode 很容易被当作是 NameNode 的备份节点，其实不然。可以通过下图看 HDFS 中 SecondaryNameNode 的作用。NameNode主要是用来保存HDFS的元数据信息，比如命名空间信息，块信息等。当它运行的时候，这些

2023-02-23 18:31:38 1902 1

原创 Centos7 查看磁盘i/o, 定位占用i/o读写高的进程

如果%util接近100%,表明I/O请求太多,I/O系统已经满负荷，磁盘可能存在瓶颈,一般%util大于70%，I/O压力就比较大，读取速度有较多的wait，然后再看其他的参数。iostat主要用于输出磁盘IO和CPU的统计信息。需要安装yum-yinstalllsof。iostat属于sysstat软件包。间隔1秒显示一次，总共显示2次。,查看TPS和吞吐量信息。直接执行iotop命令。...

2022-07-25 10:12:30 4853

原创安装MongoDB企业版(4.4.9) + 内部安全认证 + 开启静态加密

Architecture Reference Chart：根据规划将部署成两分片，三成员副本集（master+slaver+arbiter）的配置安装启动顺序：config–>shard–>mongos系统版本：centos7 64位创建一个文件，以便您可以使用以下命令直接安装 MongoDB 企业：2、安装 MongoDB 企业版4.4.9 。2.1、要安装特定版本，您必须单独指定每个组件包以及版本号，如下例所示：2.2、固定特定版本的 MongoDB Enterprise。尽管您可以指定任何可

2022-06-16 09:52:53 1626

原创 pymongo使用记录

2、报错处理1、报错：修正：eg2、报错：改正3、报错在 3.0 及以上版本已被删除。您现在应该改用可以改成

2022-06-15 15:38:45 1302

原创 centos7部署单点Kubernetes1.18 + calico,以及遇到的问题解决

centos7部署单点Kubernetes1.181、修改 hostname2、检查网络3、安装docker及kubelet1、安装docker2、配置基础环境安装kubelet4、初始化 master 节点1、初始化 worker节点，获得 join命令参数2、初始化worker5、检查初始化结果备注：1、启动calico报错部署pod案例模板1、k8s pod 报错CrashLoopBackOff2、docker中crontab无法获取系统环境变量kuboard前提：至少2台 2核4G 的服务器

2022-05-16 17:05:22 2192

原创 Centos7 搭建Mongodb 分片集群4.0——配置三成员副本集+读写分离+升级+卸载(二)

五（1）、三成员副本集部署架构5.1、主要有两个次要成员 (PSS)具有三个存储数据的成员的副本集具有：One primary.Two secondary 成员.两个辅助节点都可以成为选举中的主节点。这些部署除了主要部署之外，始终提供数据集的两个完整副本。这些副本集提供了额外的容错性和高可用性。如果主节点不可用，则副本集选择辅助节点作为主节点并继续正常操作。旧的主节点在可用时重新加入集合。5.2、主节点和仲裁节点 (PSA)具有两个存储数据的成员的三成员副本集具有：One prim

2022-03-30 11:49:17 2782

原创 Centos7系统创建用户时出现“useradd: user ‘xxxx‘ already exists”错误（部署sssd启用ldap认证导致—＞ “ldap中包含创建的用户” ）

Centos7系统上创建用户时出现“useradd: user 'xxxx' already exists”错误1、假设您正在尝试添加一个名为“leojiang”的用户并且您收到以下错误。2、调查，先查看系统上是否存在这个用户`leojiang`3、运行getent命令从名称服务切换库（Name Service Switch）中获取4、来让我们找到它，深入研究名称服务切换库配置文件。5、解决方案背景：Centos7上需要创建一个用户leojiang，而用户时间不纯在系统上，但是还是报错说用户已经存在。

2022-03-26 10:43:57 17141

原创 centos7 Rsync 远程同步文件

Rsync 远程同步文件**rsync实现免输入密码操作**sshpass使用案例：rsync全名Remote Sync,是类unix下数据镜像的备份工具。可以方便的实现本地,远程备份文件,rsync最重要的一点是支持增量备份。简单使用：[root@leo ~]# rsync -avhz /etc/fstab /tmp # 在本地同步[root@leo ~]# rsync -r /etc 172.16.10.5:/tmp # 将本地/etc目录拷贝到远程主机的/tmp下

2022-03-23 16:01:22 1005

原创 docker部署Airflow(修改URL-path、更换postgres --＞myslq数据库、LDAP登录)

Airflow什么是 Airflow？Airflow 的架构Airflow 解决哪些问题一、docker-compose 安装airflow（postgres）1、创建启动文件airflow-docker-compose.yml.1.1、添加挂载卷，需要修改airflow-docker-compose.yml的位置2、创建本地配置文件airflow.cfg2.1、如果想修改WEB URL地址，需要修改airflow.cfg中以下两个地方3、之后up -d直接启动即可web访问地址：二、存储数据库更换post

2022-03-04 17:07:47 7040 3

原创 Centos7加密漏洞修复

漏洞修复1、`SSL Medium Strength Cipher Suites Supported (SWEET32)` && `TLS Version 1.0 Protocol Detection`2、`HSTS Missing From HTTPS Server (RFC 6797)`3、`SSH Weak Key Exchange Algorithms Enabled` && `SSH Server CBC Mode Ciphers Enabled`1、SSL Me

2022-02-24 16:48:53 7398

原创 kubernetes(k8s)修改service NodePort的端口范围

修改NodePort的范围1、修改kube-apiserver.yaml文件2、重启apiserver3、验证结果前提：在 Kubernetes 集群中，NodePort 默认范围是 30000-32767，某些情况下，因为您所在公司的网络策略限制，您可能需要修改 NodePort 的端口范围，本文描述了具体的操作方法。下面的配置是基于 kubeadm 安装的集群1、修改kube-apiserver.yaml文件使用 kubeadm 安装 K8S 集群的情况下，您的 Master 节点上会

2022-02-16 16:28:38 7767

原创 Centos7 搭建Mongodb 分片集群4.0+keyfile内部安全认证+清理日志+扩容缩容(一)

Centos7 搭建Mongodb 分片集群一、安装MongoDB社区版1、配置程序包管理系统（`yum`）2、安装MongoDB软件包。3、创建运行mongodb的目录并禁用SELinux4、修改文件打开数5、初始化系统5.1、mongoconfig.conf配置5.2、shard mongd.conf配置5.3、mongos.conf6、数据库加安全认证安装启动顺序：config–>shard–>mongos一、安装MongoDB社区版iptools146.11.5

2021-12-14 17:04:00 2115

原创 Python使用MongoClient报错 UserWarning: MongoClient opened before fork.

今天在使用python连接mongodb是遇到一个警告，在此作为记录警告内容如下：UserWarning: MongoClient opened before fork. Create MongoClient only after forking. See PyMongo's documentation for details: http://api.mongodb.org/python/current/faq.html#is-pymongo-fork-safe "MongoClient opene

2021-09-26 10:52:49 872

原创 docker部署Traefik1.7 转发marathon、file

Traefik1.7 转发marathon上的服务1、准备docker-compose启动文件注：假设你的主机ip为：10.11.0.0，后面皆以此为假设部署traefik-docker-compose.ymlversion: '3.3'services: reverse-proxy: image: traefik:v1.7-alpine command: --api --docker ports: - "80:80" - "443:443"

2021-09-16 10:04:05 473

原创 docker部署jupyterhub+SSL (HTTPS)/证书生成

JUPYTER1、JupyterHub简介2、先决条件3、安装准备可能用到的命令：添加用户到用户组证书生成1、JupyterHub简介支持多用户的 Jupyter Notebook 服务器，用于创建、管理、代理多个 Jupyter Notebook 实例。具有扩展性和可定制性。三个主要演员组成了 JupyterHub：多用户集线器（龙卷风过程）可配置的 http代理(node-http-proxy)多个单用户 Jupyter 笔记本服务器（Python/Jupyter/tornado）操

2021-09-03 17:43:22 2744

原创 Dockerfile配置crontab报错“new crontab file is missing newline before EOF, can‘t install.”

前提：操作系统：centos7想在docker容器创建时使用crontab定时自动运行脚本，于是在打包镜像时执行RUN crontab crontabfile命令报错：new crontab file is missing newline before EOF, can't install.原因：是因为指定的crontabfile文件是在window下编译的，所有无法直接在linux的crontab中直接使用解决方法打开crontab指定的文件查询文件是在什么环境下编辑的set ff修

2021-08-24 16:30:16 1598

原创 DEll服务器的IDRAC远程安装centos7/BIOS、固件升级 / 分区挂载

目录1、在浏览器中输入网址2、点这里远程登录界面3、要是浏览器没有弹出窗口，或者弹出的是个空白，到settings里把Plug-in Type改成HTML54、挂载安装光盘5、重启按F10进入lifecycle controller6、配置OS7、F11安装**报错**：文本安装分区挂载1、在浏览器中输入网址默认用户名：root，密码：calvin2、点这里远程登录界面3、要是浏览器没有弹出窗口，或者弹出的是个空白，到settings里把Plug-in Type改成HTML5再次远程登录界面

2021-04-25 09:38:58 9168

原创 centos7分区挂载及常见操作集/大于2T的磁盘分区

分区挂载1、安装LVM2、根据磁盘分区 /dev/vdb1创建物理卷，3、创建卷组3.1 将物理卷从卷组中移除即缩小卷组：3.2、从物理卷扩展卷组：3.3、删除卷组4、逻辑卷的创建与管理。4.1、创建逻辑卷`-L`指定大小（如果空间不足可以先缩容其中一个逻辑卷，参考4.2）4.2、增加/缩小逻辑卷4.2.1、增加：4.2.2、缩小以home为例：5、格式化逻辑卷，创建xfs文件系统6、查看文件系统及分区的UUID7、挂载文件系统（文件夹挂载逻辑卷）前提：安装完centos7系统后发现需要重新调整分区大小

2021-04-22 16:25:23 6382

原创 centos7配置swap

1、查看swap 大小一般的swap大小是实体内存的1-2倍free -m2、创建/usr/swap文件，并进入该文件mkdir /usr/swap && cd /usr/swap3、创建5G大小的文件dd if=/dev/zero of=swapfile bs=1G count=54、查看创建文件的大小du -sh /usr/swap/swapfile5、修改为swap文件格式mkswap /usr/swap/swapfile6、修改文件权限chmod -

2021-04-15 11:07:22 983

原创 centos7安装MongoDB4.2社区版(单节点)

centos7安装MongoDB4.2社区版一、安装MongoDB社区版1、配置程序包管理系统（`yum`）。2、安装MongoDB软件包。3、运行MongoDB社区版使用默认目录（推荐）使用非默认目录（跳过）4、配置SELinux(如果SELinux处于`disable`模式下——跳过)4.1、允许访问`cgroup`（SELinux处于`enforcing`模式下）4.2、允许FTDC访问`netstat`（SELinux处于`enforcing`模式下）4.3、使用自定义MongoDB目录路径4.4、

2021-04-14 15:58:38 1438 1

Springboot-helloworld案例

空空如也