- 博客(166)
- 资源 (1)
- 收藏
- 关注
原创 LLM应用层推荐 -- 基于文档的问答tools & Web UI 框架 & 开源向量库 -- 推荐、对比
(待完善 – 之后会根据不同tools的使用附上使用链接)
2025-04-01 10:16:36
442
原创 LLM 发展简史:带你看懂 NLP 进化史,从 NLP 到 LLM 的非凡旅程(三)!(超细分析CNN、RNN、Transformer、LLM……)
自2022年1 1月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年有了实质性的突破。具体可分为:准备期、跃进期、繁荣期和深化期。SuperCLUE-12月2024测评结果,模型选取了国内外有代表性的42个大模型在12月份的版本。2023-2024年SuperCLUE基准国内外大模型Top3。如果显存充足(16GB+),可以考虑。2024年最值得关注的大模型全景图。通用能力测评:二级细粒度分数。
2025-03-07 18:40:48
788
原创 LLM 发展简史:带你看懂 NLP 进化史,从 NLP 到 LLM 的非凡旅程(二)!(超细分析CNN、RNN、Transformer、LLM……)
Transformer 是一种基于注意力机制(Attention Mechanism)的神经网络,最初用于机器翻译任务。由于其高效的并行计算能力和出色的性能。Transformer 在 NLP 领域广泛应用,解决了传统序列模型在长序列处理上的瓶颈问题,显著提升了NLP任务的性能和效率。输入准备分词输入嵌入位置编码编码器多层编码器结构多头自注意力机制前馈神经网络Add & Norm解码器输入准备多层解码器结构前馈神经网络Add & Norm线性变换和 Softmax生成输出。
2025-03-07 18:22:12
959
原创 LLM 发展简史:带你看懂 NLP 进化史,从 NLP 到 LLM 的非凡旅程(一)!(超细分析CNN、RNN、Transformer、LLM……)
卷积神经网络(Convolutional Neural Network, CNN)是一种深度学习模型,最初用于图像处理和计算机视觉任务。CNN通过卷积操作,可以有效地提取图像中的局部特征。循环神经网络(Recurrent Neural Network, RNN)是一种用于处理序列数据的神经网络,广泛应用于自然语言处理(NLP)和时间序列分析。RNN通过循环结构,能够记住前面输入的信息,适用于处理序列化的数据。
2025-03-07 18:02:57
711
原创 win11安装wsl报错:无法解析服务器的名称或地址(启用wsl2)
此原因是因为没有开启DNS的原因,所以需要我们手动开启DNS。Google的DNS(8.8.8.8和8.8.4.4)全国通用DNS地址 (114.114.114.114)可以看到现在已经可以安装所需的系统了。则需要开启启用虚拟平台。
2025-02-16 22:36:53
1490
原创 搭建本地私有知识问答系统:MaxKB + Ollama + Llama3 (wsl网络代理配置、MaxKB-API访问配置)
MaxKB 是一款基于 LLM 大语言模型的开源知识库问答系统,旨在成为企业的最强大脑,支持从多种数据源导入和管理知识。。开箱即用:支持直接上传文档、自动爬取在线文档,支持文本自动拆分、向量化、RAG(检索增强生成),智能问答交互体验好;
2024-07-25 11:31:48
2149
原创 Hadoop_Yarn实践 (三) => (Yarn的基础架构、原理、容量/公平调度器、Tool接口、Yarn常用命令、核心参数)
1)FIFO、容量、公平2)apache默认调度器 =》容量;CDH默认调度器= =》公平3)公平、容量 默认有一个default,需要创建多队列中小企业:hive spark flink mr中大企业:业务模块:登录、注册、购物车、营销好处:解耦降低风险 双11、618 降级使用4)每个调度器的特点:相同点:支持多队列、可以借资源、支持多用户不同点:容量调度器:优先满足先进来的任务执行公平调度器:在队列里面的任务,公平享有队列资源中小企业:对并发度要求不高,选择容量。
2023-06-27 10:42:12
1083
原创 Hadoop_MapReduce实践 (二) => (核心架构、序列化、Inputformat/切片、Shuffile/分区/排序、outputformat、join、ETL、压缩)
MapReduce是一个分布式运算程序的编程框架,是用户开发基于Hadoop的数据分享应用的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序并发运行在一个Hadoop集群上。1) 什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2) 为什么要序列化。
2023-05-29 11:27:11
1082
原创 常用快捷键整理(centos7、Notepad++代替操作、Idea、Excel)
【代码】常用快捷键整理(centos7、Notepad++、Idea、Excel)
2023-04-04 17:31:20
2100
原创 Hadoop_HDFS实践 (一)=>(架构、Shell相关操作、API、NN/2NN工作原理、DataNode工作机制等)
Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。HDFS 有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS 放宽了(relax)POSIX 的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。
2023-03-20 10:23:23
715
原创 Hadoop3.3.1完全分布式部署
Hadoop 是一种分析和处理大数据的软件平台,是一个用 Java 语言实现的 Apache 的开源软件框架,在大量计算机组成的集群中实现了对海量数据的分布式计算。结构框架推荐架构一个提供高可用的获取应用数据的分布式文件系统。从字面上来看,SecondaryNameNode 很容易被当作是 NameNode 的备份节点,其实不然。可以通过下图看 HDFS 中 SecondaryNameNode 的作用。NameNode主要是用来保存HDFS的元数据信息,比如命名空间信息,块信息等。当它运行的时候,这些
2023-02-23 18:31:38
1902
1
原创 Centos7 查看磁盘i/o, 定位占用i/o读写高的进程
如果%util接近100%,表明I/O请求太多,I/O系统已经满负荷,磁盘可能存在瓶颈,一般%util大于70%,I/O压力就比较大,读取速度有较多的wait,然后再看其他的参数。iostat主要用于输出磁盘IO和CPU的统计信息。需要安装yum-yinstalllsof。iostat属于sysstat软件包。间隔1秒显示一次,总共显示2次。,查看TPS和吞吐量信息。直接执行iotop命令。...
2022-07-25 10:12:30
4853
原创 安装MongoDB企业版(4.4.9) + 内部安全认证 + 开启静态加密
Architecture Reference Chart:根据规划将部署成两分片,三成员副本集(master+slaver+arbiter)的配置安装启动顺序:config–>shard–>mongos系统版本:centos7 64位创建一个文件,以便您可以使用以下命令直接安装 MongoDB 企业:2、安装 MongoDB 企业版4.4.9 。2.1、要安装特定版本,您必须单独指定每个组件包以及版本号,如下例所示:2.2、固定特定版本的 MongoDB Enterprise。尽管您可以指定任何可
2022-06-16 09:52:53
1626
原创 centos7部署单点Kubernetes1.18 + calico,以及遇到的问题解决
centos7部署单点Kubernetes1.181、修改 hostname2、检查网络3、安装docker及kubelet1、安装docker2、配置基础环境安装kubelet4、初始化 master 节点1、初始化 worker节点,获得 join命令参数2、初始化worker5、检查初始化结果备注:1、启动calico报错部署pod案例模板1、k8s pod 报错CrashLoopBackOff2、docker中crontab无法获取系统环境变量kuboard前提:至少2台 2核4G 的服务器
2022-05-16 17:05:22
2192
原创 Centos7 搭建Mongodb 分片集群4.0——配置三成员副本集+读写分离+升级+卸载(二)
五(1)、三成员副本集部署架构5.1、主要有两个次要成员 (PSS)具有三个存储数据的成员的副本集具有:One primary.Two secondary 成员.两个辅助节点都可以成为选举中的主节点。这些部署除了主要部署之外,始终提供数据集的两个完整副本。这些副本集提供了额外的容错性和高可用性。如果主节点不可用,则副本集选择辅助节点作为主节点并继续正常操作。旧的主节点在可用时重新加入集合。5.2、主节点和仲裁节点 (PSA)具有两个存储数据的成员的三成员副本集具有:One prim
2022-03-30 11:49:17
2782
原创 Centos7系统创建用户时出现“useradd: user ‘xxxx‘ already exists”错误(部署sssd启用ldap认证导致—> “ldap中包含创建的用户” )
Centos7系统上创建用户时出现“useradd: user 'xxxx' already exists”错误1、假设您正在尝试添加一个名为“leojiang”的用户并且您收到以下错误。2、调查,先查看系统上是否存在这个用户`leojiang`3、运行getent命令从名称服务切换库(Name Service Switch)中获取4、来让我们找到它,深入研究名称服务切换库配置文件。5、解决方案背景:Centos7上需要创建一个用户leojiang,而用户时间不纯在系统上,但是还是报错说用户已经存在。
2022-03-26 10:43:57
17141
原创 centos7 Rsync 远程同步文件
Rsync 远程同步文件**rsync实现免输入密码操作**sshpass使用案例:rsync全名Remote Sync,是类unix下数据镜像的备份工具。可以方便的实现本地,远程备份文件,rsync最重要的一点是支持增量备份。简单使用:[root@leo ~]# rsync -avhz /etc/fstab /tmp # 在本地同步[root@leo ~]# rsync -r /etc 172.16.10.5:/tmp # 将本地/etc目录拷贝到远程主机的/tmp下
2022-03-23 16:01:22
1005
原创 docker部署Airflow(修改URL-path、更换postgres -->myslq数据库、LDAP登录)
Airflow什么是 Airflow?Airflow 的架构Airflow 解决哪些问题一、docker-compose 安装airflow(postgres)1、创建启动文件airflow-docker-compose.yml.1.1、添加挂载卷,需要修改airflow-docker-compose.yml的位置2、创建本地配置文件airflow.cfg2.1、如果想修改WEB URL地址,需要修改airflow.cfg中以下两个地方3、之后up -d直接启动即可web访问地址:二、存储数据库更换post
2022-03-04 17:07:47
7040
3
原创 Centos7加密漏洞修复
漏洞修复1、`SSL Medium Strength Cipher Suites Supported (SWEET32)` && `TLS Version 1.0 Protocol Detection`2、`HSTS Missing From HTTPS Server (RFC 6797)`3、`SSH Weak Key Exchange Algorithms Enabled` && `SSH Server CBC Mode Ciphers Enabled`1、SSL Me
2022-02-24 16:48:53
7398
原创 kubernetes(k8s)修改service NodePort的端口范围
修改NodePort的范围1、修改kube-apiserver.yaml文件2、重启apiserver3、验证结果前提:在 Kubernetes 集群中,NodePort 默认范围是 30000-32767,某些情况下,因为您所在公司的网络策略限制,您可能需要修改 NodePort 的端口范围,本文描述了具体的操作方法。下面的配置是基于 kubeadm 安装的集群1、修改kube-apiserver.yaml文件使用 kubeadm 安装 K8S 集群的情况下,您的 Master 节点上会
2022-02-16 16:28:38
7767
原创 Centos7 搭建Mongodb 分片集群4.0+keyfile内部安全认证+清理日志+扩容缩容(一)
Centos7 搭建Mongodb 分片集群一、安装MongoDB社区版1、配置程序包管理系统(`yum`)2、安装MongoDB软件包。3、创建运行mongodb的目录并禁用SELinux4、修改文件打开数5、初始化系统5.1、mongoconfig.conf配置5.2、shard mongd.conf配置5.3、mongos.conf6、数据库加安全认证安装启动顺序:config–>shard–>mongos一、安装MongoDB社区版iptools146.11.5
2021-12-14 17:04:00
2115
原创 Python使用MongoClient报错 UserWarning: MongoClient opened before fork.
今天在使用python连接mongodb是遇到一个警告,在此作为记录警告内容如下:UserWarning: MongoClient opened before fork. Create MongoClient only after forking. See PyMongo's documentation for details: http://api.mongodb.org/python/current/faq.html#is-pymongo-fork-safe "MongoClient opene
2021-09-26 10:52:49
872
原创 docker部署Traefik1.7 转发marathon、file
Traefik1.7 转发marathon上的服务1、准备docker-compose启动文件注:假设你的主机ip为:10.11.0.0,后面皆以此为假设部署traefik-docker-compose.ymlversion: '3.3'services: reverse-proxy: image: traefik:v1.7-alpine command: --api --docker ports: - "80:80" - "443:443"
2021-09-16 10:04:05
473
原创 docker部署jupyterhub+SSL (HTTPS)/证书生成
JUPYTER1、JupyterHub简介2、先决条件3、安装准备可能用到的命令:添加用户到用户组证书生成1、JupyterHub简介支持多用户的 Jupyter Notebook 服务器,用于创建、管理、代理多个 Jupyter Notebook 实例。具有扩展性和可定制性。三个主要演员组成了 JupyterHub:多用户集线器(龙卷风过程)可配置的 http代理(node-http-proxy)多个单用户 Jupyter 笔记本服务器(Python/Jupyter/tornado)操
2021-09-03 17:43:22
2744
原创 Dockerfile配置crontab报错“new crontab file is missing newline before EOF, can‘t install.”
前提:操作系统:centos7想在docker容器创建时使用crontab定时自动运行脚本,于是在打包镜像时执行RUN crontab crontabfile命令报错:new crontab file is missing newline before EOF, can't install.原因:是因为指定的crontabfile文件是在window下编译的,所有无法直接在linux的crontab中直接使用解决方法打开crontab指定的文件查询文件是在什么环境下编辑的set ff修
2021-08-24 16:30:16
1598
原创 DEll服务器的IDRAC远程安装centos7/BIOS、固件升级 / 分区挂载
目录1、在浏览器中输入网址2、点这里远程登录界面3、要是浏览器没有弹出窗口,或者弹出的是个空白,到settings里把Plug-in Type改成HTML54、挂载安装光盘5、重启按F10进入lifecycle controller6、配置OS7、F11安装**报错**:文本安装分区挂载1、在浏览器中输入网址默认用户名:root,密码:calvin2、点这里远程登录界面3、要是浏览器没有弹出窗口,或者弹出的是个空白,到settings里把Plug-in Type改成HTML5再次远程登录界面
2021-04-25 09:38:58
9168
原创 centos7分区挂载及常见操作集/大于2T的磁盘分区
分区挂载1、安装LVM2、根据磁盘分区 /dev/vdb1创建物理卷,3、创建卷组3.1 将物理卷从卷组中移除即缩小卷组:3.2、从物理卷扩展卷组:3.3、删除卷组4、逻辑卷的创建与管理。4.1、创建逻辑卷`-L`指定大小(如果空间不足可以先缩容其中一个逻辑卷,参考4.2)4.2、增加/缩小逻辑卷4.2.1、增加:4.2.2、缩小以home为例:5、格式化逻辑卷,创建xfs文件系统6、查看文件系统及分区的UUID7、挂载文件系统 (文件夹挂载逻辑卷)前提:安装完centos7系统后发现需要重新调整分区大小
2021-04-22 16:25:23
6382
原创 centos7配置swap
1、查看swap 大小一般的swap大小是实体内存的1-2倍free -m2、创建/usr/swap文件,并进入该文件mkdir /usr/swap && cd /usr/swap3、创建5G大小的文件dd if=/dev/zero of=swapfile bs=1G count=54、查看创建文件的大小du -sh /usr/swap/swapfile5、修改为swap文件格式mkswap /usr/swap/swapfile6、修改文件权限chmod -
2021-04-15 11:07:22
983
原创 centos7安装MongoDB4.2社区版(单节点)
centos7安装MongoDB4.2社区版一、安装MongoDB社区版1、配置程序包管理系统(`yum`)。2、安装MongoDB软件包。3、运行MongoDB社区版使用默认目录(推荐)使用非默认目录(跳过)4、配置SELinux(如果SELinux处于`disable`模式下——跳过)4.1、允许访问`cgroup`(SELinux处于`enforcing`模式下)4.2、允许FTDC访问`netstat`(SELinux处于`enforcing`模式下)4.3、使用自定义MongoDB目录路径4.4、
2021-04-14 15:58:38
1438
1
原创 vim更改注释颜色
修改vim的配置文件vim /etc/vimrc到最后一行,插入 hi comment ctermfg=6 然后wq保存离开PS:默认的注释颜色是4 然后有0,1,2,3,4,5,6,7来选择。可以除了4和0以外选择其他的试试哦0 黑色 1 红色2 墨绿3 黄色4 难看刺眼的颜色,即默认的颜色5 类似粉色的6 淡蓝色7 白色 高于7以上都是白色的...
2021-03-11 10:36:51
1847
原创 docker启动的PostgreSQL报错:could not resize shared memory segment …… No space left on d
报错:could not resize shared memory segment "/PostgreSQL.1237020338" to 8388608 bytes: No space left on d原因:PostgreSQL动态共享内存过小,但是Docker的默认/dev/shm大小为64MB解决办法:修改PostgreSQL共享内存的大小:查看现在容器中分配/dev/shm内存的大小$ docker exec -it ID bash$ df -h | grep shmshm
2021-01-21 15:48:27
8949
原创 VirtualBox安装centos7手动分区/ssh访问/文本安装
1、选择桥接网卡2、打开 ssh 配置首先,登录虚拟机,使用 root 用户修改 ssh 的配置文件,打开 ssh 连接,具体如下:vi /etc/ssh/sshd_config最简单的修改就是直接把注释掉的 22 端口那行的 # 去掉就行了Port 22#AddressFamily any修改完配置之后,需要重启一下 sshd 服务,重启的命令如下:systemctl restart sshd.service3、打开ssh服务systemctl status sshdsyst
2021-01-04 14:37:16
2285
原创 centos7安装ansible/SSH 互信/NTP时区同步
如果中控机使用的是 CentOS 7 系统,执行以下命令:yum -y install python2-pip注:如果需要根据创建的用户进行免密可执行以下操作1~4以 root 用户登录中控机,执行以下步骤:1、创建 tidb 用户。useradd -m -d /home/tidb tidb2、设置 tidb 用户密码。passwd tidb3、配置 tidb 用户 sudo...
2020-11-16 08:52:20
651
原创 tiup部署的tidb集群主控机失去联系,如何恢复主控机再次操控集群。
版本:tidb-4.0明确下本次恢复的目的,是恢复 .tiup 中的元数据,此为管理集群的基础。有个这些元数据,新的 tiup 将会继续运维以前的集群,恢复步骤【1】手写一下最终的集群 topo 文件,需要批量将 instance 级别的 bin/{instance}-server 文件 mv ,解释可看 【2】根据 tiup 部署集群步骤,进行 deploy 操作,解释可看 【3】【2】 因为使用已发布的 tiup 进行部署,需要覆盖 instance 级别的 binary 文件,但是对正在运
2020-11-16 08:52:11
305
原创 centos7:Kubernetes高可用集群安装部署(版本1.13)——堆叠的控制平面和etcd节点/外部etcd节点
在v1.17,Kubernetes支持最多5000个节点的集群。更具体地说,我们支持满足以下所有条件的配置:不超过5000个节点吊舱总数不超过150000总集装箱不超过300000每个节点不超过100个Pod...
2020-11-16 08:51:55
1187
原创 mydumper/loader常用参数解释及使用,以及调整tidb数据库gc时间
mydumper 常用参数解释-B, --database 要备份的数据库,不指定则备份所有库-T, --tables-list 需要备份的表,名字用逗号隔开-o, --outputdir 备份文件输出的目录-s, --statement-size 生成的insert语句的字节数,默认1000000-r,...
2020-11-16 08:51:03
1814
1
原创 TiDB3.0 /4.0.0 扩容缩容
TiDB 扩容缩容TiDB 集群可以在不影响线上服务的情况下进行扩容和缩容。以下缩容示例中,被移除的节点没有混合部署其他服务;如果混合部署了其他服务,不能按如下操作。扩容 TiKV 节点编辑 inventory.ini 文件[tidb@dev10 tidb-ansible]$ vim inventory.ini## TiDB Cluster Part[tidb_servers]192...
2020-11-16 08:50:48
823
Springboot-helloworld案例
2018-09-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人