- 博客(127)
- 资源 (29)
- 收藏
- 关注
原创 检索增强生成(RAG)的局限性
让大模型先对问题进行一轮抽象,从大体上去把握用户的问题,获得一层高级思考下的语料块。这个策略的提示词写作:isandis假如是医疗咨询的场景,用户描述了一大段病情、现象、感受、担忧;或者在法律服务的场景,用户描述了现场情况、事发双方的背景、纠纷的由来等一大段话的时候,我们就可以用这个策略,让大模型先理解一下用户的意图是什么,这个事情大体上看是什么问题。
2025-04-04 15:00:00
359
原创 什么是检索增强生成(RAG)
是一种结合了信息检索和文本生成技术的新型自然语言处理方法。这种方法增强了模型的理解和生成能力。相较于经典生成式模型,检索增强生成技术通过引入外部数据源的实时上下文信息,无需修改模型参数即可动态整合未训练过的新知识,有效提升生成内容与搜索需求的相关性。这种机制能够灵活融合互联网实时资讯、企业专属业务场景数据及私有化文档资料等多样化信息源,在不触发模型重训练的前提下持续优化大语言模型的输出质量。接下来我们用一个通俗易懂的例子来解释检索增强生成。你是一个导游,在你的工作中遇到了问题。
2025-04-03 20:32:57
512
原创 大模型-提示词(Prompt)最佳实践
所谓提示词工程(Prompt Engineering)就是研究如何构建和调整提示词,从而让大语言模型实现各种符合用户预期的任务的过程。就像跟AI沟通的艺术,为了让像DeepSeek这样的大语言模型更好地理解你的需求,你需要清晰地描述你的需求,提供必要的背景信息,明确告诉AI你想让它做什么。就像跟人沟通一样,你需要不断调整你的表达方式,直到AI理解你的意思,并给出你想要的答案。为了引导大模型按照我们预想的要求来完成各项任务,作为使用者,我们需要不断调整提示词,构建有效的提示词,从而不断地提升大模型的表现。
2025-04-02 11:46:26
537
原创 大模型-提示词(Prompt)技巧
提示词的概念; 提示词技巧:直接提问、增加示例、分配角色、限定输出风格和格式,拆解复杂任务,使用分隔符号区分单元。
2025-04-01 23:30:06
1207
原创 大模型的特点和工作流程
在2021年,斯坦福大学的研究员团队发表了一篇论文,提出了(基础模型,即大模型)的概念。简单来说,它是一类具有大量参数(通常在十亿以上),能在极为广泛的数据上进行训练,并适用于多种任务和应用的预训练深度学习模型。在2022年11月,美国OpenAI公司发布了ChatGPT——一种先进的人工智能语言模型,专为对话交互而设计,具有强大的自然语言理解和生成能力,可以完成撰写论文、邮件、脚本、文案、翻译、代码等任务。
2025-03-30 22:19:36
1019
原创 DeepSeek入门到大师 清华大学[1-5版]全集
DeepSeek是什么?DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应用。DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。
2025-02-23 23:14:23
658
原创 机器学习-生命周期
在使用机器学习中的术语表述上述用户申请贷款的例子时,可转换为二分类法评估用户的信用:信用好可以放款,信用差则拒绝放款。针对评估用户的信用问题,我们有哪些解决方案?人工审核或者采用机器学习的方式。假如确定采用机器学习的方式:最重要的是,应该如何衡量机器学习的结果,这个结果和期望相差多少如何减小这种差距。第一步便是定义问题,这需要团队成员同思考,给出各自的建议和理解,确定解决问题的思路。
2025-02-19 00:19:52
905
原创 机器学习-数据预处理(附完整代码)
在进行数据挖掘中,原始海量的数据中存在着大量不完整(有缺失值)、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以对首先对数据进行清洗就显得尤为重要,在数据清洗完成后,后续伴随着数据集成、转换、规约等一系列的处理,该过程就是数据预处理。数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。统计发现,在数据挖掘的过程中,数据预处理工作量占到了整个过程的60%。
2025-02-07 00:02:16
1385
原创 机器学习-数据标注(二)
是指三维数据的一种重要表达方式,通过激光雷达等传感器,能够采集到各类障碍物以及其位置坐标,而标注员则需要将这些密集的点云分类,并标注上不同属性,常应用于。数据标准是通过分类、画框、标注、注释等,对图片、语音 、文本等数据进行处理,标记对象的特征,以作为机器学习基础素材的过程。、语义分割、实例分割、 目标检测、图像分类、关键点、线段标注、文字识别转写、点云标注、属性判断等。负责对文本、图像、语音、视频等标注数据进行归来、整理、编辑、标记和批注。是对事物属性进行标签,属性标注包括:文本类别、新闻、娱乐等。
2025-01-16 23:01:42
1038
原创 SparkSQL 执行底层原理解析
从Spark SQL 底层架构可以看到,我们写的SQL语句,经过一个优化器(Catalyst),转化为RDD,交给集群执行。SQL到RDD中间经过了一个Catalyst,它就是Spark SQL的核心,是针对Spark SQL语句执行过程中的查询优化框架,基于Scala函数式编程结构。
2023-12-24 20:55:08
1709
原创 Elasticsearch的分片平衡问题解决
2023年11月份在某电商系统生产中的Elasticsearch(以下简称ES)集群突然,出现了大量慢查询告警,导致请求堆积。经过几天的排查发现了ES节点主分片和副本分片分布存在不均匀的问题。当然了暂未有定论是由于分片不均衡导致了性能下降,但是主分片和副本分片分布不均匀确实是个问题。
2023-12-24 16:18:07
3093
原创 基于Headless构建高可用spark+pyspark集群
在启动spark worker脚本中需要传入master的地址,在容器云kubernetes dns且设置了service的缘故,可以通过ecc-spark-master.ecc-spark-cluster.svc.cluster.local:7077访问。没有默认负载均衡器,可直接访问 Pod IP 地址。spark master分为两个部分,一个是类型为ReplicationController的主体,命名为ecc-spark-master.yaml,另一部分为一个service,暴露master的。
2023-10-28 21:20:51
979
原创 Python爬虫-经典案例详解
爬虫一般指从网络资源的抓取,通过Python语言的脚本特性,配置字符的处理非常灵活,Python有丰富的网络抓取模块,因而两者经常联系在一起Python就被叫作爬虫。爬虫可以抓取某个网站或者某个应用的内容提取有用的价值信息。有时还可以模拟用户在浏览器或app应用上的操作行为,从而实现程序自动化。
2023-10-28 19:16:42
372
原创 Hive SQL 函数高阶应用场景
HIVE作为数据仓库处理常用工具,如同RDBMS关系型数据库中标准SQL语法一样,Hive SQL也内置了不少系统函数,满足于用户在不同场景下的数据分析需求,以提高开发SQL数据分析的效率。我们可以使用show functions查看当下版本支持的函数,并且可以通过describe function extended funcname来查看函数对应的使用方式和方法,下面我们将描述HIVE SQL中常用函数的高阶使用场景。
2023-10-22 13:50:42
1568
4
原创 spark读写minio文件代码实践
Minion作为一个先进的对象存储方案,对于大数据和人工智能的支持有着天然的优势。它支持与Spark\Flink等技术方案进行整合,并且通过S3协议实现数据查询的下沉,这让大数据的存储与查询分离提供了事实依据。(2) 根据部署的minio服务的信息(如端口、Access Key、Secret Key、存储桶名称等),创建一个SparkSession对象,可以使用如下步骤进行读写Minio。(1) 首先,需要部署minio服务集群,搭建minio对象存储桶,可以参考我的文章。
2023-08-14 22:29:46
1352
原创 推荐系统-基于物品协同过滤算法代码实现
当前Spark没有像mahout那样,严格区分基于物品的协同过滤推荐(ItemCF)和基于用户的协同过滤推荐(UserCF),只有基于模型的协同过滤推荐算法ALS(model-based CF)。但ALS算法对于一些特定的问题(用户数量较小的场景,以及物品数量明显小于用户数量的场景),效果并不理想,不像mahout提供了各种推荐算法选择。为了充分利用spark在速度上带来的提升同时为满足一些业务需求,于是使用spark构建ItemCF算法。
2023-08-02 23:29:26
602
原创 推荐系统-ALS协同过滤算法代码实现
从协同过滤的分类来说,ALS(Alternating Least Squares,交替最小二乘)算法属于User-Item CF,也叫做混合CF,它同时考虑了User和Item两个方面。用户和物品的关系,可以抽象为如下的三元组:。其中,Rating是用户对商品的评分,表征用户对该商品的喜好程度。ALS算法是基于模型的推荐算法,,评估出缺失项的值,以此来得到一个基本的训练模型,然后依照此模型可以针对新的用户和物品数据进行评估。
2023-07-27 22:19:27
675
原创 推荐系统-基于标签的Top-N个性化推荐代码实现
本文主要探讨如何利用用户打标签的行为为其推荐物品,UGC标签系统受到越来越多的关注,标签既能反映用户的兴趣又能描述物品的本身特征。
2023-07-18 22:25:41
1389
原创 Elasticsearch 数据迁移方案
倘若准备将自建的 elasticsearch 迁移K8s,或者的迁移到其他elasticsearch集群,可以根据自己的业务需要选择适当的迁移方案,
2023-06-24 18:28:27
2708
原创 每个人都要会“Chat AI”的提问方式
,点击右侧的【获取】按钮,此处是我已经安装了插件所以是【删除】按钮,点击获取按钮后会弹出对话框,选择【添加扩展】即可下载安装插件,后面安装流程按提示完成即可。(4)回到浏览器,点击右上方的【+】按钮,会弹出新的选项卡"WebTab新标签页”,在新页面中点击【问心一言 AI】图标按钮。(5)如果用户已经登录,则会直接进入"问心一言"的对话界面,如果未登录,登录msn邮箱账号即可开启使用"问心一言"了。(1)切换到浏览器,选择右上方选项卡,在弹出的对话框中选择【扩展】选项,
2023-06-21 20:27:54
458
原创 redis运维小记批量处理
过期命令: redis-cli -h ip地址 -p 端口 -a 密码 keys "ACE_*" | xargs - i redis-cli -h ip地址 -p端口 -a 密码 expire {} $(($RANDOM + 54321))删除命令: redis-cli -h ip地址 -p 端口 -a 密码 keys "ACE_*" | xargs - i redis-cli -h ip地址 -p端口 -a 密码 del {}登录命令: redis-cli -h ip -p 端口。
2023-06-05 10:26:20
720
原创 基于容器云提交spark job任务
spark提交Kind=Job类型的任务,首先需要申请具有Job任务提交权限的rbac,然后编写对应的yaml文件,通过spark-submit命令提交任务到集群执行。
2023-03-04 19:21:41
1827
原创 ES使用Ngram分词器实现wildcard高性能替代方案
## 3.1 Ngram定义Ngram是一种基于统计语言模型的算法。Ngram的基本思想:是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。
2022-05-03 21:42:34
5820
原创 mysql 8.0的一份my.cnf配置笔记
my.cnf[mysqldump]socket=/data/mysql/dbcfg/mysql.sock[mysql]user=dbadminsocket=/data/mysql/dbcfg/mysql.sock[mysqladmin]socket=/data/mysql/dbcfg/mysql.sock[mysqld]derault_authentication_plugin=mysql_native_passwordbasedir=/opt/mysqldatadir=/data/m
2022-03-12 16:36:46
3030
原创 记一份Cassandra中间件生产调优实践
-server##JVM configurationHeap size-Xms16G-Xmx16G-XX: SurvivorRatio=4GC configuration#禁用CMS,使用U1禁止使用Xmn,U1会自动扩展分配-XX+UseG1GC-XX:G1RSetUpdatingPauseTimePercent=5-XX.MaxGCPauseMillis=500-XX:InitiatingHeapOccupancyPercent=80-XX:ParallelGCThreads=1
2022-03-12 12:33:07
497
原创 一份上K8s应用调优的JVM记录
下载:https://github.com/etcd-io/etcd/releases/tag/下载amd安装包:etcd-v3.x-linux-amd64.tar.gz1.2 集群部署https://etcd.io/docs/v3.4/op-guide/clustering/修改三台服务器的hosts:192.168.0.208 k8s-01192.168.0.53 k8s-02192.168.0.135 k8s-03后台部署运行:nohup ./etcd --name etcd_01
2021-11-03 23:08:02
816
原创 基于kubernetes构建spark-thriftserver集群(Deployment模式)
继续上一篇《基于kubernetes构建spark集群(RC模式)》,沿用上一篇rbac配置,以及PV、PVC配置,本篇将采用Deployment方式进行部署spark集群,以及增加thriftserver服务配置。1、构建镜像这里采用spark-2.4.4-bin-hadoop2.7.tar.gz包部署,先解压文件到/opt/spark目录。(1)将需要第三方扩展包导入/opt/spark/spark-2.4.4 -bin-hadoop2.7/jars目录#根据自己需要导入elasticse
2021-09-19 18:12:14
1311
原创 基于云上Prometheus对cassandra监控
https://www.cnblogs.com/caoweixiong/p/12736815.htmlhttps://github.com/prometheus/jmx_exporter/blob/master/README.mdhttps://github.com/prometheus/jmx_exporter/edit/master/example_configs/
2021-09-15 22:20:28
995
2
原创 基于kubernetes构建spark集群(RC模式)
基于kubernetes部署spark的两种方式方式一:使用kubernetes作为集群管理器(Cluster Manager),类似与mesos和yarn,使用方式可搜索github查看running-on-kubernetes。但这个部署方式,一是还不成熟(目前Deprecated),不推荐在生产环境使用.方式二:standalone的方式,即便是不用集群也能很方便的调用sbin下的脚本来部署,而使用k8s有几点好处,一是提高机器使用率(一般服务器资源白天使用率较高,晚上空闲,刚好能拿来跑数据);
2021-09-07 22:02:00
854
原创 基于kubeadm搭建高可用(多master)kubernetes v1.19集群-高可用篇
1、架构规划需要增加Load balancer,使得node节点的访问流量可以负载到master类型节点。keeplive:配置虚拟IP,检查当前节点状态;haproxy:类似于niginx,负载均衡(虚拟IP会漂移到其中一个master节点),可以平均分配流量到master1,master2;haproxy与nginx区别:nginx是master-workers多进程,每个进程单线程,多核CPU能充分利用;haproxy是多线程,单进程就能实现超高性能,虽然haproxy也能多进程,但是网上资
2021-07-17 22:26:25
1184
原创 基于二进制方式搭建K8s集群-部署CNI网络和Dashboard
8、部署CNI网络8.1、node节点部署CNI(1)下载地址 https://github.com/containernetworking/plugins/releases/download/v0.8.6/cni-plugins-linux-amd64-v0.8.6.tgz #并将文件拷贝到虚拟机/opt目录;(2) 文件准备 #创建文件夹 mkdir /opt/cni/bin #解压文件 tar zxvf cni-plugins-linux-amd64-v0.8.6.tgz -C /
2021-07-17 22:13:36
1178
1
原创 基于二进制方式搭建K8s集群-node篇
##4、部署kubernetes node节点###4.1、docker安装下载地址:https://download.docker.com/linux/static/stable/x86_64/docker-19.03.9.tgz以下所有node节点,这里采用二进制安装,用yum安装也类似;(1)解压二进制文件 tar zxvf docker-19.03.9.tgz mv docker/* /usr/bin(2)systemd管理dockercat > /usr/lib/syst
2021-07-11 23:02:41
453
1
原创 基于二进制方式搭建K8s集群-ETCD篇
1.前置说明(1)创建多台虚拟机,安装Linux操作系统;(2)操作系统初始化;(3)为etcd何apiserver创建自签证书;(4)部署etcd集群;(5)部署master组件;(6)部署node组件;(7)部署集群网络插件;1. 部署环境(1)安装要求一台或者多台虚拟机,操作系统CentOS7.x-86_64或者更高版本;硬件配置:2GB或者更多RAM,2个CPU或者更多CPU,硬盘30G+;可以访问外网,以便拉取镜像,如果服务器不能上网,需提前下载镜并导入到节点;禁用s
2021-07-11 23:01:29
623
原创 基于kubeadm方式快速搭建K8s集群
2. K8s部署2.1、kubeadm部署kubeadm是官方社区推出的一个用于快速部署kubernates集群工具,该工具通过两条命令即可完成一个kubernetes集群的部署:(1)创建一个Master节点 kubeadm init(2)将Node节点加入到当前集群中 $kubeadm join <Master节点的IP和端口>,详细步骤如下:2.1.1、虚拟机系统配置(1)关闭防火墙 systemctl stop firewalld #临时关闭防火墙 system
2021-07-05 15:50:08
292
nfs-utils.tar.gz
2021-07-04
More Exceptional C++
2015-11-30
Essential C++
2015-11-30
Effective C++(有效的C++)
2015-11-30
快速准确搭建好SSH框架开发环境
2012-03-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人