
技术理解
文章平均质量分 72
俊哥V
修心
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[思考记录]面对技术名词.保持清醒
不应被这些技术名词的“花架子”唬住,而应看到背后的思想——理解它们为什么而生、解决什么问题、适用与不适用的场景,或者实现手段有哪些参考。毕竟,从结果来评判解决问题方式的优劣,“用小成本且可靠有效解决”会要比“用了高大上的理念和技术解决”更好。即使不了解这些名词,也不影响我们规划行程。但了解之后,可能会感叹——哦,原来我们之前走了“自由行+局部跟团”的混搭模式。记录提醒——对于解决方案或思路和理念类的技术名词,尤其需要保持警醒,先理解“为什么而生”以及“什么场景用”,而不是想着“怎么用”甚至“必须用”。原创 2025-04-03 15:33:26 · 142 阅读 · 0 评论 -
[笔记.AI]大模型训练 与 向量值 的关系
在预训练阶段(如BERT、GPT的初始训练),模型的嵌入层(Embedding Layer)作为可训练参数,通过反向传播不断优化。词汇“苹果”在初始时可能随机分布,但经过训练后,其向量会靠近“水果”或“公司”(取决于上下文频率)。通用语料训练的向量可能无法准确表示专业术语(如医疗词汇“化疗”需更接近“癌症”而非日常语境)。新词汇(如“元宇宙”)或词义变化(如“直播”从电视到互联网)需更新向量。:解冻所有模型参数(包括嵌入层),向量化的值会随新任务的数据调整。:“合同”等专业术语的向量会更贴近领域语义。原创 2025-03-29 18:25:18 · 599 阅读 · 0 评论 -
[笔记.AI]初始向量
这些初始向量是模型训练的基础,它们的生成方式直接影响模型的收敛速度和最终性能。使用公开的词向量库(如 Word2Vec 的 Google News 300 维向量,或 GloVe 的 50/100/200/300 维向量)。在某些场景中,模型会直接加载预训练的词向量(如 Word2Vec、GloVe)作为初始值,以加速训练或提升效果。将当前模型的词汇表与预训练词向量库的词汇表对齐,未对齐的 Token 仍随机初始化。适用于大规模预训练模型(如 GPT、BERT 的初始训练阶段)。原创 2025-03-29 18:05:06 · 1239 阅读 · 0 评论 -
[笔记.AI]向量化
是将文本、图像、音频等非结构化数据转换为高维数值向量(即一组数字)的过程。这些向量能够捕捉数据的语义、特征或上下文信息,使计算机能够通过数学运算(如相似度计算、聚类、分类等)处理和理解非结构化内容。原创 2025-03-29 17:54:10 · 841 阅读 · 0 评论 -
[笔记.AI]多头自注意力机制(Multi-Head Attention)
多头自注意力最初由Vaswani等人在2017年的论文“Attention Is All You Need”中提出,标志着Transformer模型的诞生。该机制扩展了自注意力,允许模型通过多个并行“头”同时关注输入序列的不同部分。每个头可以学习捕获不同类型的依赖关系,例如短距离的语法结构或长距离的语义关联。根据的内容,多头注意力模块运行注意力机制多次,输出被连接并线性变换。直观上,多个头允许模型以不同方式关注序列部分,例如长距离依赖与短距离依赖。原创 2025-03-22 19:06:18 · 1511 阅读 · 0 评论 -
[笔记.AI]数据集——大模型的“教科书” | 数据集的细分、作用和意义
这些是大型文本语料库,用于初始训练,使模型学习语言模式、语法和广泛的知识。预训练数据集通常规模巨大,例如The Pile有800 GB,Common Crawl涉及数TB的数据。原创 2025-03-15 19:02:07 · 1457 阅读 · 0 评论 -
[笔记.AI]KAG(知识增强生成 Knowledge Augmented Generation)
KAG 被定义为一种结合大型语言模型(LLM)与知识图谱的框架,旨在通过结构化知识增强生成内容的准确性和相关性。根据的内容,KAG 整合了知识图谱的推理能力与 LLM 的语言生成灵活性,为专业领域(如医疗、法律和政府服务)提供了新的可能性。另一研究进一步强调了 KAG 在专业领域的应用潜力,特别是在处理复杂查询时。知识图谱是一种结构化知识表示,包含实体及其关系,为 KAG 提供了可靠的外部知识源。原创 2025-03-12 20:22:29 · 931 阅读 · 0 评论 -
DeepSeek 开源周:第五天 - Fire-Flyer 文件系统(3FS)
Deepseek 今天开源的 Fire-Flyer 文件系统(3FS)是一个高性能分布式文件系统,专门为 AI 训练和推理设计。研究表明,它解决了 AI 工作负载中处理海量数据的高效存储需求问题。原创 2025-02-28 14:49:19 · 1164 阅读 · 0 评论 -
[笔记.AI]AI知识科普提纲
2.2.2检索增强生成(RAG, Retrieval-Augmented Generation)2.2.1提示词工程(Prompt Engineering)2.1.2.1Deepseek-V3&R1的分析。2.2.3模型微调(Fine-tuning)1.2.1模型:模型、大模型、模型参数。1.2.3生成式AI & 判别式AI。备注:主要从概念理解,绕开了一些技术实现。2.2.4Agent(智能体)2.1.2各模型特点。2.2大模型的应用模式。1.1什么是什么AI。2.4模型微调/训练。原创 2025-02-27 15:17:56 · 238 阅读 · 0 评论 -
[思考记录.AI]面对当下大模型,自己的一些感受
AI就从研究背景、技术核心、成果与争议、研究本质等方面进行了整理归纳,并给出最后概括性总结——通过高效利用现有基座模型、精细化数据筛选及动态推理控制技术,探索低成本优化模型的可行性,但未颠覆基础模型训练的高资源依赖特性,并且附上了相应的来源参考。比如借助AI在线搜索,以前可能需要向相关专家了解,或者查阅较多资料来得到的信息,现在则变得相对容易。通用大模型的学识渊博,什么都知道,但它也做不到百分百的正确(多个不同类的通用/专用模型结合各自工具,相互去验证和纠偏,是否是进一步提升结果质量的方式?原创 2025-02-27 12:02:26 · 350 阅读 · 0 评论 -
[笔记.AI]大模型的蒸馏、剪枝、量化 | 模型压缩 | 作用与意义
两种技术常结合使用,例如先蒸馏压缩模型结构,再量化降低计算精度,实现“双压缩”以下摘自与DeepSeek-R1在线联网版的对话。,这次进一步整理蒸馏、量化的作用与意义。<DS-R1的回复.结束><DS-R1的回复.开始>原创 2025-02-18 15:24:33 · 622 阅读 · 0 评论 -
[思考记录.AI]Deepseek-R1的联网搜索,是什么?
目前的DS-R1联网搜索,它本质上是什么呢? 大模型本身的预训练数据中并不包含最新的联网信息,并且大模型并不能直接联网搜索。那么,DeepSeek-R1 的联网版是个什么呢?从当前的理解看,其本质上应该算是一种“搜索智能体”(解决信息搜索场景的 AI Agent):1.大模型作为“大脑”提供认知能力(如语言理解、策略生成、分析推理)2.搜索智能体通过工具调用(如联网搜索、数据库查询的等)扩大模型的知识边界,以及解决数据滞后问题。结合起来,就实现了时效性更强的智能交互。原创 2025-02-15 16:09:21 · 2358 阅读 · 0 评论 -
[笔记.AI]deepseek-r1的不同版本(满血版、蒸馏版、量化)
蒸馏版(Distill):是指将大型模型(教师模型)的知识转移到较小的模型(学生模型)中,以保持性能的同时减少计算资源的需求;|-使用DeepSeek-R1完整版作为教师模型(671B),迁移到Qwen/Llama等开源架构(1.5B-70B);AIME2024(79.8%)/MATH-500(97.3%)/MMLU(90.8%),超越OpenAI o1。32B蒸馏版AIME2024(72.6%),超越Qwen2.5-32B(55.5%)提供1.5B/7B/8B/14B/32B/70B等多尺寸。原创 2025-02-10 20:20:58 · 9187 阅读 · 0 评论 -
[笔记.AI]Deepseek-R1 各参数版本的蒸馏模型对比
3.上下文处理能力:32B模型相比14B模型在长文本理解任务中的准确率提升18%(基于MMLU测试 - Massive Multitask Language Understanding)2.代码生成质量:7B模型可生成基础函数代码,14B模型能实现完整算法(如快速排序),32B模型支持API级代码生成(含异常处理)- 32B模型在处理8K上下文时,关键信息捕捉准确率达92%,而14B模型仅74%- 7B模型在10步以上数学推导中准确率仅54%,32B可达89%人类专家水平:F1 89-92%(相同测试集)原创 2025-02-10 20:18:48 · 1390 阅读 · 0 评论 -
[思考记录]“老技术”也在变化
在技术领域,变化是常态。就像邮箱通讯录的解决方案一样,随着技术的发展和应用场景的变化(如移动设备的普及和多设备间同步需求),CardDAV作为一种更为开放和灵活的标准应运而生(2011年),并逐步取代了老的标准。这也从侧面提醒我们,需要保持学习的态度,不断关注行业动态和技术发展,以便及时掌握最新的技术和解决方案。尤其是,随着AI技术逐步渗透到各个领域,我们更需要保持开放心态,不断更新认知,以适应新的变化。但在了解该方案的原理后,产生了两点疑问:一是,安全性方面可能存在隐患,因为直接暴露了一个关键服务;原创 2024-12-12 11:54:09 · 210 阅读 · 0 评论 -
[思考记录.AI编程]对.AI.编程.的看法-202412
后续大概是因为,这样生成的网页体积很大(上传慢、浏览打开慢),以及不知道怎么做一些炫酷的动态效果,就改为直接去扒喜欢的网站,然后魔改成自己的想要的效果。对于编程,我的一个直观感觉,它是一种“翻译”的过程——将我们的想法,翻译成机器能够理解和执行的过程。>>编程语言数据指:语法结构(关键字、标识符、运算符、语句结构等)、语义信息(变量的声明和使用、函数的定义和调用、类型的声明和转换等)、编程代码对应的注释及文档等(包括编程范式和最佳实践)、跨语言映射关系。3、技术的发展,使得生成质量得到了极其大的提升。原创 2024-12-03 18:45:00 · 361 阅读 · 0 评论 -
[笔记.AI]AI Agent理解(LLM & AI Agent)
AI Agent是指一种自主系统,能够感知环境并采取行动以实现特定目标。AI Agents通常具有一定的智能,能够进行决策、学习和适应环境变化。它们可以在各种应用场景中发挥作用,如自动驾驶、智能家居控制、虚拟助手等。原创 2024-07-14 11:00:00 · 868 阅读 · 0 评论 -
[笔记.CORS漏洞]跨域资源共享(Cross-origin resource sharing)
跨域资源共享产生的原因:1、访问网站资源的请求,最终都是浏览器发起的;2、向A网站的请求,可以是用户访问A网站的页面引发,也可以是用户访问其他页面间接引发(如:其他网站页面中的img标签src到A网站);3、请求是否正常被执行,取决于浏览器和被请求的网站服务(A网站)浏览器提供判断需要的信息——头信息之中的Origin等字段网站服务来判断是否接受调用整个CORS通信过程由浏览器背后完成,使用者基本感受不到原创 2022-08-19 14:57:29 · 416 阅读 · 0 评论 -
[随想]关于移动支付
今天翻到一篇上币05年关于我国硬币发展趋势的文章,结论是“金属硬币再商品交易中的媒介作用,在我国还需要又相当长的时间”。但事实上才十年左右的时间,硬币甚至纸币都已经在很多人的生活购物场景中消失了,取而代之的是手机支付。 文章中写道,当时的很多非现金消费主要是银行卡/信用卡以及区域性的充值卡,由于使用习惯、通用性、支付设备基础建设投入等问题,并不具备替代硬币的条件。而现在,随着手机和网络的极大普及、消费交易习惯的转变、技术和平台的助推等诸多因素,成就了现如今移动支付的荣光。不仅硬币,...原创 2021-12-18 23:23:02 · 228 阅读 · 0 评论 -
[笔记.Oracle.LogMiner]使用LogMiner捕获数据变化 - CDC/redo log/online在线日志/归档日志
前段时间在验证用LogMiner读取分析Oracle 的 redo log 文件,得到DML和DDL的变化信息。通过网上的一些资料还是很容易跑通,但要用得比较顺畅还是经过了一番研究和验证。特将一些关键要点整理如下:字典特性:1、三种类型字典:在线字典、InRedoLog模式、FlatFile模式2、在线字典只有当前最新的对象信息;3、InRedoLog模式、FlatFile模式都是要创建出字典文件(创建过程会消耗数据库资源,最好在非高峰期时间进行);4、创建出的字典文件.原创 2021-12-14 19:40:02 · 998 阅读 · 0 评论 -
[好文转载]图解 | 原来这就是网络
发现一篇讲解网络的好文!特收藏转载清晰讲解了 MAC寻址、IP寻址,帮助了解物理层、数据链路层、网络层这前三层协议!----------------------------------------------------------------------------出处:图解 | 原来这就是网络 - 闪客sun你是一台电脑,你的名字叫 A很久很久之前,你不与任何其他电脑相连接,孤苦伶仃。直到有一天,你希望与另一台电脑 B 建立通信,于是你们各开了一个网口,用一根网线转载 2021-11-12 16:01:22 · 192 阅读 · 0 评论 -
[笔记]CDC(Change Data Capture) 数据变化捕获,实现原理 方案
整理了下对CDC的理解,以及基于Oracle的实现方式。备案如下CDC(Change Data Capture) 数据变化捕获 实现方式 原理 缺点 优点 典型方案 时间戳/版本号/修改状态列 根据更新时间戳列,识别数据变化。 一般是非实时。 1) 实时性 2) 不能识别多次更新 3) 不能记录删除操作 4) 要改程序 快照 通过比较源表和快照表来获得数据变化。 1)原创 2021-10-29 15:10:46 · 2167 阅读 · 3 评论 -
网络抓包技术备忘 - Wireshark/Fiddler/Libpcap/Npcap/WinPcap/SharpPcap
1.常用工具浏览器自带,如谷歌浏览器的开发人员工具。Fiddler:主要是捕获HTTP、HTTPS数据包。Wireshark:网络协议分析工具,内置支持数百种协议。安全考虑,只能查看数据包,而不能修改包的内容或发送数据包。(开源 C)2.原理Fiddler:做为代理,让所有http/https的请求和响应都流经Fiddler。是要预先配置的。备注: Fiddler启动时,会自动设置浏览器的代理为127.0.0.1:8888,在关闭时取消设置。Wireshark:捕获机器上某一块网卡..原创 2021-10-22 16:05:09 · 3338 阅读 · 0 评论 -
[PDF]我们经常使用的PDF是什么? PDF, PDF/A, PDF/Archive, OFD
经常在用PDF,一直也没去做过了解。今天整理备忘如下:特点:跨软硬件平台;保持显示效果一致、在任何打印机上都可保证精确的颜色和准确的打印效果;所有可以被打印的文档都可以转换成PDFPDF支持转成各种格式,转换格式支持率最高;事实标准5.1. 是印刷行业的印前标准5.2. 是档案数字化信息事实上的一个工业标准纸质档案数字化规范》DA/T31-2017作为电子文档长期保存格式的PDF/Archive(PDF/A)经中国国家标准化管理委员会批准已成为正式的中国国家标准,原创 2020-07-23 16:06:54 · 2296 阅读 · 0 评论 -
[JWT]Json Web Token 备忘
这次偷懒,直接丢图上来。主要参考文章:JWT官网OAuth2官网什么是 JWT -- JSON WEB TOKEN10分钟了解JSON Web令牌(JWT)[译文]OAuth2和JWT - 如何设计安全的API?...原创 2020-03-25 12:05:34 · 160 阅读 · 0 评论 -
[MQ]RabbitMQ的概要介绍及消息路由规则
前面的列了一些MQ产品,从网上大家的反应来看,RabbitMQ是综合实力较好的一个MQ产品。学习整理如下一、系统架构1.一个消息可以被路由到多个队列;2.一个队列可被多个消费者订阅,但是队列中的一个消息只会被其中一个消费者拿到;所以,要实现一个消息被多个消费者都拿到,需要通过交换器(群发或路由)发到不同的多个队列中,并且由消费者分别去订阅!3.队列的创建既可以是...原创 2020-03-25 10:01:30 · 2577 阅读 · 0 评论 -
[MQ]消息队列产品的功能整理
上篇文章“[MQ]消息队列与企业服务总线的简单比较,MQ&ESB”是宏观上的概念,这个表格是基于主流MQ产品的功能特性做的初步梳理。主要看了RabbitMQ,其他MQ产品还未论证和详细研究。供参考备忘。 说明 RabbitMQ ActiveMQ ZeroMQ RocketMQ Kafka Redis 产品简介 开发语...原创 2020-03-24 16:28:11 · 252 阅读 · 0 评论 -
[MQ]消息队列与企业服务总线的简单比较,MQ&ESB
前段时间因需要,回顾了下MQ。将部分整理内容分享备忘: 消息队列(MQ) 企业服务总线(ESB) 定义 MQ(Message Queue)消息队列。 把要传输的数据放在队列中,通过消息传递队列发送和接收消息数据,实现数据的传递。 ESB(Enterprise Service Bus) 是一个集中式的服务总线,它是传统消息中间件技术与XML、Web服务等...原创 2020-03-20 16:51:40 · 4419 阅读 · 1 评论