- 博客(26)
- 收藏
- 关注
原创 NLP--一起学习Word Vector【实践】
在大模型时代,embedding成为一项必不可少的技术,主要是因为它能够有效地将大量高维数据(如文本、图像和音频信息)转换成更低维的、密集的向量表示。这种表示可以捕捉到数据的本质特征,并且在处理和计算上更为高效。通过embedding,模型可以在这些压缩的向量空间中学习数据之间的复杂关系和模式,从而提高了处理速度和准确性。此外,embedding使得模型能够在较小的表示空间中进行操作,减少了计算资源的需求,同时也便于模型的训练和推理,这对于处理现代大规模数据集尤为关键。
2024-10-24 17:43:03
1229
原创 我的创作纪念日
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能代理(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。多样性除了从原始数据中获取,也可以通过prompt_template方式构建,对prompt指令进行数据增强,比如中文翻译英文的指令可以拓展为,中译英,翻译中文为英文等相同语义的指令。RLHF的成功取决于人类提供的反馈的质量,根据任务和环境,反馈的质量可能是主观的和可变的。
2024-01-18 10:32:58
1052
原创 NLP--名词概述【笔记】
表中涵盖了自然语言处理(NLP)任务中大量的名词(简称词)以及其释义,该表只为你能简单了解其概念是什么。如:LSH、KLD、ICL等
2024-01-11 16:26:49
841
原创 NLP--Transformer概览【笔记】
你可以通俗易懂的了解,Transformer中的编码器、解码器是什么以及他们中间的细节所对应的概念是什么,具体中间是怎么变化的。
2024-01-11 11:47:39
937
原创 NLP--ChatGPT的API参数总结【实践】
ChatGPT的在各项任务下的参数进行了总结、实践,对每个参数知其然、知其所以然,也对每个任务下模型的token花费进行总结。
2023-05-22 17:51:57
3887
原创 Git从底层到命令的综合【实践】
学习Git,从底层开始了解git的命令语句所执行的操作。看完文章,你能够快速掌握Git。虽说,大模型(LLMs)不断飞速发展,他们展现的基础能力,能超过基础人员的认知,但是在逻辑、思维能力上LLms是达不到,因此,开发人员,更应该扎实基础,在此基础上,不断提高个人的认知以及构思能力。近期,在不断的重温基础知识,厚积才能薄发。
2023-05-16 17:59:23
366
原创 Python--随机变量分布之伯努利分布、二项式分布、泊松分布、均匀分布、指数分布、正态分布 【实践】
伯努利分布、二项式分布、泊松分布、均匀分布、指数分布、正态分布 等随机变量Python代码实现
2023-05-06 00:00:43
2695
原创 NLP--词频统计和TF-IDF总结【实践】
词频统计以及TF-IDF原理以及代码实现,在TF-IDF中常被问的问题:为什么TF要进行标准化操作?为什么要取对数?为什么IDF分母中要进行+1(IDF如何进行平滑处理的)?为什么要词频 * 逆文档频率(TF-IDF要用乘法)?
2023-05-05 16:45:55
2035
1
原创 Pycharm + Anaconda 离线环境迁移【实践】
Windows离线环境下pycharm + anaconda 迁移环境的全部过程,以及离线下载Python依赖的方法
2023-04-19 17:24:57
2147
原创 NLP--BPE、WordPiece、ULM、SentencePiece子词分词器总结【原理】
子词解决了词汇量问题,并在很大程度上有助于减少模型参数的数量,子词有助于保持词汇更加平衡。
2023-04-14 19:16:42
1860
原创 NLP--词性标注(POS)、依存句法分析(DP)、语义依存分析(SDP)【实践】
本文主要对词性标注、依存句法分析、语义依存分析这三个任务,进行简单的调用code实现。词性标注(Part-of-speech tagging),依存句法分析(Dependency Parsing, DP) ,语义依存分析 (Semantic Dependency Parsing, SDP)
2023-03-15 17:48:37
5758
原创 NLP--Transformer探索(宏观)【笔记】
学习transformer,要“知其然,知其所以然”,先从Embedding上来学习,从宏观和微观上来学习,宏观上整体把握Word Embedding->ELMO->BERT->GPT,再从微观上深入了解Transformer,掌握其细节流程。
2023-03-15 12:42:45
191
原创 NLP--知识图谱存储与图数据库总结【分析】
本文将从知识图谱的数据模型、存储方式、基于关系/原生的知识图谱存储管理、数据库选型对比等几方面介绍知识存储问题。
2022-12-29 17:48:36
8721
2
原创 Neo4j使用记录--APOC和GDS的安装【实践】
对Neo4j的两个插件APOC和GDS在community版本中的安装流程进行了细致介绍,扫除安装盲点。
2022-09-02 17:04:52
5166
11
原创 Python小技巧--pandas多样化去重【实践】
pandas数据处理之数据去重,pandas.DataFrame.drop_duplicates()与 pandas.DataFrame.duplicated(),多列去重以及互换列去重
2022-09-02 14:28:28
3884
原创 NLP--社区检测算法(Community Detection)总结【原理】
社区检测(Community Detection)又被称为是社区发现,用于评估节点组如何聚类或分区,以及它们增强或分离的趋势。重点对图算法中的社区检测进行了整理总结。
2022-08-30 18:04:56
21454
原创 NLP--中心性算法(Centrality Algorithms)总结【原理】
中心性算法(Centrality Algorithms):度中心性(Degree centrality)、接近中心性(Closeness centrality)、中介中心性(Betweenness centrality)、特征向量中心性(Eigenvector centrality)等
2022-08-29 18:57:52
8597
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人