- 博客(15)
- 收藏
- 关注
原创 【向量检索】之向量数据库Milvus,Faiss详解及应用案例
向量数据库、Milvus、FAISS、向量化、相似度计算、索引构建、ANN(Approximate Nearest Neighbor)。
2024-06-18 20:46:03
9195
原创 【NLP基础知识】有哪些相似度计算方式(持续更新)
几种相似度计算方式:欧几里得距离 (L2):用于计算机视觉,计算两个点间的直线距离。内积 (IP):用于自然语言处理,计算两个向量的点积。汉明距离:用于自然语言处理的二进制嵌入,通过异或运算计算不同位置的个数。余弦相似度:用于文本相似性,计算两个向量夹角的余弦值。
2024-06-11 18:33:35
1377
原创 【shell】bash script基础入门及例子(附代码)持续更新
Bash(Bourne Again SHell)是一种广泛使用的Unix shell和命令语言。Bash(Bourne Again SHell)是一种命令语言,同时也是一个命令行界面。它是一个解释器,解释并执行输入到命令行的命令。Bash 作为Linux和macOS的默认shell,Bash在自动化脚本、任务调度、系统管理等方面非常流行。本文主要介绍了一些基础操作,包括运算符、变量、数组、输入、重定向、流程控制、循环、函数定义。
2024-01-06 16:20:14
1929
原创 【web】Fastapi自动生成接口文档(Swagger、ReDoc )
FastAPI是流行的Python web框架,适用于开发高吞吐量API和微服务(直接支持异步编程)FastAPI的优势之一:通过提供高级抽象和自动数据模型转换,简化请求数据的处理(用户不需要手动处理原始请求数据),并能根据路由和 Pydantic 模型自动生成 OpenAPI 接口文档。
2023-11-24 19:42:03
5957
原创 【ES】IK分词器远程词典配置(创建词典URL).md
:Elasticsearch的IK分词器可以配置远程词典,以实现热更新,远程词典的创建可以用Nginx实现, 本文主要介绍nginx实现url访问静态文件的配置方式。
2023-09-14 18:30:00
536
原创 【ES】Elasticsearch集群迁移时如何同步插件、配置以及kibana Dashboard
将已有ES集群迁移到新的ES集群(不用重新下载插件以及重新配置)
2023-09-13 18:30:00
431
原创 【Database】数据库分类及介绍
有明确的存储结构,存取路径,数据作为二维数组存在。RDBMS 是Relational Database Management System 的缩写,中文译为“关系数据库管理系统”,它是 SQL 语言以及所有现代数据库系统的基础。
2022-10-27 09:30:49
1372
原创 Git常用总结
目录文章目录链接简介Git介绍github VS.gitlab下载配置使用用户信息 config创建仓库 init分支管理 branch切换分支checkout拉取代码 clone显示 show提交 commit推送 push标签 tag拉取 fetch比较不同 diff合并merge拉取合并 pull日志 log链接API ReferenceGit 完整命令手册git常用操作-微信git高级用法-微信图解Git工作原理及操作命令 (sohu.com)git原理解释:git pull,git
2022-01-07 18:35:26
362
原创 自然语言处理:RNN
关键词:RNN;吴恩达课堂笔记;自然语言处理;联合概率-后验概率;马尔可夫性;- - - - - - - - - -笔记:桃子????日期:2021.8- - - - - - - - - -目录概念联合概率马尔可夫性语言模型(language model)为什么不能用CBOW、word2vec?传统神经网络模型为什么不适应?RNN结构RNN结构及其应用公式矩阵形状ForwardRNN语言模型(例子:创建莎士比亚文风)RN
2021-08-04 22:15:19
1326
原创 [NLP]搞懂词向量Word2vec(上)
关键词:神经网络、自然语言处理、word2vec- - - - - - - - - -笔记:桃子????日期:2021.6- - - - - - - - - -目录- - - - - - - - - - 神经网络 自然语言处理 定义 3种表示方法 word2vec 定义 2个模型 计算公式 优缺点 一、神经网络定...
2021-06-06 15:49:24
550
原创 kaggle:泰坦尼克生存预测( R语言机器学习分类算法)
本文在基本的多元统计分析技术理论基础上,结合机器学习基本模型,选择Kaggle(数据建模竞赛网站)的入门赛——Titanic生存预测作为实战演练,较为完整地呈现了数据建模的基本流程和思路。采用的模型有逻辑回归,决策树,SVM支持向量机以及进阶的集成学习方法——Boosting和RandomForest。 在建立模型后基于混淆矩阵的模型评估方法给出了Titanic生存预测的基本结论。 该数...
2018-06-14 00:05:15
7521
1
原创 聚类分析(银行客户画像)
# CDA 11 聚类分析(客户画像)# 导入数据customer<- read.csv("D:\\桃子的数据\\CDA\\11 聚类分析\\课件&代码-11.客户画像\\Data\\Age_Income3.csv",header=T,sep=',')names(customer)customer1<- customer[,c(2,4)]names(customer...
2018-06-05 20:37:29
10411
10
原创 Python爬虫歌词及词频统计--(谢春花)
我从崖边跌落 落入星空辽阔 银河不清不浊 不知何以摆脱——谢春花《我从崖边跌落》作为一名春花粉,决定用python,分析下春花歌词里的高频词语,以期找到有趣的规律。1. 数据爬取歌词来源:网易云谢春花热门26首爬取完之后以txt格式存储# 第一部分:爬取数据import requestsimport reimport osimport jsonfrom bs4 import Beauti...
2018-06-04 21:12:49
4865
1
原创 python爬取歌词并生成词云图
第一部分:爬取数据# 第一部分:爬取数据import requestsimport reimport osimport jsonfrom bs4 import BeautifulSoup#发起响应def get_html(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) Appl...
2018-06-04 20:56:30
4071
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人