larrino-优快云博客

原创【向量检索】之向量数据库Milvus,Faiss详解及应用案例

向量数据库、Milvus、FAISS、向量化、相似度计算、索引构建、ANN（Approximate Nearest Neighbor）。

2024-06-18 20:46:03 11525 1

原创【NLP基础知识】有哪些相似度计算方式（持续更新）

几种相似度计算方式：欧几里得距离 (L2)：用于计算机视觉，计算两个点间的直线距离。内积 (IP)：用于自然语言处理，计算两个向量的点积。汉明距离：用于自然语言处理的二进制嵌入，通过异或运算计算不同位置的个数。余弦相似度：用于文本相似性，计算两个向量夹角的余弦值。

2024-06-11 18:33:35 1549

原创【shell】bash script基础入门及例子(附代码)持续更新

Bash（Bourne Again SHell）是一种广泛使用的Unix shell和命令语言。Bash（Bourne Again SHell）是一种命令语言，同时也是一个命令行界面。它是一个解释器，解释并执行输入到命令行的命令。Bash 作为Linux和macOS的默认shell，Bash在自动化脚本、任务调度、系统管理等方面非常流行。本文主要介绍了一些基础操作，包括运算符、变量、数组、输入、重定向、流程控制、循环、函数定义。

2024-01-06 16:20:14 3114

原创【web】Fastapi自动生成接口文档（Swagger、ReDoc ）

FastAPI是流行的Python web框架，适用于开发高吞吐量API和微服务（直接支持异步编程）FastAPI的优势之一：通过提供高级抽象和自动数据模型转换，简化请求数据的处理（用户不需要手动处理原始请求数据），并能根据路由和 Pydantic 模型自动生成 OpenAPI 接口文档。

2023-11-24 19:42:03 7684

原创【ES】IK分词器远程词典配置（创建词典URL）.md

：Elasticsearch的IK分词器可以配置远程词典，以实现热更新，远程词典的创建可以用Nginx实现，本文主要介绍nginx实现url访问静态文件的配置方式。

2023-09-14 18:30:00 626

原创【ES】Elasticsearch集群迁移时如何同步插件、配置以及kibana Dashboard

将已有ES集群迁移到新的ES集群（不用重新下载插件以及重新配置）

2023-09-13 18:30:00 604

原创【python操作】将本地文件上传到远程服务器

在Python中，可以使用`paramiko`库来通过SSH进行文件的传输。

2023-09-12 19:30:00 4467 1

原创【Database】数据库分类及介绍

有明确的存储结构，存取路径，数据作为二维数组存在。RDBMS 是Relational Database Management System 的缩写，中文译为“关系数据库管理系统”，它是 SQL 语言以及所有现代数据库系统的基础。

2022-10-27 09:30:49 1553

原创 Git常用总结

目录文章目录链接简介Git介绍github VS.gitlab下载配置使用用户信息 config创建仓库 init分支管理 branch切换分支checkout拉取代码 clone显示 show提交 commit推送 push标签 tag拉取 fetch比较不同 diff合并merge拉取合并 pull日志 log链接API ReferenceGit 完整命令手册git常用操作-微信git高级用法-微信图解Git工作原理及操作命令 (sohu.com)git原理解释：git pull,git

2022-01-07 18:35:26 409

原创自然语言处理：RNN

关键词：RNN；吴恩达课堂笔记；自然语言处理；联合概率-后验概率；马尔可夫性；- - - - - - - - - -笔记：桃子????日期：2021.8- - - - - - - - - -目录概念联合概率马尔可夫性语言模型（language model）为什么不能用CBOW、word2vec？传统神经网络模型为什么不适应？RNN结构RNN结构及其应用公式矩阵形状ForwardRNN语言模型（例子：创建莎士比亚文风）RN

2021-08-04 22:15:19 1465

原创 [NLP]搞懂词向量Word2vec（上）

关键词：神经网络、自然语言处理、word2vec- - - - - - - - - -笔记：桃子????日期：2021.6- - - - - - - - - -目录- - - - - - - - - - 神经网络自然语言处理定义 3种表示方法 word2vec 定义 2个模型计算公式优缺点一、神经网络定...

2021-06-06 15:49:24 625

原创 kaggle：泰坦尼克生存预测（ R语言机器学习分类算法）

本文在基本的多元统计分析技术理论基础上，结合机器学习基本模型，选择Kaggle（数据建模竞赛网站）的入门赛——Titanic生存预测作为实战演练，较为完整地呈现了数据建模的基本流程和思路。采用的模型有逻辑回归，决策树，SVM支持向量机以及进阶的集成学习方法——Boosting和RandomForest。在建立模型后基于混淆矩阵的模型评估方法给出了Titanic生存预测的基本结论。该数...

2018-06-14 00:05:15 7789 1

原创聚类分析（银行客户画像）

# CDA 11 聚类分析（客户画像）# 导入数据customer<- read.csv("D:\\桃子的数据\\CDA\\11 聚类分析\\课件&代码-11.客户画像\\Data\\Age_Income3.csv",header=T,sep=',')names(customer)customer1<- customer[,c(2,4)]names(customer...

2018-06-05 20:37:29 10611 10

原创 Python爬虫歌词及词频统计--(谢春花)

我从崖边跌落落入星空辽阔银河不清不浊不知何以摆脱——谢春花《我从崖边跌落》作为一名春花粉，决定用python，分析下春花歌词里的高频词语，以期找到有趣的规律。1. 数据爬取歌词来源：网易云谢春花热门26首爬取完之后以txt格式存储# 第一部分：爬取数据import requestsimport reimport osimport jsonfrom bs4 import Beauti...

2018-06-04 21:12:49 5029 1

原创 python爬取歌词并生成词云图

第一部分：爬取数据# 第一部分：爬取数据import requestsimport reimport osimport jsonfrom bs4 import BeautifulSoup#发起响应def get_html(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) Appl...

2018-06-04 20:56:30 4239 1

larrino的博客