Catherine_In_Data-优快云博客

原创 hub数据下载与离线加载

【代码】hub数据下载与离线加载。

2025-03-30 11:27:54 428

原创 duckduckgo-search应用

【代码】duckduckgo-search应用。

2025-01-02 16:51:42 214

原创 concurrent.futures.ThreadPoolExecutor 线程池用法

在Python中，由于线程之间共享全局解释器锁（GIL），直接从线程函数中返回值并不是线程安全的。但是，我们可以使用threading模块中的Lock来同步线程，或者使用concurrent.futures.ThreadPoolExecutor来管理线程池，这样可以更安全地处理返回值。下面是一个使用concurrent.futures.ThreadPoolExecutor来处理带有返回值的并行任务的示例.创建线程池并行执行任务并返回结果。

2024-12-05 09:40:57 232 1

原创提示词格式化

利用jinja报，对提示词进行格式输出。以下是qwen2中tokenizer_config.json文件中的chat_template模块定义的提示词转换方式。（1）查看qwen2的chat_template。

2024-10-08 14:51:18 1113

原创 bug清单问题

模型部署遇到的各种问题汇集。

2024-05-31 12:25:21 579

原创 docker 使用

构建Docker镜像：在终端中，进入到包含 Dockerfile 的文件夹，并运行以下命令构建Docker镜像：运行Docker容器：运行以下命令启动你的Docker容器：docker run -p 5000:5000 my-web-app —容器。

2023-12-28 16:26:16 764

原创 Pytorch基础指令

【代码】Pytorch基础指令。

2023-12-13 15:46:57 1091

原创 Jupiter notebook使用

【代码】Jupiter notebook使用。

2023-12-04 19:06:02 676

原创 pytorch--基于参数权重初始化模型

【代码】pytorch--基于参数权重初始化模型。

2023-03-15 19:51:22 563

原创 pycharm右键没有“run”（或者py文件被当作文本文件）

pycharm突然右键没有run选项

2023-02-27 20:23:25 5419 3

原创维基百科数据抽取

维基百科数据抽取

2023-02-09 19:15:12 835

转载 torch中datasets.load_dataset用法

转发：https://blog.youkuaiyun.com/weixin_49346755/article/details/125284869。

2022-08-30 17:16:27 9271

原创 pytorch基础知识

pytorch基础知识

2022-08-25 20:43:04 244

原创 python 通过代理下载镜像文件

python 通过代理下载文件

2022-08-25 17:17:08 1337

转载 Linux 批量杀死进程(详细版本)

https://www.cnblogs.com/jack-nie-23/p/16448688.html

2022-08-24 15:04:47 1351

原创 nlp开源库与开源数据集

ner 实体识别多标签分类多模态对比学习什么是对比学习具体的区别就是对比学习的正负例是根据一些规则自动构造的，而不是通过人工标注的数据（也就是有监督的方式），这就是最大的区常用loss NCE（这里没有明白，需要再看看）对比学习系统关键三个问题：第一个问题是：正例怎么构造？对于对比学习来说，原则上正例应该是自动构造出的，也就是自监督的方式构造的。负例怎么构造？一般来说负例好选，通常就是随机选的。第二个关键问题是Encoder映射函数，这个映射函数怎么设计？这是个比较关键的问题。第

2022-07-20 14:22:44 962

原创 flask 部署服务

flask服务部署测试demo

2022-06-08 15:55:00 624

原创 NLP之文本分类(三)---TextCNN

0. 背景：TextCNN对文本浅层特征的抽取能力很强，在短文本领域如搜索、对话领域专注于意图分类时效果很好，应用广泛，且速度快，一般是首选；对长文本领域，TextCNN主要靠filter窗口抽取特征，在长距离建模方面能力受限，且对语序不敏感paper：Convolutional Neural Networks for Sentence Classificationpaper： A Sensitivity Analysis of (and Practitioners’ Guide to) Conv

2022-05-07 15:44:35 462

原创 NLP之文本分类(一)---文本分类描述

0 背景主要是参考对文本分类的描述，相关数据集，常用算法，选取一些核心点，同时加上自身实践遇到的一些问题，以及面试中会问到的关于文本分类的问题，共学习使用。后面做进一步补充。

2022-05-07 15:33:01 2488

原创 NLP之文本分类(五)---多标签分类实践

多标签分类

2022-05-07 10:57:27 4850

原创 NLP之文本分类(四)---多标签分类初探

1. 多标签分类多标签学习[MLL]由一个样例和一个集合标签组成。任务分解： MLL包括主要任务：多标签分类（MLC）和标签排序(LR)阈值校准：设定排序的阈值任务特点：（1）不同数据集多标签程度不同。衡量多标签程度自然方式：即样本平均标签数。标签密度用标签集大小来规范化标签基数标签多样性：数据集中不同标签集合的数量，可以用数据及大小规范化。（2）标签具有相互关系多标签数据集中学习的关键挑战在于难以控制巨型输出空间，即标签集合的数量随着类别数量指数及增

2022-05-07 10:36:51 3367

原创 NLP之文本分类(二)---FastText

参考资料：https://blog.youkuaiyun.com/feilong_csdn/article/details/88655927https://fasttext.cc/docs/en/supervised-tutorial.htmlhttps://fasttext.cc1. 背景：fasttext文本分类效率较高，可以快速生成文本分类baseline，本文主要是了解fasttext核心优化点，以及熟悉官网python版本模型训练与预测。将doc的词以及n-gram向量叠加平均得到文档向量，然

2022-05-05 20:39:32 1757

转载 typora 快捷键

转载：https://blog.youkuaiyun.com/lannister_awalys_pay/article/details/118110157一级标题：⌘1 (command + 1)二级标题：⌘2 (command + 2)三级标题：⌘3 (command + 3)四级标题：⌘4 (command + 4)五级标题：⌘5 (command + 5)段落：⌘o 不生效，快捷键冲突，使用⌃o (control + o)提升标题级别：⌘= (command + =)降低标题级别：⌘- (comm

2022-04-27 16:36:53 955

原创 NLP开源

做学习使用，持续更新中。。。（1）nlp 常见任务与数据集，以下链接写的比较详细，请参考原文https://www.cnblogs.com/guozw/p/13369757.html

2022-02-16 16:16:43 497

原创业界搜索相关优化策略整理

加深印象，待进一步更新…1. 美团旅游搜索：困难：1）本异地差异大2）搜索意图多样3）底层脏数据多完整搜索系统：检索召回，查询分析，智能排序和业务应用。以下重点，检索召回，查询分析用户行为链条：搜索Query->点击搜索结果列表夜中的POI/Deal等->下单支付-> 消费–>计算消费收入。点击率链条太短，最终消费因素复杂。行为链条如下：每搜索用户收入 = 点击用户数/搜索用户数 * 支付用户数/点击用户数 * 消费用户数/支付用户数 * 每用

2022-02-10 11:13:51 545

原创推荐系统中评估指标

1. Recall : 召回率(recall)=TP/(TP+FN) 【预测为真正/实际为正】通俗解释：正样本中有多少是被找了出来2. HR@K (hit_rate) : 命中率分母：模型预测给出的topk推荐列表个数。分子：模型预测的topk中有多少是实际点击的。通俗理解：模型给出topk结果，有多少是命中实际点击的。注意：召回率与命中率是不一样的。...

2022-02-08 16:48:01 2231

原创 tensorflow --batch内负采样

class NegativeCosineLayer(): """ 自定义batch内负采样并做cosine相似度的层 """ """ 负采样原理： query_input.shape = [batch_size, dim] doc_input.shape = [batch_size, dim] 默认 query点击该doc。每个点击的item，随机采集NEG个item负样本 1. 假设每个正样本要采集N个负样本。 2. 分N次采集负样本，每次

2022-01-25 16:17:45 4738 2

原创 tensorflow2: attention机制实现

代码参考网络上资料，如有侵权，可联系删除为什么进行attention物理意义：将 Q, K 投影在不同的空间上，然后学习相似度。v 是key的内容表示。初始化 WQ,WK不同是self-attention具有泛化能力的原因，从而学习到序列中依赖语义关系。如果不设置 W_Q、W_k、W_v，我们计算的权重很大程度上依赖于我们如何确定原始输入向量。官网实现tf.keras.layers.Attention(use_scale=False, **kwargs)输入为形状[batch

2022-01-19 17:46:30 5093

转载 tenorflow ---激活函数

转载：https://blog.youkuaiyun.com/qq_20909377/article/details/79133981selu

2022-01-17 16:16:15 75

原创 Tensorflow2执行问题记录

tensorflow 日常遇到bug

2022-01-17 15:10:33 1137

原创 Tensorflow基础知识

1. tf.expand_dims()作用：给函数增加纬度。参数：tf.expand_dims(input, # 输入张量axis=None, # 给定张量输入input，此操作为选择维度索引值，在输入形状的维度索引值的轴处插入1的维度。维度索引值的轴从零开始; 如果您指定轴是负数，则从最后纬度处加1个纬度。name=None,dim=None)举例eg:t = tf.constant([1,2])t.shape TensorShape([2])t.numpy

2022-01-10 15:09:56 1004

转载时间复杂度计算

转载：https://www.cnblogs.com/reposkeeper-wx/p/suan-fa-xi-lie-zhi-liu-suan-fa-shi-jian-fu-za-du-j.html时间复杂度，衡量苏算法计算耗时。基于算法计算最高项进行预估：例如，算法中涉及高阶计算 N^3 , N ^2, N. 则随着数据量集的增加，N ^2, N 的计算时间可忽略。因此，最终时间复杂度可以记为T(N)=O(N ^3).时间复杂度计算举例：（1）简单计算（2）冒泡排序def

2021-12-30 12:45:38 277

原创 linux下安装java

1、查找java相关的列表yum -y list java*2、安装jdkyum install java-1.8.0-openjdk.x86_643、完成安装后验证java -version4、通过yum安装的默认路径为：/usr/lib/jvm5、将jdk的安装路径加入到JAVA_HOMEvi /etc/profile在文件最后加入：#set java environmentJAVA_HOME=/usr/lib/jvm/jre-1.6.0-openjdk.x86_64PATH=

2021-12-28 16:25:05 126

原创 python脚本批量模糊删除redis中的key

利用python脚本批量模糊删除redis中的keyr = redis.StrictRedis(host="*.*.*.*", port=***, password='****') def del_all_key(r): list_keys = r.keys("key_fre*") print(" =====before delete 总key的个数", len(list_keys)) r.delete(*r.keys('key_pre*')) list_k.

2021-12-27 11:13:36 1781

原创搜索相关性方法

基于bm25的改进https://tech.meituan.com/2017/06/16/travel-search-strategy.html美团点评旅游搜索召回策略的演进，关于相关性跟进的方法。参考BM25公式。主要考虑点：1）考虑不同文本域权重不一样，其中H表示文本域集合，名称，品类等。i_f是命中域的动态权重，可以根据命中Term在Query中的比例或权重来设置w_f是f的权重，比如POI名称域的权重一般会高于Deal标题域lf是文本域f的长度文中这里取max，是担心某个域的缺.

2021-12-22 15:19:39 230

原创 Tensorflow相关学习资料整理

中国大学MOOC联合出的Tensorflow2入门优点：有实训平台，代码，数据，实践平台比较全，https://ot.icourse163.org/#/labTensorFlow 入门实操课程》是基于 TensorFlow 技术推广工程师 Laurence Moroney 制作的新手入门课程内容，由复旦大学，上海师范大学，湖南师范大学等高校老师们以及 Google 认证开发专家ML GDE联合设计制作的中文课程。同时网易有道为此开发搭建了在线实训平台，使学生不仅可以了解到机器学习的基础知识，还将.

2021-11-24 11:49:45 1283

Mysql_DBA要

抖音推荐系统信息架构

VC Runtime

Practical Lessons from Predicting Clicks on Ads at Facebook

word2vec源码包--C语言

空空如也