行走的人偶-优快云博客

原创如何获得 “最大六边形” 的技能图

学习成就页包括贡献墙、个人能力、能力、最新动态和认可，今天的主角就是个人能力图，也叫个人能力雷达图。技能树答题、发布讨论帖、直播、gitcode提交代码、参加竞赛，有参加以上项目的，按照次数进行统计得分。

2023-07-07 10:54:33 12257 10

向量数据库（Vector Database），也叫矢量数据库，主要用来存储和处理向量数据。在数学中，向量是有大小和方向的量，可以使用带箭头的线段表示，箭头指向即为向量的方向，线段的长度表示向量的大小。两个向量的距离或者相似性可以通过汉明距离、欧式距离或者余弦距离得到。图像、文本和音视频这种非结构化数据都可以通过某种变换或者嵌入学习转化为向量数据存储到向量数据库中，从而实现对图像、文本和音视频的相似性搜索和检索。

2023-05-29 23:38:27 82313 12

原创大语言模型浅探一

近来，人工智能异常火热，ChatGPT的出现极大的推动了自然语言处理的发展，在推出仅两个月后，月活跃用户已达1亿，成为历史上增长最快的消费应用。OpenAI一直在研究生成式模型，在2018年6月发布了GPT，在2020年5月发布了GPT3，GPT3的模型参数也达到了1750 亿。但是为什么到现在ChatGPT才突然间火起来呢？众所周知，模型只有达到一定的参数量才会出现涌现能力，但是两年强模型参数已经达到了1750亿，说明单纯的堆模型参数并不能达到想要的效果。

2023-04-20 09:45:05 11988 11

原创基于SimCSE和Faiss的文本向量检索实践

传统的文本检索一般是建立倒排索引，对搜索词的召回结果进行打分排序返回最终结果，但是在海量的数据面前，召回结果页面临着一些挑战。于是就有了基于语义的搜索，即将文本向量化，默认向量包含了文本的语义信息，匹配最近的向量返回结果。

2023-01-18 15:32:22 2746 2

原创使用html table生成统一标签全景图

最近项目有一个需求，需要为统一标签生成一个全景图，类似于tree map chart，每个标签的大小由标签下面的博文数量决定，按照近一个月的博文数量排序并配色，在红和绿之间进行渐变，最红代表近一个月新增最多，最绿代表最近一个新增最少。

2022-10-22 19:38:35 8344 3

原创一次优快云客户体验经历

为了让每个开发人员都能知道用户需要的是什么，用户都在使用优快云的什么功能，公司特意为每个人安排了一次2个小时的客户体验工作，今天就轮到我值班了。

2022-08-17 18:45:11 1287 3

原创 NLP实战-基于弱标注数据的文本分类

本文介绍如何使用弱标注数据进行文本分类，基于优快云文库下载标签分类场景进行介绍，使用特征选择的方法对弱标注的数据进行过滤，使弱标注的数据能用来进行模型训练。

2022-05-25 17:31:53 3341 8

原创优快云指数

优快云指数的由来csdn目前积累了大量的数据，包括博客，问答，社区，下载以及搜索，近几个月以来，我们AI团队致力于结构化这部分数据，做了很多的努力，最先是统一了全站的标签，形成了优快云自己的您统一标签，之后清洗存量数据，对数据标统一标签，打通结构化数据的路子，完成了首版python技能树。而在此基础之上，我们想发布一个指数数据，统计的是标签下面的内容数量，例如标签相关的创作内容数和相关的搜索数，对他们进行加权计算形成优快云指数，形如百度的搜索指数和谷歌的搜索趋势。以此来展示热门的标签和技术，更

2021-10-20 10:39:23 2268 6

原创 python多线程与多进程

最近做项目的时候因为要对大批量的数据进行处理，所以立马想到的是用多线程/多进程进行加速处理，但是python中多线程和多进程还是有一些区别，因此使用的场景也有所不同。多线程与多进程的区别记得教科书上一句经典的对多线程和多进程的介绍：”进程是资源分配的最小单位，线程是cpu调度的最小单位“。简单说来就是，多线程共享内存，内存占用少，cpu调度简单，cpu利用率高；多进程每个进程独享内存，内存占用高，cpu调度复杂，cpu利用率低。了解了这些，如果是使用过c++或者java的程序员会很好的根据场景选择多

2021-09-20 20:11:19 2028 2

zxm2015的博客

原创如何获得 “最大六边形” 的技能图

原创 10分钟了解向量数据库

原创大语言模型浅探一

原创基于SimCSE和Faiss的文本向量检索实践

原创使用html table生成统一标签全景图

原创一次优快云客户体验经历

原创 NLP实战-基于弱标注数据的文本分类

原创优快云指数

原创 python多线程与多进程

原创博客数据清洗篇

原创基于博客标签的多标签分类器(multi-label classification)

原创 Could not load dynamic library ‘libcudnn.so.8‘

原创停用词扩展-基于点互信息

华为HCIP认证学习cssa（Cloud Service Solutions Architect）题库2023

mac远程连接工具(后面跟n个空格 )