自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 问答 (1)
  • 收藏
  • 关注

原创 如何获得 “最大六边形” 的技能图

学习成就页包括贡献墙、个人能力、能力、最新动态和认可,今天的主角就是个人能力图,也叫个人能力雷达图。技能树答题、发布讨论帖、直播、gitcode提交代码、参加竞赛,有参加以上项目的,按照次数进行统计得分。

2023-07-07 10:54:33 10061 10

原创 10分钟了解向量数据库

向量数据库(Vector Database),也叫矢量数据库,主要用来存储和处理向量数据。在数学中,向量是有大小和方向的量,可以使用带箭头的线段表示,箭头指向即为向量的方向,线段的长度表示向量的大小。两个向量的距离或者相似性可以通过汉明距离、欧式距离或者余弦距离得到。图像、文本和音视频这种非结构化数据都可以通过某种变换或者嵌入学习转化为向量数据存储到向量数据库中,从而实现对图像、文本和音视频的相似性搜索和检索。

2023-05-29 23:38:27 71361 12

原创 大语言模型浅探一

近来,人工智能异常火热,ChatGPT的出现极大的推动了自然语言处理的发展,在推出仅两个月后,月活跃用户已达1亿,成为历史上增长最快的消费应用。OpenAI一直在研究生成式模型,在2018年6月发布了GPT,在2020年5月发布了GPT3,GPT3的模型参数也达到了1750 亿。但是为什么到现在ChatGPT才突然间火起来呢?众所周知,模型只有达到一定的参数量才会出现涌现能力,但是两年强模型参数已经达到了1750亿,说明单纯的堆模型参数并不能达到想要的效果。

2023-04-20 09:45:05 11781 11

原创 基于SimCSE和Faiss的文本向量检索实践

传统的文本检索一般是建立倒排索引,对搜索词的召回结果进行打分排序返回最终结果,但是在海量的数据面前,召回结果页面临着一些挑战。于是就有了基于语义的搜索,即将文本向量化,默认向量包含了文本的语义信息,匹配最近的向量返回结果。

2023-01-18 15:32:22 2549 2

原创 使用html table生成统一标签全景图

最近项目有一个需求,需要为统一标签生成一个全景图,类似于tree map chart,每个标签的大小由标签下面的博文数量决定,按照近一个月的博文数量排序并配色,在红和绿之间进行渐变,最红代表近一个月新增最多,最绿代表最近一个新增最少。

2022-10-22 19:38:35 8244 3

原创 一次优快云客户体验经历

为了让每个开发人员都能知道用户需要的是什么,用户都在使用优快云的什么功能,公司特意为每个人安排了一次2个小时的客户体验工作,今天就轮到我值班了。

2022-08-17 18:45:11 1207 3

原创 NLP实战-基于弱标注数据的文本分类

本文介绍如何使用弱标注数据进行文本分类,基于优快云文库下载标签分类场景进行介绍,使用特征选择的方法对弱标注的数据进行过滤,使弱标注的数据能用来进行模型训练。

2022-05-25 17:31:53 3184 8

原创 优快云指数

优快云指数的由来csdn目前积累了大量的数据,包括博客,问答,社区,下载以及搜索,近几个月以来,我们AI团队致力于结构化这部分数据,做了很多的努力,最先是统一了全站的标签,形成了优快云自己的您统一标签,之后清洗存量数据,对数据标统一标签,打通结构化数据的路子,完成了首版python技能树。而在此基础之上,我们想发布一个指数数据,统计的是标签下面的内容数量,例如标签相关的创作内容数和相关的搜索数,对他们进行加权计算形成优快云指数,形如百度的搜索指数和谷歌的搜索趋势。以此来展示热门的标签和技术,更

2021-10-20 10:39:23 2182 6

原创 python多线程与多进程

最近做项目的时候因为要对大批量的数据进行处理,所以立马想到的是用多线程/多进程进行加速处理,但是python中多线程和多进程还是有一些区别,因此使用的场景也有所不同。多线程与多进程的区别记得教科书上一句经典的对多线程和多进程的介绍:”进程是资源分配的最小单位,线程是cpu调度的最小单位“。简单说来就是,多线程共享内存,内存占用少,cpu调度简单,cpu利用率高;多进程每个进程独享内存,内存占用高,cpu调度复杂,cpu利用率低。了解了这些,如果是使用过c++或者java的程序员会很好的根据场景选择多

2021-09-20 20:11:19 1930 2

原创 博客数据清洗篇

我们要做什么csdn有了自己的统一标签之后,就要着眼于对目前所有的数据进行清洗,即打上统一标签,这里先清洗博客数据。如果立即对所有的数据打标签,数据量太大,采用一个折中的方案,先对近一个月有更新的博客数据进行清洗,然后提供接口对有更新的博客进行清洗。博客打标签依赖于,目前已经支持106个类别。...

2021-08-21 22:22:46 738

原创 基于博客标签的多标签分类器(multi-label classification)

一、写在前面的话最近项目需要做一个对问题的打标签系统,这里的问题就是csdn问答板块里面用户提出的问题,打上统一标签之后有利于问题的归类。目前领导的想法是对csdn的资源,例如,博客、问答等打上统一的标签,之后利用整合的资源做进一步的应用。统一标签目前大概有400-500个,有大类和小类两个层级,对于python这个大类来说,下面的小类有:python,list,django,virtualenv,tornado,flask等标签。或者是博客的数据是现成的,阴差阳错之下就先使用博客的数据做了一个

2021-07-18 20:50:35 2898 3

原创 Could not load dynamic library ‘libcudnn.so.8‘

最近要训练博客的标签分类系统,因为使用tensorflow,看了一下训练服务器已经安装好cuda,但是没有安装cudnn,于是从官网将cudnn的tar文件下载下来,参考官网安装教程一顿操作:​​​​​​​$ tar -xzvf cudnn-x.x-linux-x64-v8.x.x.x.tgz$ sudo cp cuda/include/cudnn*.h /usr/local/cuda/include $ sudo cp -P cuda/lib64/libcudnn* /usr/local/cud

2021-07-12 17:02:47 6781

原创 停用词扩展-基于点互信息

一、问题来由最近参与了优快云的问答模块的开发,有一个任务是扩展停用词,主要用在改善问答的质量,问题的标题尽量用来描述所遇到的问题,避免一些其他的词汇,例如:“小白”,“大佬”,“求救”等等。这样的词汇对提问题没有任何帮助,这里暂且称之为虚词。目前虚词表由运营整理提供,只有几十个,领导要求对其进行扩充,并提出可以参考SOPMI情感词典的扩充方案。二、算法思想其核心思想主要有:1、利用词的共现来拓展候选停用词;2、利用点互信息(PMI)来计算词的相关性。PMI用来衡量两个两个事物之间.

2021-06-27 17:23:13 316

华为HCIP认证学习cssa(Cloud Service Solutions Architect)题库2023

单选、多选、判断、填空、拖拽共763题

2023-09-20

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除