优快云指数

部署运行你感兴趣的模型镜像

优快云指数的由来

优快云目前积累了大量的数据,包括博客,问答,社区,下载以及搜索,近几个月以来,我们AI团队致力于结构化这部分数据,做了很多的努力,最先是统一了全站的标签,形成了优快云自己的统一标签,之后清洗存量数据,对数据标统一标签,打通结构化数据的路子,完成了首版python技能树

而在此基础之上,我们想发布一个指数数据,统计的是标签下面的内容数量,例如标签相关的创作内容数和相关的搜索数,对他们进行加权计算形成优快云指数,形如百度的搜索指数和谷歌的搜索趋势。以此来展示热门的标签和技术,更可以以图表的方式展示相关IT技术的发展趋势。

优快云指数的计算

按照原方案,是要对所有存量的数据进行清洗打统一标签(基于前面介绍的博客标签的多标签分类器),时间范围是从2000年至今,由于数据存储等原因,还没有完成对存量历史数据的清洗,所以这里采用了一个简单粗略的方案,后续随清洗的进度进行迭代更新。

首先,整理标签的同义词。搜索和统计都会用到标签同义词。

其次,统计数量。下载所有存量数据的标题和内容,包括博客,问答,社区帖子,下载和搜索关键词,将标签及其同义词添加自定义分词词典,然后对数据进行分词,按照天统计内容里面出现标签或者标签同义词的次数。

最后,计算指数。采用的是创作和搜索加权相加的方案,例如,标签java某一天的优快云总创作数为a,同一天的搜索数为b,创作和搜索的权重分别为x和y,标签java当天的指数为:

index = math.ceil(x*a+y*b)

x和y是为了平衡创作和搜索的权重用的,如果有一方的数据偏大或者缺失可以通过权重参数进行平衡,避免数据断崖式上升或者下降。

写在最后

优快云指数将会是一个很有意义的指标,可以用来展示IT行业技术的发展方向,追踪热门技术。随着统一标签的不断完善,数据处理进度的推进,其版本也会不断迭代。若您对我们的工作有任何疑问,随时欢迎反馈。

您可能感兴趣的与本文相关的镜像

Python3.10

Python3.10

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值