
python
文章平均质量分 78
哇哇咔咔MZ:y
搬砖工
展开
-
向Jupyter中添加conda虚拟环境以及Kernel链接不上问题
jupyter notebook 中添加新kernel 以及 kernel链接失败问题解决方案原创 2022-07-27 14:59:43 · 923 阅读 · 1 评论 -
2020 泰迪杯数据 文本挖掘入门
1.数据预处理对于中文文本,在进行NLP,最重要的一步就是对文本进行合理的分词。这一步的好坏对后面模型的精确与否有深刻的影响。我们对留言文本分词采用的工具是jieba。Jieba是python的一个中文分词模块,GitHub上称其为最好的中文分词组件。这里我们注意到对于问政系统的留言中存在着大量的地名以及机构名。仅仅使用jieba分词,很容易将这些比较长的地名以及机构名拆分成一个个词语,这样很容易破坏留言原本的语言,给模型的训练带来困难。因为这些地名与机构名是在留言中往往以高频词出现的。基于上面的问原创 2021-04-06 00:55:28 · 677 阅读 · 0 评论 -
python 数据预处理时的标准化Standardization,归一化normalization
标准化(Standardization),又叫做mean removal and variance scaling。从名字上可以看出就是移出平均值,将方差化为1。在概率统计中,我们学过原创 2021-04-05 02:26:23 · 4101 阅读 · 2 评论 -
电影推荐系统
用python实现一个简单的电影推荐系统电影推荐系统进行简单的数据分析user-based KNNBasic 协同过滤算法模型生成调整超参数电影推荐系统常见的电影推荐系统算法有协同过滤和矩阵因子分解。而协同过滤算法有基于item和基于user两种不同的形式。数据来自:here.部分数据展示如下:movies.csv(shape:103293)和ratings.csv(shape:1053394)进行简单的数据分析Most Viewed Movies Visualization:we wil原创 2021-04-02 02:08:47 · 1451 阅读 · 0 评论