
大数据 | 数据挖掘
文章平均质量分 86
大数据 | 数据挖掘 | 数据分析
mustuo
写代码的
展开
-
论文笔记 | 用户画像
移动互联时代已经到来,广告营销在社交媒体中展现出蓬勃的生命力,信息流广告正是这样一种以社交媒体平台为载体,将推广内容隐藏于自然信息流中,从而传递品牌信息的一种新兴广告形式。《社交媒体信息流广告的场景匹配研究》周子玉用户画像是场景匹配在社交媒体信息流广告分发中的一种应用。1 背景随着2019年5G正式投入商用,运营商迎来新的收入增长点。中国电信副总经理刘桂清在2021年中期业绩说明会上表示:“5G收入的增长成为上半年整体收入的重要拉力,行业应用是当前5G发展的热点”,在5G赋能和云改数转战.原创 2021-12-24 18:48:35 · 2548 阅读 · 0 评论 -
讯飞赛题 | 移动设备用户年龄和性别预测
赛题:2021 iFLYTEK A.I.开发者大赛-讯飞开放平台 (xfyun.cn)【写在前面】第一次做赛题,用的算法也比较简单,代码在这边-->GitHub - mutsuo/Challenge: 放比赛的开源代码说实话自己并不是很满意,所以欢迎与我交流!发现任何问题麻烦帮忙指出来!如果有优化或者学习/比赛的建议麻烦告诉我!我会很感激你!目录1 系统模型2 算法设计2.1 数据预处理2.1.1 事件日志分析2.1.2 数据规约2.1.3 数据挖掘3..原创 2021-12-24 18:36:53 · 3447 阅读 · 4 评论 -
使用seabones的heatmap时个别列丢失
在使用heatmap时,发现有一列丢掉了。import seaborn as snsplt.figure(figsize=(16,12))sns.heatmap(df.iloc[:,1:].corr(),annot=True,fmt=".2f")plt.show()【解决方法】检查一下字段的数据类型,很可能是object类型:df.info()<class 'pandas.core.frame.DataFrame'>RangeIndex: 6554 entri原创 2021-07-08 10:00:33 · 607 阅读 · 3 评论 -
数据挖掘学习日记 | 索引
《数据挖掘学习日记》系列主要是在学习本科《数据挖掘基础》这门课时留下的笔记,共10篇。若有机会继续学习,还会接着写下去:)数据挖掘学习日记0·常用工具、博客数据挖掘学习日记1·有监督学习与无监督学习数据挖掘学习日记2·训练集 验证集 测试集 预测集数据挖掘学习日记3·关联规则挖掘数据挖掘学习日记4·分类初阶数据挖掘学习日记5·ClassAdvanced入门数据挖...原创 2020-03-06 19:52:34 · 368 阅读 · 1 评论 -
数据挖掘学习日记9·Hadoop环境搭建(一)
引言数据挖掘基础课程告一段落,接下来要开始Hadoop的课程学习。课程准备的第一步,便是环境搭建,包括CentOS系统准备、jdk、maven、sql、tomcat、eclipse(可选)的安装。接下来依次进行。本次安装CentOS、jdk、eclipse的安装。CentOS系统准备使用的机器是暗影精灵3,系统是win10。上学期学习Linux时,试图安装Win10+Ubu...原创 2019-03-23 21:11:35 · 297 阅读 · 0 评论 -
数据挖掘学习日记10·Hadoop环境搭建(二)
本次进行Hadoop本体的安装。安装基于厦门大学数据实验室的这篇文章。因为手头只有一台电脑,仅安装“Hadoop伪分布式配置”,从文章的同名小节开始参考。本文为笔记记录,同时也记录了安装过程中遇到的问题。安装之前,请准备好Hadoop的资源,并解压好,记住解压目录。配置Hadoop环境变量文章指出使用如下命令在~/.bashrc目录下进行配置:gedit ~/.bas...原创 2019-03-25 17:22:25 · 318 阅读 · 0 评论 -
数据挖掘学习日记6·以K-means为例的聚类算法基本流程
聚类分析总述聚类分析和回归和分类不同,是一种无监督的方法,将数据对象划分为不同的类,类称为“簇”,簇的集合称为聚类。聚类分析算法使同一类的数据彼此相似,不同类之间的彼此相异,相似性和相异性的度量如下。对象之间的相似性/相异性对象之间的相似性和相异性常用相异度矩阵来表示,相异度矩阵中的d(x,y)表示对象x与对象y的相异程度。数值型数据的相似性/相异性通常,使用距离来表示两个...原创 2019-03-18 20:41:28 · 1018 阅读 · 0 评论 -
数据挖掘学习日记4·分类初阶
1 基本概念根据预测结果是否离散,预测问题分为分类和数值预测(回归)两大门类。1.1 分类的基本任务与两阶段分类的基本任务是:构建分类器来来预测类标号。基于这个基本任务,可以将分类过程分为两个阶段:学习阶段:构建分类模型 分类阶段:使用模型预测给定数据的类标号即,首先使用训练数据得到分类器,再使用分类器为测试集做预测。分类的结果是离散的。1.2 分类工...原创 2019-03-13 14:02:16 · 1342 阅读 · 0 评论 -
数据挖掘学习日记5·ClassAdvanced入门
典型分类算法基本概念KNNk邻近算法,k-NearestNeighbor,kNN分类算法是分类技术中最简单的方法之一。kNN算法的核心思想是:如果一个样本在特征空间中的k个最相邻样本中的大多数属于某一个类别,则样本也属于这个类别,并具有这个类别上样本的属性。kNN方法在类别决策时,只与极少量的相邻样本相关。kNN方法适合类域交叉或重叠较多的代分样本集。在决策中,参数k和距离...原创 2019-03-18 13:53:27 · 207 阅读 · 0 评论 -
数据挖掘学习日记7·k-means算法JAVA代码实现
算法回顾聚类概念聚类是一种无监督学习方法,使类内元素距离尽量相近,类间元素距离尽量远。k-means算法流程在数据集D中随机地选择k个对象,每个对象代表一个簇的初始均值或中心。其余每个对象根据与簇中心的欧氏距离,分配到最近的簇中。 迭代地改编簇内变差:对每个簇,根据上次迭代分配到的簇对象,重新计算均值(将对象的x值和y值分别取平均得到新的簇中心)。 将更新后的均值作为新的簇...原创 2019-03-20 13:09:25 · 709 阅读 · 0 评论 -
数据挖掘学习日记3·关联规则挖掘
目录1 关联规则挖掘概念2 关联规则基本模型2.1 基本概念2.2 关联规则的挖掘步骤3 Apriori算法3.1 介绍3.2 实现步骤3.3 伪代码1 关联规则挖掘概念一、定义关联规则反映一个事物与其它事物之间的依赖和相互关联性。经典例子为购物篮分析,通过分析购物篮数据来分析顾客经常同时购买哪些商品(购买习惯)。这是BI(Business I...原创 2019-03-11 20:02:35 · 2304 阅读 · 0 评论 -
数据挖掘学习日记0·常用工具、博客
博客机器学习实战教程https://cuijiahua.com/blog/ml网站厦门大学数据实验室http://dblab.xmu.edu.cn数据采集工具八爪鱼http://www.bazhuayu.com/WebCollection(Java)https://github.com/CrawlScript/WebCollector在线可视化工...原创 2019-03-07 10:54:43 · 295 阅读 · 0 评论 -
数据挖掘学习日记2·训练集 验证集 测试集 预测集
在机器学习中,会对数据集进行划分,有监督学习和无监督学习的划分方式不同。有监督学习中,数据集被划分为训练集、验证集和测试集。无监督学习中,数据集被划分为训练集、测试集和预测集。有监督学习在有监督学习中,数据集被划分为训练集(training set)、验证集(validation set)和测试集(test set)。三者的比例常为50:25:25。在传统机器学习中,若无需对模...原创 2019-03-07 10:31:24 · 6319 阅读 · 0 评论 -
数据挖掘学习日记1·有监督学习与无监督学习
任务* 了解以下概念: > 监督式学习 > 非监督式学习* 了解一种数据挖掘(机器学习)算法,并了解案例有监督学习和无监督学习构建机器学习模型包括:选择建模技术,并在数据集中应用该技术。从高层次上区分,有两种类型的建模技术:监督学习和无监督学习。▲ 基本流程:准备原料--> 模型学习 --> 模型评价构建模型之后,使用标准指标...原创 2019-03-06 20:40:51 · 2886 阅读 · 0 评论 -
【数据挖掘实践初步·以知乎数据为例】数据挖掘计划
开始学习数据挖掘基础课程,配合课堂,我决定爬取知乎的数据作为课下练习。数据获取数据获取有四种典型的途径:公司内部数据库(系统)数据; 爬虫获取; 大公司提供的API接口:如中国气象局公开的API接口; 大公司公开的真实的、历史的、离线的数据。作为一介草民,我选择亲自爬取的方法,给数据清洗留出空间。数据集说明属性列:id | 标题 | 回答数 | 关注数 | 浏览数 ...原创 2019-03-05 19:20:21 · 896 阅读 · 0 评论