
数据分析
文章平均质量分 73
友谊无价
CQUPT的蒟蒻
展开
-
《青春有你2》选手信息爬取
前言最近复习Python基础,正好把之前在aistudio做的爬虫demo复习一下上网全过程:普通用户:打开浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 渲染到页面上。爬虫程序:模拟浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 提取有用的数据 --> 保存到本地/数据库。爬虫的过程:1.发送请求(requests模块)2.获取响应数据(服务器返回)3.解析并提取数据(BeautifulSoup查原创 2020-12-06 17:01:15 · 1341 阅读 · 1 评论 -
Python3使用积累
Python3使用积累最近可能要经常使用Python,所以记录一下Python的相关用法。算法竞赛中的积累头写法if __name__ == '__main__':初始化\输入1.读取一维数组arr = list(map(int, input().split(' ')))2.初始化全0的二维数组st = [[0 for col in range(n)] for row in range(m)]3.读入n,mn, m = map(int, input().split(' '原创 2020-12-06 14:57:36 · 2075 阅读 · 6 评论 -
零基础入门NLP赛事 - Task4 基于深度学习的文本分类1-fastText
方法:fasttextfasttext是一种典型的基于深度学习模型的word embedding方法是一个三层神经网络,由输入层、隐含层和输出层表示:核心代码:import pandas as pdfrom sklearn.metrics import f1_score# 转换为FastText需要的格式train_df = pd.read_csv('data/train_set.csv', sep='\t', nrows=15000)train_df['label_ft']原创 2020-07-27 22:54:53 · 246 阅读 · 0 评论 -
零基础入门NLP赛事 - Task3 基于机器学习的文本分类
本节主要采用机器学习的方法来解决文本分类的问题常用的Word Embedding 的方法有 one-hot编码,bag of word, TF-IDF所以思路就是 Embedding + 任意机器学习方法即可1.Onehot + RidgeClassifier# Count Vectors + RidgeClassifierimport pandas as pdfrom sklearn.feature_extraction.text import CountVectorizerf原创 2020-07-25 22:43:02 · 176 阅读 · 1 评论 -
Datawhale零基础入门NLP赛事 - Task2 数据读取与数据分析
用pandas处理一下数据,训练集的shape为(200000, 2),建议刚开始可以读取几百条看看效果,全部读取的话内存大概要12G左右才能进行正常处理。import pandas as pdtrain_df = pd.read_csv('data/train_set.csv', sep='\t')train_df.head()train_df.shape数据分析在读取完成数据集后,我们还可以对数据集进行数据分析的操作。虽然对于非结构数据并不需要做很多的数据分析,但通过数据分析还是可原创 2020-07-22 22:40:08 · 168 阅读 · 0 评论 -
Datawhale零基础入门NLP赛事 - Task1 赛题理解
要求:对新闻文本进行分类标签:整合划分出14个候选分类类别,财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。数据构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选手人工标注测试集的情况,我们将比赛数据的文本按照字符级别进行了匿名处理。测试指标:f1_score主要思路:...原创 2020-07-21 22:11:28 · 184 阅读 · 0 评论 -
零基础入门数据挖掘 task5
Datawhale 零基础入门数据挖掘-Task5 模型融合五、模型融合Tip:此部分为零基础入门数据挖掘的 Task5 模型融合 部分,带你来了解各种模型结果的融合方式,在比赛的攻坚时刻冲刺Top,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 二手车交易价格预测地址:https://tianchi.aliyun.com/competition/entrance/231784...原创 2020-04-05 15:45:26 · 158 阅读 · 0 评论 -
零基础入门数据挖掘 task4
Datawhale 零基础入门数据挖掘-Task4 建模调参四、建模与调参Tip:此部分为零基础入门数据挖掘的 Task4 建模调参 部分,带你来了解各种模型以及模型的评价和调参策略,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 二手车交易价格预测地址:https://tianchi.aliyun.com/competition/entrance/231784/introdu...原创 2020-04-01 21:06:49 · 754 阅读 · 0 评论 -
零基础入门数据分析 task3
Datawhale 零基础入门数据挖掘-Task3 特征工程¶三、 特征工程目标Tip:此部分为零基础入门数据挖掘的 Task3 特征工程 部分,带你来了解各种特征工程以及分析方法,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 二手车交易价格预测地址:https://tianchi.aliyun.com/competition/entrance/231784/introduc...原创 2020-03-27 20:41:04 · 238 阅读 · 0 评论 -
零基础入门数据分析 Task2
一、赛题数据赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏二、评测标准评价标准为MAE(Mean Abs...原创 2020-03-24 21:45:52 · 328 阅读 · 0 评论