七月在线数据挖掘
猫敷雪
研究生在读
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第一课实践:NumPy基础
NumPy是Python的科学计算的一个核心库。它提供了一个高性能的多维数组(矩阵)对象,可以完成在其之上的很多操作。很多机器学习中的计算问题,把数据vectorize之后可以进行非常高效的运算。数组一个NumPy数组是一些类型相同的元素组成的类矩阵数据。用list或者层叠的list可以初始化:import numpy as npa = np.array([1, 2, 3]) # 一维...原创 2019-07-30 14:59:33 · 250 阅读 · 0 评论 -
2-7_Pandas_Timestamps
import pandas as pdimport warningswarnings.filterwarnings('ignore')pd.set_option('display.max_columns',1000)pd.set_option('display.width', 1000)pd.set_option('display.max_colwidth',1000)7.1 Uni...原创 2019-08-02 09:33:35 · 364 阅读 · 0 评论 -
2-6_Cleaning_Data
清洗数据清洗和处理数据通常也是非常重要一个环节,这节提提这个内容。%matplotlib inlineimport pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport warningswarnings.filterwarnings('ignore')plt.style.use("bmh")plt....原创 2019-08-02 09:31:26 · 491 阅读 · 1 评论 -
2-5_Pandas_String_Operations
pandas字符串操作很明显除了数值型,我们处理的数据还有很多字符类型的,而这部分数据显然也非常重要,因此这个部分我们提一提pandas的字符串处理。%matplotlib inlineimport pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport warningswarnings.filterwa...原创 2019-08-02 09:27:00 · 214 阅读 · 0 评论 -
2-4_Date_Type_analysis
%matplotlib inlineimport pandas as pdimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings('ignore')plt.style.use("bmh")plt.rc('font', family='SimHei', size=20) #显示中文pd.set_opt...原创 2019-08-02 09:14:47 · 236 阅读 · 0 评论 -
2-3_Data_Analysis_part2
# The usual preamble%matplotlib inlineimport pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport warningswarnings.filterwarnings('ignore')# Make the graphs a bit prettier, and b...原创 2019-08-01 21:55:52 · 226 阅读 · 0 评论 -
2-2_Selecting_data_and_analysis_part1
import包,加入一些初始设定# The usual preamble%matplotlib inlineimport pandas as pdimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings('ignore')# Make the graphs a bit prettier, and big...原创 2019-08-01 19:25:37 · 740 阅读 · 0 评论 -
2-1_Reading_CSV_File
# Render our plots inline%matplotlib inlineimport pandas as pdimport matplotlib.pyplot as pltplt.style.use("bmh")plt.rc('font', family='SimHei', size=13) #显示中文pd.set_option('display.max_columns'...原创 2019-08-01 17:14:31 · 381 阅读 · 2 评论 -
第四章 数据上的关联规则
数据挖掘相对于机器学习范围更广泛Hadoop是一种频繁读取的方式,是一种需要不断读写的过程。Apriori算法时间复杂度和空间复杂度都相对较高电商推荐:协同过滤根据用户行为相似性推荐商品learing to rate1、关联规则简介数据挖掘是一项从大量的记录数据中提取有价值的、人们感兴趣的知识,这些知识是隐含的、事先未知的有用信息,提取的知识一般可表示为概念(Concepts)...原创 2019-08-05 16:08:33 · 1875 阅读 · 0 评论 -
第三课-海量数据的分布式处理
转载 2019-08-03 15:12:32 · 359 阅读 · 0 评论 -
2-8_seaborn_visualization
Seaborn与可视化Seaborn是斯坦福大学出的一个非常好用的可视化包,这一节我们一起来看看这个包和相关的一些用法。import numpy as npimport warningswarnings.filterwarnings('ignore')import pandas as pdimport warningswarnings.filterwarnings('ignore')...原创 2019-08-02 09:39:29 · 661 阅读 · 0 评论
分享