
数据科学与大数据分析
文章平均质量分 92
Jifu_M
这个作者很懒,什么都没留下…
展开
-
数据科学与大数据分析之项目6-CNN模型图像分类
用预先训练好的CNN模型进行图像分类项目介绍项目开始项目介绍本项目使用Caltech256来作为训练和测试集。解压缩该文件,您将看到257个文件夹。每个文件夹对应一个类。使用预先训练的Inception- BatchNorm网络来提取Caltech256训练和测试集中每个图像的特征表示。本项目包含:Cnn的图像分析的理解“卷积层”和“池化层”的功能Deep CNNs中的名词解释 activation function; epoch number;batch size; learni原创 2021-01-03 16:11:19 · 1966 阅读 · 0 评论 -
数据科学与大数据分析之项目5-情感分析
情感分析Sentiment Analysis项目介绍项目开始项目介绍在Twitter上选择一个你感兴趣的话题,比如一部电影,一个名人,或者任何流行语。收集至少200条与此主题相关的tweet。用手动将它们标记为positive, neutral 或者negative。接下来,将他们随机分成75%的tweet作为训练集,剩下的25%作为测试集。在这些tweet上部署几个分类器来执行情绪分析。报告分类准确度、AUC,并绘制混淆矩阵。最后评估哪个分类器的性能在这里优于其他分类器。本项目包含:描述收集t原创 2021-01-03 13:59:36 · 2227 阅读 · 0 评论 -
数据科学与大数据分析之项目4-主题建模
Topic Modeling项目介绍项目开始Reference项目介绍使用python在Reuters-21578语料库上进行LDA主题建模。The NLTK in Python comes with the Reuters-21578 corpus. Install the nltp python package:pip3 install --user -U nltk要导入这个文集,在Python提示符中输入以下命令:import nltknltk.download(‘reuters’)r原创 2021-01-02 20:07:18 · 965 阅读 · 0 评论 -
数据科学与大数据分析之项目3-关联规则
关联规则项目介绍项目开始项目介绍不同年级、性别和入学人数的学生参加了一项测试。为每个学生记录测试结果“成功”或“不成功”,并保存在“A1_success_data.csv”中。在这个任务中,您将使用关联规则来挖掘这四个属性(即年级、性别、入学人数和成功)之间的有趣关系。通过应用不同的“支持”阈值和阈值,生成频繁项集并提取它们的关联规则并通过显示这些项集的支持度、置信度和提升值来检查它们。获取右手边(rhs)唯一属性为“成功”的规则,以帮助预测学生是否能成功,是否通过此测试取决于他/她的年级、原创 2021-01-02 17:44:12 · 1056 阅读 · 0 评论 -
数据科学与大数据分析之项目2-聚类
聚类项目介绍项目开始项目介绍文件TreeDB.csv包含258个树种的描述。数据由XX市议会开放空间和环境服务部管理处提供。已提供数据集作为公共空间最佳树木选择合作项目的一部分。假设你是该项目团队的一员。进一步假设你决定参与聚类分析是更好地理解数据集属性的一部分。为了这个练习你应该只考虑特征(属性)“高度”、“宽度”、“表面积”和“盐”。描述您对此数据集的观察,例如示例的数量、特征的数量以及这些选定特征的含义。您还应该使用summary()函数来帮助您获得更多的理解。绘制此数据集选定属性的散原创 2021-01-02 17:18:31 · 755 阅读 · 1 评论 -
数据科学与大数据分析之项目1-假设检验
假设检验项目介绍项目开始结论项目介绍为了提高学生的学习成绩,教师开发了两种新的学习方法,称为“方法1”和“方法2”。为了分析这些方法的有效性,教师随机抽取N名学生。对于其中的N1,他使用“approach1”,对于其中的N2,他使用“approach2”。对于其余的(N-N1-N2)学生,他什么也不申请。一段时间后,教师对所有N名学生进行测试,并用成绩分数(注意,这个分数可以是正的,也可以是负的)评估每个学生的成绩。评估结果存储在“A1_performance_test.csv“只不过,它与此任务一起提原创 2021-01-02 16:41:14 · 689 阅读 · 0 评论 -
数据科学与大数据分析之实践判断与决策
实践判断与决策零假设缺失值的处理将类别转换为数字-1将类别转换为数字-2层次聚类与分区聚类文本分析中常见词的处理分类器的选择图像识别判断卷积神经网络的学习算法时间序列ARIMA建模分布式存储和处理-1分布式存储和处理-2针对现实中可能出现的情景和问题,我们要如何做?零假设一家制药公司正在研制COVIT-19疫苗。他们在60人身上测试疫苗的有效性。其中30人接种了placbo疫苗,另外30人接种了实验性疫苗。这项试验的参与者不知道他们是接受了安慰剂还是疫苗。试验结果每周收集一次,历时三个月。该公司采用零原创 2020-12-31 21:08:27 · 601 阅读 · 0 评论 -
数据科学与大数据分析项目练习-7在石油产量数据集上应用时间序列分析
在石油产量数据集上应用时间序列分析这部分在学习笔记部分介绍过,在这里结合代码来学习实践。首先加载库,设置默认路径,并读取文件library(forecast)setwd("c:/Users/T7/Desktop/123")gas_prod_input <- as.data.frame( read.csv("gas_prod.csv") )读取的数据集如下:创建一个时间序列对象并输出图gas_prod <- ts(gas_prod_input[,2])plot(gas_p原创 2020-12-31 18:09:14 · 1417 阅读 · 0 评论 -
数据科学与大数据分析项目练习-6在数据集Cora上应用文本分析
在数据集Cora上应用文本分析首先还是要安装并加载需要使用的包require("ggplot2")install.packages("reshape2")install.packages("lda")require("reshape2")require("lda")#加载文档和词汇表数据(cora.documents)data(cora.documents)data(cora.vocab)# 当前/活动主题将自动应用于您绘制的每个绘图theme_set(theme_bw())原创 2020-12-31 17:29:52 · 309 阅读 · 0 评论 -
数据科学与大数据分析项目练习-5在数据集上应用决策树算法
在数据集上应用决策树算法项目要求:Project Start项目要求:在数据集“DTdata.csv”上应用决策树算法–使用summary()函数生成已构建模型的摘要,并解释摘要。–根据构建的模型绘制树并解释树。–预测以下观察结果• Outlook = “rainy”; Temperature = “hot”• Humidity = “high”; Wind = “TRUE”Project Start# 首先还是先设置默认路径setwd("c:/Users/T7/Desktop/123"原创 2020-12-31 16:57:53 · 1119 阅读 · 0 评论 -
数据科学与大数据分析项目练习-4在数据集上应用线性回归算法
在数据集上应用线性回归算法项目要求:Project Start计算模型参数的置信区间预期结果的置信区间特定输出的预测区间诊断在数据集“income”上应用线性回归算法.项目要求:使用以下两种输入变量设置,对“收入”数据集应用线性回归算法–年龄、教育程度和性别(模型A)。-年龄和教育(模型B)。–观察并解释输出设置年龄=41,受教育程度=12,–预测预期收入–在置信区间收入的计算期望值–计算预期收益的预测区间–观察并解释他们的差异Project Start先查看下income数据集原创 2020-12-30 23:45:55 · 911 阅读 · 0 评论 -
数据科学与大数据分析项目练习-3将Apriori算法应用于R中提供的“Groceries”数据集
R语言Apriori算法我们需要安装arules and arulesViz包。项目要求:生成频繁项目集满足下面条件:– The minimum support threshold as 0.02– The minimum length of the itemsets as 1– The maximum length of the itemsets as 10生成的关联规则满足下面条件:– The minimum support threshold as 0.001– The minimu原创 2020-12-30 22:59:03 · 1957 阅读 · 1 评论 -
数据科学与大数据分析项目练习-2使用R进行K-means聚类分析
使用R进行K-means聚类分析使用Rstudio读取grades_km_input.csv并进行练习。yearly_sales.csv包含620条数据,包含4种变量:student, English, Math 和 Science.# 首先还是先设置默认路径setwd("c:/Users/T7/Desktop/123")# 导入需要用到的库,如果没有的话要先进行安装。需要注意R语言的版本,有的R版本不支持使用某些库library(plyr)library(ggplot2)library(原创 2020-12-30 16:15:14 · 1140 阅读 · 1 评论 -
数据科学与大数据分析项目练习-1熟悉并使用R语言进行数据分析
熟悉并使用R语言进行数据分析练习1练习2使用Rstudio读取yearly_sales.csv并进行练习。yearly_sales.csv包含一万条数据,包含4个column:customer id, sales total, number of orders 和 gender.练习1# 设置路径setwd("c:/Users/T7/Desktop/123")# 读取数据sales <- read.csv("./yearly_sales.csv")# 检查导入的数据集head(s原创 2020-12-29 18:28:53 · 723 阅读 · 0 评论 -
数据科学与大数据分析学习笔记-12MapReduce and Hadoop
MapReduce and HadoopMapReduceHadoop Distributed File System (HDFS)The Hadoop Ecosystem• Apache Pig• Apache Hive• Apache HBaseApache MahoutNoSQL (Not only Structured Language)这一章只针对考试内容进行简单理论介绍,深入学习部分将放在别的章节中。The Apache Hadoop software library– A framewo原创 2020-12-29 17:46:02 · 482 阅读 · 1 评论 -
数据科学与大数据分析学习笔记-11时间序列分析
Time Series Analysis时间序列分析**Box-Jenkins methodology for time series analysis:**ARIMA ModelAutocorrelation function (ACF) 自相关函数(ACF)Autoregressive (AR) ModelsPartial autocorrelation function (PACF)Moving Average (MA) modelsAutoregressive Moving Average模型 AR原创 2020-12-29 17:33:40 · 2038 阅读 · 0 评论 -
数据科学与大数据分析学习笔记-10图像分析
Image analysis图像分析Image Analysis StepsBag-of-Visual-Words ModelDeep Learning ModelNeural NetworksDeep Learning ModelConvolutional Neural Networks (CNNs)图像分析是一个展开来说很大的部分,在这里仅整理了考试相关的理论部分。Image analysis– Refers to the representation, processing, and model原创 2020-12-29 17:07:53 · 977 阅读 · 0 评论 -
数据科学与大数据分析学习笔记-9文本分析
Text Analysis文本分析Text Analysis StepsCategorizing Documents by TopicsThe process of topic modelingThe simplest topic model is Latent Dirichlet Allocation (LDA)Determining SentimentsGaining Insights文本分析–指文本数据的表示、处理和建模,以获得有用的见解。–遭受高维度的诅咒。–大多数情况下,文本没有结构化。原创 2020-12-28 22:29:50 · 1158 阅读 · 0 评论 -
数据科学与大数据分析学习笔记-8分类
Classification分类Decision Tree决策树算法Evaluating a Decision TreeProperties of Decision TreeNaïve Bayes Classifier 简单贝叶斯分类器Smoothing techniqueDiagnostics of ClassifiersConfusion matrixAdditional Classification Models•分类是数据挖掘相关应用中出现的一种基本学习方法。•分类器执行的主要任务是为新的观察值原创 2020-12-28 22:07:06 · 510 阅读 · 0 评论 -
数据科学与大数据分析学习笔记-7回归分析
Regression回归线性回归 Linear RegressionCategorical variablesConfidence interval on the parameters参数的置信区间Confidence interval on the expected outcome 预期结果的置信区间特定输出的预测区间Diagnostics诊断Logic Regression最大似然估计Maximum Likelihood Estimation (MLE)ROC CurveReasons to Choos原创 2020-12-27 21:54:10 · 1751 阅读 · 0 评论 -
数据科学与大数据分析学习笔记-6关联规则
Association Rules关联规则Apriori property (downward closure property)Evaluation of Candidate Rules•一种无监督学习方法•描述性的,而不是预测性的•发现有趣的、隐藏的关系 -表示为规则或频繁项目集•通常用于挖掘数据库中的 transactionsEach transaction consists of one or more itemsItemset– A collection of items or i原创 2020-12-27 21:22:23 · 904 阅读 · 0 评论 -
数据科学与大数据分析学习笔记-5聚类
Clustering聚类K-means Clustering确定Clusters的数量DiagnosticsReasons to Choose and CautionsAdditional Algorithms 额外的算法Density Based ClusteringDBSCAN聚类是指通过无监督(unsupervised)技术对相似的数据对象进行分组形成簇。K-means Clustering给定m个对象的集合每个对象都有n个可测量的属性。分四步:Choose the value of k,原创 2020-12-27 21:06:35 · 700 阅读 · 0 评论 -
数据科学与大数据分析学习笔记-4探索性数据分析
探索性数据分析Anscombe’s quartetDirty Data可视化单个变量研究多个变量箱线图(box-and-whisker plot)适用于大型数据集的蜂巢图(hexbinplot for large data)scatterplot matrix散点图矩阵Data Exploration Versus Presentation评估统计方法之Hypothesis testingA common hypothesis test---Difference of MeansStudent’s t-te原创 2020-12-27 00:57:40 · 1277 阅读 · 0 评论 -
数据科学与大数据分析学习笔记-3 简单介绍R语言
使用R语言作为数据分析的方法R 简介R 图形用户界面数据导入和导出R 简介R 图形用户界面在下载安装完R语言后我们可以使用RStudio来作为R的图形用户界面//先安装完成R后,我们再下载RStudio来并从中添加R的路径RStudio图形用户界面如上图所示。左上部分是脚本区域 (Scripts),我们可以从这里输入脚本代码。左下角部分是控制台(Console),脚本区域的运行结果将会在这里显示。右上部分是工作区(Workspace),我们可以从这里看到当前项目的变量情况。右下部分是(P原创 2020-12-27 00:07:16 · 476 阅读 · 0 评论 -
数据科学与大数据分析学习笔记-2数据分析的生命周期
数据分析的生命周期数据科学团队的七个关键角色数据分析生命周期概述Phase 1: DiscoveryPhase 2: Data PreparationPhase 3: Model PlanningPhase 4: Model BuildingPhase 5: Communicate ResultsPhase 6: OperationalizeFour main deliverables数据科学团队的七个关键角色• Business User; Project Sponsor; Project Manag原创 2020-12-26 00:02:30 · 960 阅读 · 0 评论 -
数据科学与大数据分析学习笔记-1理论练习题
大数据分析理论练习1:What are the four (or five) characteristics of Big Data?大数据的四个(或五个)特征是什么?4V: Volume, Variety, Velocity and Veracity数量,多样性,速度,真实性5V: Volume, Variety, Velocity, Value and Veracity5个特征在4V的情况下增加了数据价值这一特征。2. What is an analytic sandbox, and wh原创 2020-12-26 00:03:26 · 1545 阅读 · 0 评论