MAST10010: Data Analysis 3SQL

Java Python MAST10010:  Data Analysis

Assignment 3

Due Date: Friday  October 18th,  11.59pm.

Instructions

Software:

You must use Minitab to produce any graphs, tables and descriptive statis- tics.

Graphs:

● must include your name/student number, which can be added by Edit- ing the graph, right-clicking and selecting Add → Footnote or Add → Subtitle.

● must be relevant. You may look at many graphs, but you should only include the most relevant graph for each question.

● should be clear:  ensure that labels  and titles are correct and appro- priate; you can add gridlines/change symbols/colour as appropriate to make the graph clearer.  There are some marks awarded for improving upon the default from Minitab.

●  Mac  Users:  you  will  need  to  use  myUniApps  in  order  to   edit  the graphs  as  required  above.

Statistics:

Must be relevant:  you  will be penalised for including statistics which are not relevant to the questions asked.

Comments:

● must be in the context of the data.

● should be supported by relevant statistics where possible.

● should be concise and informative.   Word  limits,  where  given,  must be strictly adhered to  (all word limits are a maximum, you will be penalised for going over this limit!). You may use dot-points.

The data

All of the data for this assignment can be downloaded from the LM in a single file: Asst3 2024 data.csv.

The  data file  contains  data for  three  different studies,  each  explained  in the  relevant  question:   a  study  on cholesterol for Question  1  (columns C1 and C2); a study on speech sounds for Question 2 (columns C4 and C5); and a study on AI image detection for Question 3 (columns C7 and C8).

Question 1:  Cholesterol                                              [3 + 4 + 2 = 9 marks]

Oats and almonds contain beta-glucan, which is meant to help reduce choles- terol levels in humans. The television program “Michael Mosley’s: Trust Me, I’m a Doctor” investigated the effectiveness of various diets on reducing to- tal cholesterol (in mmol/L). As part of this investigation, they considered ten people who ate 75g of oats per day, and ten people who ate 30g almonds per day, both in addition to their usual diet, for 2 weeks.  The differences in their cholesterol (final − initial) were recorded.

The data are available as Asst3 2024 data.csv on the LMS in the Assignment 3 page; this question relates to columns C1 (‘Almond’) and C2 (‘Oat’).

(a).  Perform. the most appropriate hypothesis test, and include the Minitab output in your assignment.  You should justify any choices you make about the assumptions when deciding on the appropriate analysis.

(b). Write the results of the analysis in the style. of a research report.

Note:   you  are   being  assessed  here   on  how  you  present  the  results, you can receive full marks for this part even if you chose  an incorrect analysis in part  (a) .

(c).  After reading this research, it is decided to design a new (more pre- cise) study.  It is decided that a difference in cholesterol of at least 0.5mmol/L over this time period would be clinically important, and the desired power is 0.9 with a significance level will of α = 0.05.  You should use the larger standard deviation from the study in this ques- tion as the planning value.  What is the minimum sample size the new study should have, based on this information?  You should include a suitable graph along with the required sample size.

Question 2:  Recognising sounds in speech    [6 + 1 + 2 + 3 + 3 + 4 = 19 marks]

This question is based on part of the study by Massimiliano  Canzi and Tamara Rathcke (2023) ‘Unmasking the truf: Impact of community masks on the perception of voiceless fricatives in English’, Proceedings  of the  In- ternational Congress on Phonetic Sciences, 27–31. You can find this article linked on the LMS.

You DO NOT  need  information  from MAST10010: Data Analysis Assignment 3SQL  this article to answer the questions; it is provided for interest only.

The study examined differences in understanding of common phonetic sounds, based on the primary language spoken by the participant. All partic- ipants spoke English and were classified by their primary language:  English (ENG), Greek (GRE) or Korean (KOR). Participants were provided with video recordings with people saying one of four sounds (‘SS’, ‘SH’, ‘FF’ or ‘TH’) in an English word, which they then had to identify (multiple choice, always these four sounds as options).

For this question, we will only consider the time taken to identify the ‘SS’ sound in the word ‘PASS’. The response variable is the reaction time (in milliseconds).  This is a random subset, and only those who correctly identified the sound.

The data are available as Asst3 2024 data.csv on the LMS in the Assignment 3 page; this question relates to columns C4 (‘ResponseTime’) and C5 (‘Language’).

(a). It is proposed to analyse these data using a one-way ANOVA. Write the mathematical formulations for both models being compared. You must clearly define all variables and subscripts used.

(b).  Perform. a one-way ANOVA, and include the Minitab output.   You should include the ANOVA table and summary, but do not need to include any other output.

(c). It is likely that the normality assumption is not met.  Give a reason why this is NOT an reason for discontinuing with the ANOVA.

(d). Interpret the R2  value from the ANOVA in the context of this study.

(e).  Produce a diagram summarising any differences between the groups. You must produce this yourself (either by hand or formatting a table appropriately in software), but may use Minitab to calculate all the relevant information.

(f).  Compare and contrast the benefits of using LSD  (Fisher) and HSD (Tukey) intervals for analysis after completing an ANOVA. Your an- swer should include at least one commonality and at least one differ- ence; you will be assessed on both the correctness and depth of your response.

Your comments must be less than 60 words.

Question 3: Identifying AI Images      [2 + 4 + 3 = 9 marks]

This question is inspired by the same study as Assignment 2:  Zeyu Lu, Di Huang, Lei Bai, Jingjing Qu, Chengyue Wu, Xihui Liu, and Wanli Ouyang (2024) ‘Seeing is not always believing: benchmarking human and model per- ception of AI-generated images’, Advances in Neural Information Processing Systems, 36.

You can find this article at:

https://proceedings.neurips.cc/paper files/paper/2023/file/505df5ea30f6306 61074145149274af0-Paper-Datasets and Benchmarks.pdf, also linked on the  LMS.

You DO NOT  need  information  from this article to answer the questions; it is provided for context only.

This question is considering 120 AI-generated images, and for each im- age two proportions were recorded:  the  proportion of AI-detectors which correctly identified it as AI (C7 ‘AI’) and the proportion of humans who correctly identified it as AI (C8 ‘Human’).  We are primarily interested in whether it is possible to predict the proportion of humans who will be able to correctly identify AI images, based on the AI-detectors.

(a).  Produce a suitable plot for these data.

(b). It is proposed to perform. a linear regression for these data.  State all of the necessary assumptions, and check them where possible.

You should answer the following part (c) using a linear regression, even if you thought the assumptions in (b) were not satisfied.

(c). Interpret a 95% Confidence interval for the slope, β .

Relevance, Formatting & Submission                          [2 marks]

You can gain an additional 2 marks by:

● only including relevant material;

● submitting a clearly legible assignment (eg all pages correct orienta- tion);

● selecting  correct  page(s)  for  each  part  of each  question  (when  you upload your assignment to Gradescope, it will ask you to select pages: you can select multiple pages for a question part, you can also select the same page for multiple parts)         

基于可靠性评估序贯蒙特卡洛模拟法的配电网可靠性评估研究(Matlab代码实现)内容概要:本文围绕“基于可靠性评估序贯蒙特卡洛模拟法的配电网可靠性评估研究”,介绍了利用Matlab代码实现配电网可靠性的仿真分析方法。重点采用序贯蒙特卡洛模拟法对配电网进行长时间段的状态抽样与统计,通过模拟系统元件的故障与修复过程,评估配电网的关键可靠性指标,如系统停电频率、停电持续时间、负荷点可靠性等。该方法能够有效处理复杂网络结构与设备时序特性,提升评估精度,适用于含分布式电源、电动汽车等新型负荷接入的现代配电网。文中提供了完整的Matlab实现代码与案例分析,便于复现和扩展应用。; 适合人群:具备电力系统基础知识和Matlab编程能力的高校研究生、科研人员及电力行业技术人员,尤其适合从事配电网规划、运行与可靠性分析相关工作的人员; 使用场景及目标:①掌握序贯蒙特卡洛模拟法在电力系统可靠性评估中的基本原理与实现流程;②学习如何通过Matlab构建配电网仿真模型并进行状态转移模拟;③应用于含新能源接入的复杂配电网可靠性定量评估与优化设计; 阅读建议:建议结合文中提供的Matlab代码逐段调试运行,理解状态抽样、故障判断、修复逻辑及指标统计的具体实现方式,同时可扩展至不同网络结构或加入更多不确定性因素进行深化研究。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值