21、简单说一下说说置信区间、置信度。
①置信区间是指由样本统计量所构成的总体参数的估计区间。通常以一个样本统计量的估计值为中心,加减一个标准误差的倍数,构成一个区间。
②置信度是对置信区间的信心程度的度量,通常以百分比的形式表示。
举例来说,如果我们通过对一个样本数据进行统计分析,得到了某个参数的置信区间为(10, 20),并且置信度为95%,那么我们就可以说,在95%的情况下,真实的参数值位于10到20之间。
22、概率和似然是什么?
①概率通常用来描述已知的情况下,某个事件发生的可能性。概率的取值范围是0~1之间,其中0表示不可能事件,1表示必然事件。
②似然描述了在已知观测数据的情况下,参数值的可能性。
总的来说,概率是在已知参数的情况下描述事件发生的可能性,而似然是在已知观测数据的情况下描述参数取值的可能性。概率通常用于事件的预测和描述,而似然通常用于参数的估计和推断。
23、讲一下Union和Join的区别?
①Union操纵用于合并两个查询的结果集,并去除重复的行。
②join操作用于根据连接条件在多个表之间建立关联,从而将相关的行组合在一起。join操作分为内连接、外连接、左连接、右连接等。
24、原专业(计算机技术)与数据分析的哪些内容相关?
①编程技能P(如ython)。数据分析通常需要编写代码来处理、分析和可视化数据。
②数据清洗、缺失值处理、异常值检测等。
③数据存储和管理的技术。包括数据库管理系统(如MySQL等)、数据仓库和数据湖等。
④机器学习和深度学习。用于数据建模,挖掘数据特征。