PySpark编程问题与解答

17、修改以下代码块,使用摄氏度代替华氏度。如果将该修改后的 UDF(用户定义函数)应用于相同的数据框,结果会有何不同?

输出是相同的。归一化过程不会基于温度的单位而改变。

以下是修改后的函数:

def scale_temperature_C(temp_by_day: pd.DataFrame) -> pd.DataFrame:
    """Returns a simple normalization of the temperature for a site, in Celcius.
    If the temperature is constant for the whole window, defaults to 0.5."""
    def f_to_c(temp):
        return (temp - 32.0) * 5.0 / 9.0

18、已知有一个名为 gsod 的 Spark 数据框,以及一个名为 scale_temperature 的函数。该函数返回的数据框包含六个列:stn, year, mo, da, temp, 和 temp_norm。现在要对 gsod 数据框按 ‘year’ 和 ‘mo’ 进行分组,并应用分组映射 UDF,代码如下:gsod_exo = gsod.groupby(“year”, “mo”).applyInPandas(scale_temperature, schema=???) 。请完成代码中 schema 的定义,并说明这样应用分组映射 UDF 会发生什么。

模式应该是:

schema = "year string, mo string, stn string, da string, temp double, temp_norm double"

如果这样应用分组映射 UDF,数据将按 year mo 分组,然后对每个分组应用 scale_temperature 函数,最终返回一个包含指定列的 Spark 数据框。

19、修改以下代码块,使其以 ArrayType 形式返回线性回归的截距和斜率。(提示:截距在拟合模型的 intercept_ 属性中)

from sklearn.linear_model import LinearRegression
from typing import Sequence
import pyspark.sql.functions as F
import pyspark.sql.types as T
import pandas as pd

@F.pandas_udf(T.ArrayType(T.DoubleType()))
def rate_of_change_temperature(day: pd.Series, temp: pd.Series) -> Sequence[float]:
    """Returns the intercept and slope of the daily temperature for a given period of time."""
    model = LinearRegression().fit(
        X=day.astype(int).values.reshape(-1, 1),
        y=temp
    )
    return [model.intercept_, model.coef_[0]]

20、使用以下代码找出每年中温度最高的日期,并计算平均温度。分析当出现两个以上相同最高温度情况时会怎样。代码如下:each_year = Window.partitionBy(“year”) (gsod .withColumn(“min_temp”, F.min(“temp”).over(each_year)) .where(“temp = min_temp”) .select(“year”, “mo”, “da”, “stn”, “temp”) .orderBy(“year”, “mo”, “da”) .show())

提供的代码是用于找出每年中温度最低的日期,而非温度最高的日期。若要找出每年温度最高的日期,需将 F.min 替换为 F.max

当有两个以上日期温度相同且都是最高温度时,这些日期都会被选中并显示。代码会按 year mo da 排序后展示。

代码中未涉及计算平均温度的部分。若要计算平均温度,可在筛选出每年最高温度的记录后,按 year 分组并使用 F.avg 函数计算。

21、如何使用gsod_light数据框创建一个完整的排名,即让temp_per_month_asc中的每条记录都有唯一的排名?对于orderBy()值相同的记录,排名顺序无关紧要。已知代码如下:temp_per_month_asc = Window.partitionBy(“mo”).orderBy(“count_temp”); gsod_light = spark.read.parquet(“./data/window/gsod_light.parquet”); gsod_light.withColumn( “rank_tpm”, F.rank().over(temp_per_month_asc) ).show() 请修改代码以实现需求。

可以使用 row_number() 函数来为每条记录分配唯一的排名。示例代码如下:


                
【四轴飞行器】非线性三自由度四轴飞行器模拟器研究(Matlab代码实现)内容概要:本文围绕非线性三自由度四轴飞行器模拟器的研究展开,重点介绍基于Matlab代码实现的四轴飞行器动力学建模仿真方法。研究构建了考虑非线性特性的飞行器数学模型,涵盖姿态动力学运动学方程,实现了三自由度(滚转、俯仰、偏航)的精确模拟。文中详细阐述了系统建模过程、控制算法设计思路及仿真结果分析,帮助读者深入理解四轴飞行器的飞行动力学特性控制机制;同时,该模拟器可用于算法验证、控制器设计教学实验。; 适合人群:具备一定自动控制理论基础和Matlab编程能力的高校学生、科研人员及无人机相关领域的工程技术人员,尤其适合从事飞行器建模、控制算法开发的研究生和初级研究人员。; 使用场景及目标:①用于四轴飞行器非线性动力学特性的学习仿真验证;②作为控制器(如PID、LQR、MPC等)设计测试的仿真平台;③支持无人机控制系统教学科研项目开发,提升对姿态控制系统仿真的理解。; 阅读建议:建议读者结合Matlab代码逐模块分析,重点关注动力学方程的推导实现方式,动手运行并调试仿真程序,以加深对飞行器姿态控制过程的理解。同时可扩展为六自由度模型或加入外部干扰以增强仿真真实性。
基于分布式模型预测控制DMPC的多智能体点对点过渡轨迹生成研究(Matlab代码实现)内容概要:本文围绕“基于分布式模型预测控制(DMPC)的多智能体点对点过渡轨迹生成研究”展开,重点介绍如何利用DMPC方法实现多智能体系统在复杂环境下的协同轨迹规划控制。文中结合Matlab代码实现,详细阐述了DMPC的基本原理、数学建模过程以及在多智能体系统中的具体应用,涵盖点对点转移、避障处理、状态约束通信拓扑等关键技术环节。研究强调算法的分布式特性,提升系统的可扩展性鲁棒性,适用于多无人机、无人车编队等场景。同时,文档列举了大量相关科研方向代码资源,展示了DMPC在路径规划、协同控制、电力系统、信号处理等多领域的广泛应用。; 适合人群:具备一定自动化、控制理论或机器人学基础的研究生、科研人员及从事智能系统开发的工程技术人员;熟悉Matlab/Simulink仿真环境,对多智能体协同控制、优化算法有一定兴趣或研究需求的人员。; 使用场景及目标:①用于多智能体系统的轨迹生成协同控制研究,如无人机集群、无人驾驶车队等;②作为DMPC算法学习仿真实践的参考资料,帮助理解分布式优化模型预测控制的结合机制;③支撑科研论文复现、毕业设计或项目开发中的算法验证性能对比。; 阅读建议:建议读者结合提供的Matlab代码进行实践操作,重点关注DMPC的优化建模、约束处理信息交互机制;按文档结构逐步学习,同时参考文中提及的路径规划、协同控制等相关案例,加深对分布式控制系统的整体理解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值