Agg Views ?

import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.types.{IntegerType, StringType, StructType} object NewsAnalysisComplete { def main(args: Array[String]): Unit = { // 创建SparkSession(本地模式) val spark = SparkSession.builder() .appName("NewsAnalysisComplete") .master("local[*]") .config("spark.sql.adaptive.enabled", "true") .getOrCreate() // 定义明确的schema val schema = new StructType() .add("title", StringType, true) .add("url", StringType, true) .add("publish_date", StringType, true) .add("view_count", IntegerType, true) // 从CSV文件读取数据 val df = spark.read .option("header", "true") .schema(schema) .csv("D:\\sparkProject_syq\\input\\ujn_news.csv") // 数据清洗:去除可能存在的空值 val cleanedDF = df.na.drop() // 打印基本信息 val totalCount = cleanedDF.count() println(s"清洗后数据总条数: $totalCount") val originalCount = df.count() println(s"原始数据总条数: $originalCount") println(s"过滤掉的数据条数: ${originalCount - totalCount}") val dateRange = cleanedDF.agg(min("publish_date"), max("publish_date")).collect()(0) println(s"日期范围: ${dateRange.get(0)} 到 ${dateRange.get(1)}") // 1. 统计每日发布量 val dailyCount = cleanedDF.groupBy("publish_date") .agg( count("*").as("daily_count"), sum("view_count").as("daily_total_views"), avg("view_count").as("avg_views_per_article") ) .orderBy(desc("publish_date")) // 2. 每篇新闻的浏览量排名 val newsViews = cleanedDF.select("title", "publish_date", "view_count") .orderBy(desc("view_count")) // 3. 额外统计:总浏览量和平均浏览量 val totalStats = cleanedDF.agg( sum("view_count").as("total_views"), avg("view_count").as("average_views"), count("*").as("total_articles") ) // 显示结果 println("\n每日新闻发布量统计:") dailyCount.show() println("\n浏览量:") newsViews.show() println("\n总体统计:") totalStats.show() // 保存结果到文件,每个输出目录只有一个文件 dailyCount.coalesce(1) .write .option("header", "true") .mode("overwrite") .csv("D:\\sparkProject_syq\\output\\daily_count") newsViews.coalesce(1) .write .option("header", "true") .mode("overwrite") .csv("D:\\sparkProject_syq\\output\\news_views") totalStats.coalesce(1) .write .option("header", "true") .mode("overwrite") .csv("D:\\sparkProject_syq\\output\\total_stats") // 创建一个包含所有结果的综合报告 - 使用更简单的方法 import spark.implicits._ // 首先将每个DataFrame转换为字符串表示 val dailyStatsString = dailyCount.collect().map(row => s"每日统计: 日期=${row.getAs[String]("publish_date")}, 发布量=${row.getAs[Long]("daily_count")}, " + s"总浏览量=${row.getAs[Long]("daily_total_views")}, 平均浏览量=${row.getAs[Double]("avg_views_per_article")}" ) val newsStatsString = newsViews.collect().map(row => s"新闻详情: 标题=${row.getAs[String]("title")}, 日期=${row.getAs[String]("publish_date")}, " + s"浏览量=${row.getAs[Int]("view_count")}" ) val totalStatsString = totalStats.collect().map(row => s"总体统计: 总浏览量=${row.getAs[Long]("total_views")}, 平均浏览量=${row.getAs[Double]("average_views")}, " + s"总文章数=${row.getAs[Long]("total_articles")}" ) // 将所有统计结果合并到一个RDD中 val allStats = spark.sparkContext.parallelize( dailyStatsString ++ newsStatsString ++ totalStatsString ) // 将合并的结果保存到单个文件 allStats.coalesce(1) .saveAsTextFile("D:\\sparkProject_syq\\output\\all_results") println("分析完成,结果已保存到输出目录") // 停止SparkSession spark.stop() } }上述代码改成 NewsAnalysisCompleteSpark类,要求可以在Spark集群内运行,输入是hdfs里的csv文件,输出是目录
09-25
航拍图像多类别实例分割数据集 一、基础信息 • 数据集名称:航拍图像多类别实例分割数据集 • 图片数量: 训练集:1283张图片 验证集:416张图片 总计:1699张航拍图片 • 训练集:1283张图片 • 验证集:416张图片 • 总计:1699张航拍图片 • 分类类别: 桥梁(Bridge) 田径场(GroundTrackField) 港口(Harbor) 直升机(Helicopter) 大型车辆(LargeVehicle) 环岛(Roundabout) 小型车辆(SmallVehicle) 足球场(Soccerballfield) 游泳池(Swimmingpool) 棒球场(baseballdiamond) 篮球场(basketballcourt) 飞机(plane) 船只(ship) 储罐(storagetank) 网球场(tennis_court) • 桥梁(Bridge) • 田径场(GroundTrackField) • 港口(Harbor) • 直升机(Helicopter) • 大型车辆(LargeVehicle) • 环岛(Roundabout) • 小型车辆(SmallVehicle) • 足球场(Soccerballfield) • 游泳池(Swimmingpool) • 棒球场(baseballdiamond) • 篮球场(basketballcourt) • 飞机(plane) • 船只(ship) • 储罐(storagetank) • 网球场(tennis_court) • 标注格式:YOLO格式,包含实例分割的多边形坐标,适用于实例分割任务。 • 数据格式:航拍图像数据。 二、适用场景 • 航拍图像分析系统开发:数据集支持实例分割任务,帮助构建能够自动识别和分割航拍图像中各种物体的AI模型,用于地理信息系统、环境监测等。 • 城市
内容概要:本文详细介绍了一个基于YOLO系列模型(YOLOv5/YOLOv8/YOLOv10)的车祸检测与事故报警系统的设计与实现,适用于毕业设计项目。文章从项目背景出发,阐述了传统人工监控的局限性和智能车祸检测的社会价值,随后对比分析了YOLO不同版本的特点,指导读者根据需求选择合适的模型。接着,系统明确了核心功能目标,包括车祸识别、实时报警、多场景适配和可视化界面开发。在技术实现部分,文章讲解了数据集获取与标注方法、数据增强策略、模型训练与评估流程,并提供了完整的代码示例,涵盖环境搭建、训练指令、推理测试以及基于Tkinter的图形界面开发,实现了视频加载、实时检测与弹窗报警功能。最后,文章总结了项目的全流程实践意义,并展望了未来在智慧城市、车联网等方向的扩展潜力。; 适合人群:计算机相关专业本科毕业生,具备一定Python编程基础和机器学习基础知识,正在进行毕业设计的学生;; 使用场景及目标:①完成一个具有实际社会价值的毕设项目,展示从数据处理到模型部署的全流程能力;②掌握YOLO目标检测模型的应用与优化技巧;③开发具备实时检测与报警功能的交通监控系统,用于答辩演示或科研展示; 阅读建议:建议按照“背景—数据—模型—界面—总结”的顺序逐步实践,结合提供的代码链接进行动手操作,在训练模型时注意调整参数以适应本地硬件条件,同时可在基础上拓展更多功能如短信报警、多摄像头接入等以提升项目创新性。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值