每周资讯 | 腾讯《三角洲行动》周年庆登双榜TOP1;腾讯首款生活模拟游戏《粒粒的小人国》曝光

内容速览:

  1. 腾讯《三角洲行动》周年庆双榜TOP1
  2. Playstack 2025年上半年收入增长52%,达3070万英镑
  3. 腾讯首款生活模拟游戏《粒粒的小人国》曝光
  4. 米哈游首款生活模拟游戏《星布谷地》发布首曝PV
  5. Google Play推出一系列新游戏功能
  6. 9月156款版号下发:《归环》《星绘友晴天》《崩坏:因缘精灵》等在列

腾讯《三角洲行动》周年庆登双榜TOP1

9月17日,腾讯天美旗下琳琅天上研发的多端FPS游戏《三角洲行动》迎来了S6“烈火冲天”赛季的上线。新赛季上线当天,《三角洲行动》一举冲上iOS畅销总榜Top1,并同时斩获游戏免费榜Top1,国际服的Steam同时在线人数也创下22.6万的历史新高。根据点点数据,截至9月21日,游戏依然稳居免费榜和畅销榜双榜第一。

这次是《三角洲行动》发布一年来首次登顶iOS畅销总榜,标志着其在市场上的强劲增长。今年4月,游戏宣布日活跃用户(DAU)已达到1200万;7月,DAU突破2000万;而在9月21日的周年庆活动上,制作人Shadow宣布,国服DAU已突破3000万,仅仅两个月时间便实现了从2000万到3000万的飞跃。

Playstack 2025年上半年收入增长52%,达3070万英镑

据近日报告称,Playstack今年上半年收入同比增长52%,达3070万英镑(约合4140万美元),相比2024年的2020万英镑(约合2720万美元)。这一强劲的业绩得益于其热销游戏《Balatro》和《Abiotic Factor》,两者在2025年上半年共售出超过300万套。这一成绩继2024年创下了710万套销量,并且玩家在其游戏中的累计游戏时长超过了1.5亿小时。

腾讯首款生活模拟游戏《粒粒的小人国》曝光

9月24日,腾讯旗下银之心工作室首曝生活模拟治愈新作《粒粒的小人国》,同步开启全平台预约。游戏以5cm小人视角构建世界,采用类绘本卡通画风,玩家可建造、种田、换装,还能收集阳光、香气等特色资源。上百位 “粒粒”NPC有专属人设与互动,社交无强制且重质量。游戏属腾讯 “春笋计划” 孵化,现处内容丰满阶段,长线将推主题版本与UGC功能,力求打造全年龄段精神乌托邦。

米哈游首款生活模拟游戏《星布谷地》发布首曝PV

9月25日,米哈游首款生活模拟游戏《星布谷地》首曝PV并开启 “宜居测试” 招募,游戏获版号。其为米哈游首次涉足联机社交赛道,画风偏Q版萌系卡通,含种植、建造、换装等经典玩法。玩家可拥有星球家园,能星际旅行探访不同星球伙伴,支持好友串门、共庆等社交互动,还融入剧情与UGC建设元素。

Google Play推出一系列新游戏功能

Google Play推出了一系列新功能,包括Play Games Sidekick,它通过AI实时提供游戏内指导;Play Games Leagues,让玩家通过参与竞技争夺Play Points和荣誉,首个比赛将在《Subway Surfers》中举行。此外,You标签将于10月1日上线,为玩家提供个性化奖励、订阅和推荐。游戏详情页也得到优化,加入了事件、更新及玩家进度显示。Google Play Games on PC正式发布,标志着Google推动跨平台游戏的承诺

9156版号下发:《归环》《星绘友晴天》《崩坏:因缘精灵》等在列

9月24日,国家新闻出版署发布了《2025年9月份网络游戏审批信息》消息。本次下发的版号共156款,包括145款国产网络游戏版号:其中135款移动游戏、2款客户端游戏,7款同时拿到移动和客户端版号、1款游戏同时拿到移动和网页游戏版号。还有11款进口网络游戏获得版号:其中6款移动游戏、3款移动+客户端、1款同时获得游戏机(PS5)游戏、复合载体版号,1款同时获得客户端、游戏机(PS5)游戏和复合载体版号。版号信息变更游戏9款。

本次过审版号腾讯《归环》、网易《星绘友晴天》、米哈游《崩坏:因缘精灵》、点点互动《海滨美食乐》浩梦齐帆《潜水员戴夫》等知名厂商产品在列。

国产版号:

进口版号:

版号信息变更:

<think>好的,我需要帮助用户使用Spark清洗天池数据集的网络文学数据。用户提到了书号、书名、入库时间、链接、分类、作者、上信息等字段。首先,我得回顾一下Spark的数据清洗常用方法,以及用户提供的引用内容。 根据引用[1],清洗步骤包括处理缺失值、非法数据和重复数据。用户的数据可能有类似的问题,比如入库时间格式不统一,或者分类字段有缺失。引用[3]提到了统一日期格式和使用UDF函数,这可能对处理入库时间有帮助。 接下来,我需要考虑每个字段的具体清洗步骤。比如书号可能需要验证格式是否正确,书名可能有特殊字符需要处理。入库时间可能有多种格式,需要统一成标准日期格式。分类和作者字段可能有重复或拼写错误,需要规范化。链接需要检查有效性,而上信息可能需要解析成结构化数据。 然后,用户提到使用Spark,所以应该用PySpark或Scala编写代码。比如读取数据为DataFrame,定义schema,处理缺失值,转换日期格式,去重等。可能需要用到Spark SQL的函数,比如`to_date`,或者自定义UDF来处理复杂的转换。例如,引用[3]中的例子,可以使用UDF来统一不同的日期格式。 还需要考虑性能优化,比如分区处理,缓存策略,避免数据倾斜。引用[2]中提到了从不同数据源合并数据,可能用户的数据也需要整合多个来源,但问题中只提到天池数据集,所以可能不需要合并,但需要加载不同格式的数据。 最后,生成相关问题时要围绕数据清洗的步骤、Spark的具体操作、优化方法等。比如如何处理不同日期格式,如何验证书号合法性,或者如何用Spark SQL高效去重。 总结步骤应该是:加载数据,处理缺失值,处理非法数据(格式不正确),统一日期,规范化分类和作者,去重,验证链接,解析上信息,保存结果。每个步骤用Spark的函数或UDF实现。</think>### 使用 Spark 清洗天池数据集网络文学数据的步骤 #### 1. **数据加载与初步检查** - **加载数据**:使用 Spark 读取 CSV、JSON 或其他格式的原始数据,指定字段名称(如书号、书名、入库时间等)和数据类型。 ```python from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataCleaning").getOrCreate() df = spark.read.csv("path/to/tianchi_data.csv", header=True, inferSchema=True) ``` - **检查缺失值**:统计各字段缺失值数量,若缺失值比例过高(如引用[1]中要求缺失值数量 ≥3 则删除),可过滤或填充。 ```python from pyspark.sql.functions import col missing_stats = df.select([col(c).isNull().alias(c) for c in df.columns]).groupby().sum().collect()[0] ``` #### 2. **处理非法数据** - **书号验证**:通过正则表达式或自定义规则验证书号合法性(如长度、字符组合)。 ```python from pyspark.sql.functions import udf def validate_book_id(book_id): return book_id is not None and book_id.startswith("ISBN") and len(book_id) == 13 validate_udf = udf(validate_book_id, BooleanType()) df = df.filter(validate_udf(col("书号"))) ``` - **入库时间格式统一**:参考引用[3],使用 `to_date` 或 UDF 统一日期格式(如将 `20211116日` 转为 `2021-11-16`)。 ```python from pyspark.sql.functions import to_date df = df.withColumn("入库时间", to_date(col("入库时间"), "yyyy/MM/dd")) # 自动尝试多种格式 ``` #### 3. **数据规范化** - **分类字段标准化**:将分类名称映射到统一标签(如将“玄幻小说”“玄幻类”统一为“玄幻”)。 ```python from pyspark.sql.functions import when df = df.withColumn("分类", when(col("分类").contains("小说"), regexp_replace(col("分类"), "小说", "")) .otherwise(col("分类")) ) ``` - **作者名去重**:合并同一作者的不同拼写(如“张三”和“张三(作家)”)。 ```python author_mapping = {"张三(作家)": "张三", "李四-网络作家": "李四"} df = df.replace(author_mapping, subset=["作者"]) ``` #### 4. **去重与链接处理** - **去重**:基于书号或书名+作者组合删除重复记录。 ```python df = df.dropDuplicates(["书号"]) # 或 ["书名", "作者"] ``` - **链接有效性检查**:过滤无效 URL(如空值或非 HTTP 开头的链接)。 ```python df = df.filter(col("链接").rlike("^https?://")) ``` #### 5. **复杂字段解析** - **上信息结构化**:若字段包含 JSON 字符串(如 `{"单名":"热销", "排名":5}`),可解析为独立列。 ```python from pyspark.sql.functions import from_json schema = StructType([StructField("单名", StringType()), StructField("排名", IntegerType())]) df = df.withColumn("上信息", from_json(col("上信息"), schema)) ``` #### 6. **输出与优化** - **保存清洗结果**:输出为 Parquet 或 CSV 格式,按分区存储(如按分类字段分区)。 ```python df.write.partitionBy("分类").parquet("path/to/cleaned_data") ``` - **性能优化**:调整 Spark 配置(如 `spark.sql.shuffle.partitions`)或使用缓存加速迭代。 --- ### 相关问题 1. **如何用 Spark SQL 高效处理多源异构数据(如混合 CSV 和 JSON)?** > 引用[2]提到从 RDDs、JSON 文件和 SQL 数据库加载数据,可通过 `spark.read.format()` 指定不同数据源格式并合并。 2. **Spark 中处理日期格式混乱的最佳实践是什么?** > 如引用[3]所示,可结合 `to_date` 函数和 UDF 处理多格式日期,例如将 `1116日` 补全年份后转换。 3. **如何验证清洗后的数据质量?** > 可编写单元测试(如检查日期范围、分类字段的枚举值),或使用 `describe().show()` 统计关键指标。 4. **Spark 数据倾斜对清洗任务的影响及解决方法?** > 若分类字段分布不均,可添加随机前缀或使用 `repartition` 平衡分区。 [^1]: 文章目录 准备工作删除缺失值 >=3 的数据删除级、评论数、评分中任意字段为空的数据删除非法数据hotel_data.csv 通过编写Spark程序清洗酒店数据里的缺失数据、非法数据、重复数据 [^2]: 假设这样的场景:员工数据分散存储在本地的RDDs、JSON文件和SQL数据库中。我们的任务是将这些数据加载到DataFrame中。 [^3]: spark编程08——关于数据清洗中的时间日期格式(三)。统一日期格式+统一路线名+UDF函数使用
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值