
pyspark
qq_35482604
这个作者很懒,什么都没留下…
展开
-
Spark综合案例
# 需求1: 统计各省销售额 # 需求2:TOP3销售省份中,有多少店铺达到过日销售额1000+ # 需求3: TOP3省份中各个省份的平均订单价格 # 需求4: TOP3省份中,各个省份的支付比例原创 2022-02-17 19:13:27 · 1424 阅读 · 1 评论 -
pyspark 第五章共享变量
from unittest import result from pyspark import SparkConf,SparkContext import json # /opt/module/spark/bin/spark-submit /opt/Code/broadcast.py if __name__ == '__main__': conf = SparkConf().setAppName("WorldCount").setMaster("local[*]") sc = Spark..原创 2022-02-06 11:17:23 · 1187 阅读 · 0 评论 -
pyspark 搜索引擎日志分析
# coding:utf8 import jieba # python /opt/Code/searchSouGou.py if __name__ == '__main__': content = '小明硕士毕业于中国科学院计算所,后在清华大学深造' # 对切分后的关键词进行二次组合 result = jieba.cut(content,True) print(','.join(result)) # 仅切分出来词 result = jieba.cut(co.原创 2022-01-30 11:07:54 · 2321 阅读 · 0 评论 -
SparkSQL 函数的定义
if __name__ == '__main__': spark = SparkSession.builder.appName('create df').master('local[*]').\ config('spark.sql.shuffle.partition','2').\ getOrCreate() sc = spark.sparkContext rdd = sc..原创 2022-01-30 10:02:41 · 1280 阅读 · 0 评论