计算机毕业设计hadoop+spark+hive高考志愿填报推荐推荐系统 高考数据分析可视化大屏 高考爬虫 高考分数线预测 数据仓库 大数据毕业设计

流程:爬取阳光高考约50-100W历年高考数据(含2023年)存入mysql;使用dump命令将省控线、专业线、专业、学校、省份、软科排名、QS排名等表导出csv存到hdfs上;使用hive基于CSV文件建立数据仓库;一部分数据使用Spark进行实时分析,一部分数据使用Hive进行离线分析;分析结果使用sqoop导入mysql;使用flask+echarts进行可视化大屏实现。

开发技术:spark hadoop hive sqoop echarts flask requests爬虫技术 mysql
为啥不直接分析mysql中的数据?海量上百万的数据加上连表查询的话mysql不如hive数据仓库可靠和稳定,mysql很容易宕机以及响应慢!

创新点:爬虫、大屏、hadoop+hive离线计算+spark实时计算双实现、海量真实数据

核心算法代码分享如下:

# -*- codeing = utf-8 -*-
# 创建预测所需要的数据用
#
import datetime

import numpy as np
import pandas as pd
import json
from db import db_util

d = db_util()
db, cursor = d.get_conn()

def insert_flow(name, n, v):
    sd1 = datetime.date(2023, 1, 1)  # 把数字字符变换成日期类型,赋值给一个变量

    v1 = v
    for i in range(1, n + 1):
        # sd1 = sd1 + datetime.timedelta(days=1)  # 加某个天数相加之后的日期
        sd1 = sd1 + datetime.timedelta(days=30)  # 加某个天数相加之后的日期
        # print(i)
        v1 = v1 + np.random.randint(50, high=100)
        sql = "replace into tb_flow(name,name2, v) values('%s', '%s', %f)"\
              % (sd1.strftime('%Y%m%d'), name, v1)
        cursor.execute(sql)
        db.commit()
    print("end..")

if __name__ == '__main__':
    v = 400
    #t = '换成学校名称'
    t = '武汉大学'
    insert_flow(t, 7, v)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

B站计算机毕业设计大学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值