大数据毕业设计hadoop+hive+sqoop药店数据分析大屏药店数据仓库药店爬虫药店可视化 Spark 大数据毕设机器学习计算机毕业设计

最新推荐文章于 2024-04-10 22:37:08 发布

原创最新推荐文章于 2024-04-10 22:37:08 发布 · 462 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #hadoop #hive #数据分析 #python #数据仓库 #课程设计

大数据毕业设计专栏收录该内容

6314 篇文章

订阅专栏

博主分享了如何使用Scrapy爬取药房网数据，通过MapReduce清洗上传至HDFS，利用Hive进行数据分析，最后通过SpringBoot实现后端，前端使用Echarts进行可视化。适合计算机专业学生进行毕业设计参考。

博主介绍：✌全网粉丝100W+,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业毕业设计项目实战6年之久，选择我们就是选择放心、选择安心毕业✌

🍅由于篇幅限制，想要获取完整文章或者源码，或者代做，可以给我留言或者找我聊天。🍅

感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人。

文章包含：项目选题 + 项目展示图片（必看）

技术栈：scrapy爬取药房网药店数据，MapReduce进行简单清洗上传hdfs，使用hive集群进行数据分析sqoop迁移到mysql，springboot作为后端，前端echarts驾驶舱可视化

核心代码分享学习如下：

import requests  
from bs4 import BeautifulSoup  
  
def get_drugstore_info(url):  
    headers = {  
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'  
    }  
  
    response = requests.get(url, headers=headers)  
  
    if response.status_code != 200:  
        print(f"Failed to retrieve page. Status code: {response.status_code}")  
        return None  
  
    soup = BeautifulSoup(response.content, 'html.parser')  
  
    # 假设药品列表在一个具有特定类的div中  
    drugs = soup.find_all('div', class_='drug-item')  
  
    drug_list = []  
  
    for drug in drugs:  
        # 提取药品名称  
        name = drug.find('h3').text.strip()  
        # 提取药品价格  
        price = drug.find('span', class_='price').text.strip()  
        # 提取其他信息，如药品描述、库存等  
        # 注意：以下代码仅为示例，实际提取方式取决于药店网站的HTML结构  
        description = drug.find('p', class_='description').text.strip()  
        stock = drug.find('span', class_='stock').text.strip()  
  
        drug_list.append({  
            'name': name,  
            'price': price,  
            'description': description,  
            'stock': stock  
        })  
  
    return drug_list  
  
# 示例：爬取某个药店网站的药品信息  
drugstore_url = 'https://example.com/drugstore'  # 替换为实际的药店网站URL  
drugs = get_drugstore_info(drugstore_url)  
  
if drugs:  
    for drug in drugs:  
        print(f"Name: {drug['name']}")  
        print(f"Price: {drug['price']}")  
        print(f"Description: {drug['description']}")  
        print(f"Stock: {drug['stock']}")  
        print()  # 打印一个空行以便于区分不同的药品信息