超级简约版大数据分析处理-优快云博客

本文链接：https://blog.youkuaiyun.com/2401_86985901/article/details/142919776

client.py

import requests  
import json  
import random  
  
# 假设这是一个来自云服务的API的URL，它返回大量的数据  
# 请注意，这个URL应该返回一个包含多个条目的JSON数组  
DATA_SOURCE_URL = "http://localhost:8000/data.json"  # 请替换为实际的API URL  
  
# 定义一个简单的函数来模拟从云端获取数据  
def fetch_data_from_cloud(url):  
    try:  
        response = requests.get(url)  
        response.raise_for_status()  # 如果请求失败，抛出HTTPError  
        return response.json()  
    except requests.RequestException as e:  
        print(f"Error fetching data from {url}: {e}")  
        return []  
  
# 定义一个简单的函数来处理大数据  
# 在这个例子中，我们只是对数据进行过滤和计数  
def process_big_data(data):  
    # 假设我们只关心某个特定字段的值大于某个阈值的条目  
    THRESHOLD = 100  # 这是一个假设的阈值  
    filtered_data = [entry for entry in data if entry['some_value'] > THRESHOLD]  
      
    # 对过滤后的数据进行简单的聚合操作，比如计数  
    count = len(filtered_data)  
      
    print(f"Total number of entries with 'some_value' > {THRESHOLD}: {count}")  
      
    # 在实际应用中，这里可能会有更复杂的处理逻辑，比如写入数据库、生成报告等  
    return filtered_data, count  
  
if __name__ == "__main__":  
    # 从云端获取数据  
    # 在实际场景中，这个URL会是一个来自云服务的API端点  
    data = fetch_data_from_cloud(DATA_SOURCE_URL)  
      
    # 如果数据不为空，则进行处理  
    if data:  
        # 假设数据格式如下: [{"some_value": 120}, {"some_value": 80}, ...]  
        # 注意：在实际场景中，数据集可能会非常大，需要分批处理或使用大数据处理框架  
        processed_data, count = process_big_data(data)  
          
        # 在这个例子中，我们不保存处理后的数据，但在实际应用中可能会这样做  
        # 比如，将处理后的数据写入到云存储服务中，或者用于进一步的分析和可视化

server.py

import http.server  
import socketserver  
  
PORT = 8000  
  
# 创建一个请求处理器，它将提供当前目录下的文件  
class MyRequestHandler(http.server.SimpleHTTPRequestHandler):  
    def do_GET(self):  
        # 如果请求的是data.json，则提供该文件  
        if self.path == '/data.json':  
            self.send_response(200)  
            self.send_header('Content-type', 'application/json')  
            self.end_headers()  
            # 打开并读取JSON文件  
            with open('data.json', 'r') as f:  
                self.wfile.write(f.read().encode('utf-8'))  
        else:  
            # 否则，使用默认的404处理  
            super().do_GET()  
  
# 创建HTTP服务器  
with socketserver.TCPServer(("", PORT), MyRequestHandler) as httpd:  
    print(f"Serving at port {PORT}")  
    # 启动服务器，等待请求  
    httpd.serve_forever()

data.json

[  
    {"some_value": 150},  
    {"some_value": 80},  
    {"some_value": 200},  
    {"some_value": 90},  
    {"some_value": 110}  
]