构建大规模用户行为追踪系统_用户行为追踪系统架构图-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_40726747/article/details/145306002

构建大规模用户行为追踪系统

1. 系统概述

1.1 架构图

[前端埋点] --> [数据采集层]
                   |
[服务埋点] --> [Kafka 集群] --> [实时处理] --> [Redis 集群]
                   |               |              |
              [离线处理] --> [ClickHouse 集群] <-- [数据同步]
                   |               |
              [Elasticsearch] <--> [Grafana]
                   |
            [机器学习模型]

1.2 技术栈选型

数据采集层
- 前端 SDK (Browser/Mobile)
- 服务端埋点
- 日志采集 (Filebeat)
- 网络流量分析 (Packetbeat)
消息队列层
- Kafka 集群
- Kafka Connect
- Kafka Streams
存储层
- ClickHouse (分析数据库)
- Redis (实时数据缓存)
- Elasticsearch (日志和搜索)
- MinIO (对象存储)
计算层
- Flink (实时计算)
- Spark (离线计算)
- TensorFlow (机器学习)
可视化层
- Grafana (数据可视化)
- Kibana (日志分析)
- 自定义 Dashboard

2. 数据采集实现

2.1 前端埋点 SDK

// tracking-sdk.ts
interface TrackingEvent {
  eventId: string;
  eventType: string;
  timestamp: number;
  userId?: string;
  sessionId: string;
  properties: Record<string, any>;
  context: {
    userAgent: string;
    screenSize: string;
    location: string;
    network: string;
  };
}

class TrackingSDK {
  private readonly endpoint: string;
  private readonly batchSize: number;
  private eventQueue: TrackingEvent[] = [];
  private sessionId: string;

  constructor(endpoint: string, batchSize: number = 10) {
    this.endpoint = endpoint;
    this.batchSize = batchSize;
    this.sessionId = this.generateSessionId();
    this.setupAutoTracking();
  }

  private generateSessionId(): string {
    return `${Date.now()}-${Math.random().toString(36).substr(2, 9)}`;
  }

  private setupAutoTracking(): void {
    // 页面浏览追踪
    window.addEventListener('load', () => {
      this.track('page_view', {
        path: window.location.pathname,
        title: document.title
      });
    });

    // 点击事件追踪
    document.addEventListener('click', (e) => {
      const target = e.target as HTMLElement;
      if (target.hasAttribute('data-track')) {
        this.track('element_click', {
          elementId: target.id,
          elementText: target.textContent,
          elementPath: this.getElementPath(target)
        });
      }
    });

    // 性能指标追踪
    if (window.performance) {
      const perfData = window.performance.timing;
      this.track('performance', {
        loadTime: perfData.loadEventEnd - perfData.navigationStart,
        domReadyTime: perfData.domContentLoadedEventEnd - perfData.navigationStart,
        firstPaintTime: perfData.responseEnd - perfData.navigationStart
      });
    }
  }

  public track(eventType: string, properties: Record<string, any>): void {
    const event: TrackingEvent = {
      eventId: `${Date.now()}-${Math.random().toString(36).substr(2, 9)}`,
      eventType,
      timestamp: Date.now(),
      userId: this.getUserId(),
      sessionId: this.sessionId,
      properties,
      context: {
        userAgent: navigator.userAgent,
        screenSize: `${window.screen.width}x${window.screen.height}`,
        location: window.location.href,
        network: (navigator as any).connection?.effectiveType || 'unknown'
      }
    };

    this.eventQueue.push(event);
    if (this.eventQueue.length >= this.batchSize) {
      this.flush();
    }
  }

  private async flush(): Promise<void> {
    if (this.eventQueue.length === 0) return;

    const events = [...this.eventQueue];
    this.eventQueue = [];

    try {
      await fetch(this.endpoint, {
        method: 'POST',
        headers: {
          'Content-Type': 'application/json'
        },
        body: JSON.stringify(events)
      });
    } catch (error) {
      console.error('Failed to send tracking events:', error);
      // 失败重试逻辑
      this.eventQueue = [...events, ...this.eventQueue];
    }
  }

  private getUserId(): string | undefined {
    // 实现用户ID获取逻辑
    return localStorage.getItem('userId') || undefined;
  }

  private getElementPath(element: HTMLElement): string {
    const path: string[] = [];
    let current = element;
    
    while (current && current !== document.body) {
      let selector = current.tagName.toLowerCase();
      if (current.id) {
        selector += `#${current.id}`;
      } else if (current.className) {
        selector += `.${current.className.split(' ').join('.')}`;
      }
      path.unshift(selector);
      current = current.parentElement as HTMLElement;
    }
    
    return path.join(' > ');
  }
}

2.2 服务端埋点

# tracking_service.py
from dataclasses import dataclass
from datetime import datetime
from typing import Dict, Any, Optional
from kafka import KafkaProducer
import json
import logging

@dataclass
class ServiceEvent:
    event_id: str
    event_type: str
    timestamp: datetime
    service_name: str
    instance_id: str
    trace_id: str
    user_id: Optional[str]
    properties: Dict[str, Any]

class TrackingService:
    def __init__(
        self,
        kafka_brokers: list[str],
        service_name: str,
        instance_id: str
    ):
        self.producer = KafkaProducer(
            bootstrap_servers=kafka_brokers,
            value_serializer=lambda v: json.dumps(v).encode('utf-8'),
            key_serializer=lambda v: v.encode('utf-8'),
            acks='all',
            retries=3,
            max_in_flight_requests_per_connection=1
        )
        self.service_name = service_name
        self.instance_id = instance_id
        self.logger = logging.getLogger(__name__)

    def track(
        self,
        event_type: str,
        properties: Dict[str, Any],
        user_id: Optional[str] = None,
        trace_id: Optional[str] = None
    ) -> None:
        event = ServiceEvent(
            event_id=f"{datetime.now().timestamp()}-{self.instance_id}",
            event_type=event_type,
            timestamp=datetime.now(),
            service_name=self.service_name,
            instance_id=self.instance_id,
            trace_id=trace_id or self._generate_trace_id(),
            user_id=user_id,
            properties=properties
        )

        try:
            future = self.producer.send(
                'service_events',
                key=event.trace_id,
                value=self._serialize_event(event)
            )
            future.get(timeout=10)
        except Exception as e:
            self.logger.error(f"Failed to send event: {str(e)}")
            # 实现本地缓存或重试逻辑

    def _serialize_event(self, event: ServiceEvent) -> dict:
        return {
            'event_id': event.event_id,
            'event_type': event.event_type,
            'timestamp': event.timestamp.isoformat(),
            'service_name': event.service_name,
            'instance_id': event.instance_id,
            'trace_id': event.trace_id,
            'user_id': event.user_id,
            'properties': event.properties
        }

    def _generate_trace_id(self) -> str:
        return f"{datetime.now().timestamp()}-{self.instance_id}"

    def __del__(self):
        self.producer.close()

3. 数据处理流水线

3.1 Kafka Streams 实时处理

// EventProcessor.java
import org.apache.kafka.streams.StreamsBuilder;
import org.apache.kafka.streams.kstream.KStream;
import org.apache.kafka.streams.kstream.TimeWindows;
import java.time.Duration;

public class EventProcessor {
    public static void main(String[] args) {
        StreamsBuilder builder = new StreamsBuilder();
        
        // 读取原始事件流
        KStream<String, String> events = builder.stream("raw_events");
        
        // 事件分流
        KStream<String, String>[] branches = events.branch(
            // 用户行为事件
            (key, value) -> value.contains("user_action"),
            // 性能监控事件
            (key, value) -> value.contains("performance"),
            // 错误事件
            (key, value) -> value.contains("error"),
            // 其他事件
            (key, value) -> true
        );
        
        // 处理用户行为事件
        branches[0]
            .groupByKey()
            .windowedBy(TimeWindows.of(Duration.ofMinutes(5)))
            .count()
            .toStream()
            .to("user_action_stats");
        
        // 处理性能监控事件
        branches[1]
            .groupByKey()
            .windowedBy(TimeWindows.of(Duration.ofMinutes(1)))
            .aggregate(
                () -> new PerformanceStats(),
                (key, value, aggregate) -> aggregate.update(value)
            )
            .toStream()
            .to("performance_stats");
        
        // 处理错误事件
        branches[2]
            .to("error_events");
        
        // 处理其他事件
        branches[3]
            .to("other_events");
    }
}

class PerformanceStats {
    private long count;
    private double sumLoadTime;
    private double sumDomReadyTime;
    
    public PerformanceStats update(String event) {
        // 解析事件并更新统计信息
        count++;
        // 更新其他统计数据
        return this;
    }
}

3.2 Flink 实时计算

// UserSessionAnalyzer.scala
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time

case class UserEvent(
  userId: String,
  eventType: String,
  timestamp: Long,
  properties: Map[String, Any]
)

object UserSessionAnalyzer {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    
    // 配置检查点
    env.enableCheckpointing(60000)
    
    val events = env
      .addSource(new FlinkKafkaConsumer[UserEvent]("user_events", ...))
      
    // 会话窗口分析
    val sessionStats = events
      .keyBy(_.userId)
      .window(EventTimeSessionWindows.withGap(Time.minutes(30)))
      .aggregate(new SessionAggregator)
      
    // 实时特征计算
    val userFeatures = events
      .keyBy(_.userId)
      .window(SlidingEventTimeWindows.of(Time.hours(24), Time.minutes(5)))
      .process(new UserFeatureProcessor)
      
    // 行为序列分析
    val userSequences = events
      .keyBy(_.userId)
      .process(new UserSequenceAnalyzer)
      
    // 输出到 ClickHouse
    sessionStats.addSink(new ClickHouseSessionSink)
    userFeatures.addSink(new ClickHouseFeatureSink)
    userSequences.addSink(new ClickHouseSequenceSink)
    
    env.execute("User Behavior Analysis")
  }
}

class SessionAggregator extends AggregateFunction[UserEvent, SessionState, SessionStats] {
  // 实现会话聚合逻辑
}

class UserFeatureProcessor extends ProcessWindowFunction[UserEvent, UserFeature, String, TimeWindow] {
  // 实现特征处理逻辑
}

class UserSequenceAnalyzer extends KeyedProcessFunction[String, UserEvent, UserSequence] {
  // 实现序列分析逻辑
}

4. 数据存储设计

4.1 ClickHouse 表结构

-- 事件明细表
CREATE TABLE events (
    event_id String,
    event_type String,
    user_id String,
    session_id String,
    timestamp DateTime,
    properties Nested (
        key String,
        value String
    ),
    context Nested (
        key String,
        value String
    )
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(timestamp)
ORDER BY (timestamp, user_id);

-- 用户会话表
CREATE TABLE user_sessions (
    session_id String,
    user_id String,
    start_time DateTime,
    end_time DateTime,
    duration UInt32,
    event_count UInt32,
    page_views UInt32,
    bounce_rate Float64,
    conversion_count UInt32
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(start_time)
ORDER BY (user_id, start_time);

-- 用户特征表
CREATE TABLE user_features (
    user_id String,
    feature_date Date,
    visit_frequency UInt32,
    avg_session_duration Float64,
    preferred_categories Array(String),
    last_visit DateTime,
    lifetime_value Float64,
    device_types Array(String),
    conversion_rate Float64
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(feature_date)
ORDER BY (user_id, feature_date);

-- 实时统计表
CREATE TABLE realtime_stats (
    metric_id String,
    timestamp DateTime,
    metric_name String,
    metric_value Float64,
    dimensions Nested (
        key String,
        value String
    )
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(timestamp)
ORDER BY (metric_name, timestamp);

4.2 Redis 缓存设计

# cache_schema.py
from enum import Enum
from typing import Optional, Dict, List
import json
import redis

class CacheKey(Enum):
    USER_SESSION = "user:session:{user_id}"
    USER_FEATURES = "user:features:{user_id}"
    REALTIME_METRICS = "metrics:{metric_name}:{timestamp}"
    HOT_EVENTS = "events:hot:{event_type}"

class CacheManager:
    def __init__(self, redis_client: redis.Redis):
        self.redis = redis_client

    def cache_user_session(
        self,
        user_id: str,
        session_data: Dict,
        expire: int = 3600
    ) -> None:
        key = CacheKey.USER_SESSION.value.format(user_id=user_id)
        self.redis.setex(
            key,
            expire,
            json.dumps(session_data)
        )

    def get_user_session(self, user_id: str) -> Optional[Dict]:
        key = CacheKey.USER_SESSION.value.format(user_id=user_id)
        data = self.redis.get(key)
        return json.loads(data) if data else None

    def update_realtime_metrics(
        self,
        metric_name: str,
        timestamp: str,
        value: float
    ) -> None:
        key = CacheKey.REALTIME_METRICS.value.format(
            metric_name=metric_name,
            timestamp=timestamp
        )
        self.redis.zadd(key, {str(value): value})
        self.redis.expire(key, 3600)  # 1小时过期

    def get_hot_events(
        self,
        event_type: str,
        limit: int = 10
    ) -> List[Dict]:
        key = CacheKey.HOT_EVENTS.value.format(event_type=event_type)
        return self.redis.zrevrange(key, 0, limit - 1, withscores=True)

5. 数据分析和可视化

5.1 Grafana 仪表板配置

{
  "dashboard": {
    "id": null,
    "title": "User Behavior Analytics",
    "tags": ["user-tracking", "behavior"],
    "timezone": "browser",
    "panels": [
      {
        "title": "Active Users",
        "type": "graph",
        "datasource": "ClickHouse",
        "targets": [
          {
            "query": "SELECT toStartOfHour(timestamp) as hour, count(DISTINCT user_id) as active_users FROM events GROUP BY hour ORDER BY hour",
            "refId": "A"
          }
        ]
      },
      {
        "title": "Event Distribution",
        "type": "pie",
        "datasource": "ClickHouse",
        "targets": [
          {
            "query": "SELECT event_type, count(*) as count FROM events GROUP BY event_type",
            "refId": "B"
          }
        ]
      },
      {
        "title": "User Session Duration",
        "type": "heatmap",
        "datasource": "ClickHouse",
        "targets": [
          {
            "query": "SELECT toStartOfHour(start_time) as hour, duration, count(*) as count FROM user_sessions GROUP BY hour, duration",
            "refId": "C"
          }
        ]
      }
    ]
  }
}

5.2 实时监控告警

# monitoring.py
from typing import List, Dict
import numpy as np
from datetime import datetime, timedelta

class AnomalyDetector:
    def __init__(self, window_size: int = 60):
        self.window_size = window_size
        self.history: Dict[str, List[float]] = {}

    def detect(self, metric_name: str, value: float) -> bool:
        if metric_name not in self.history:
            self.history[metric_name] = []

        history = self.history[metric_name]
        history.append(value)

        if len(history) > self.window_size:
            history.pop(0)

        if len(history) < self.window_size // 2:
            return False

        mean = np.mean(history[:-1])
        std = np.std(history[:-1])
        z_score = (value - mean) / std if std > 0 else 0

        return abs(z_score) > 3  # 3 sigma rule

class AlertManager:
    def __init__(self, detector: AnomalyDetector):
        self.detector = detector
        self.alert_history: Dict[str, datetime] = {}

    def check_and_alert(
        self,
        metric_name: str,
        value: float,
        cooldown_minutes: int = 30
    ) -> Optional[Dict]:
        # 检查冷却期
        if metric_name in self.alert_history:
            last_alert = self.alert_history[metric_name]
            if datetime.now() - last_alert < timedelta(minutes=cooldown_minutes):
                return None

        # 检测异常
        if self.detector.detect(metric_name, value):
            alert = {
                'metric': metric_name,
                'value': value,
                'timestamp': datetime.now(),
                'severity': self._calculate_severity(metric_name, value)
            }
            self.alert_history[metric_name] = datetime.now()
            return alert

        return None

    def _calculate_severity(self, metric_name: str, value: float) -> str:
        # 实现严重程度计算逻辑
        return 'high' if value > 100 else 'medium'