LangBot安全机制：敏感词过滤和访问控制

最新推荐文章于 2025-11-25 11:29:48 发布

原创最新推荐文章于 2025-11-25 11:29:48 发布 · 37 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#安全 #网络 #LangBot安全机制 #敏感词过滤和访问控制

摘要

安全性是现代聊天机器人平台不可忽视的重要方面。LangBot作为一个功能强大的聊天机器人框架，提供了完善的内置安全机制，包括敏感词过滤、访问控制、内容审查等功能，确保平台的安全性和合规性。本文将深入探讨LangBot的安全机制，重点分析敏感词过滤系统和访问控制机制的实现原理、配置方法和最佳实践，帮助开发者构建安全可靠的聊天机器人应用。

正文

1. 安全机制概述

LangBot的安全机制旨在保护平台免受恶意内容、不当言论和未授权访问的威胁。其主要安全功能包括：

敏感词过滤：自动检测和过滤包含敏感词汇的内容
访问控制：控制用户和机器人的访问权限
内容审查：对用户生成内容进行审查和过滤
会话限制：防止滥用和恶意刷屏
数据保护：保护用户数据和隐私

2. 系统架构

LangBot安全机制的架构如下图所示：

3. 敏感词过滤系统

敏感词过滤是LangBot安全机制的核心组件之一，用于检测和过滤包含敏感内容的消息。

3.1 敏感词库管理

class SensitiveWordManager:
    """敏感词管理器"""
    
    def __init__(self, ap: app.Application):
        self.ap = ap
        self.words: set = set()
        self.word_tree: dict = {}
        self.reload_interval: int = 300  # 5分钟重新加载一次
    
    async def initialize(self):
        """初始化敏感词管理器"""
        await self.load_sensitive_words()
        # 启动定期重新加载任务
        self.ap.task_mgr.create_task(
            self._reload_worker(),
            name='sensitive-word-reload',
            scopes=[core_entities.LifecycleControlScope.APPLICATION]
        )
    
    async def load_sensitive_words(self):
        """加载敏感词库"""
        try:
            # 从配置文件加载敏感词
            sensitive_config = self.ap.sensitive_meta.data
            words_list = sensitive_config.get("words", [])
            
            # 更新敏感词集合
            self.words = set(words_list)
            
            # 构建敏感词前缀树（Trie树）以提高匹配效率
            self.word_tree = self._build_word_tree(words_list)
            
            self.ap.logger.info(f"加载了 {len(self.words)} 个敏感词")
        except Exception as e:
            self.ap.logger.error(f"加载敏感词库失败: {e}")
    
    def _build_word_tree(self, words: list) -> dict:
        """
        构建敏感词前缀树
        
        Args:
            words: 敏感词列表
            
        Returns:
            前缀树
        """
        tree = {}
        for word in words:
            node = tree
            for char in word:
                if char not in node:
                    node[char] = {}
                node = node[char]
            node['end'] = True  # 标记单词结束
        return tree
    
    async def _reload_worker(self):
        """定期重新加载敏感词库"""
        while True:
            await asyncio.sleep(self.reload_interval)
            try:
                await self.load_sensitive_words()
            except Exception as e:
                self.ap.logger.error(f"重新加载敏感词库失败: {e}")

3.2 敏感词过滤算法

class SensitiveWordFilter:
    """敏感词过滤器"""
    
    def __init__(self, word_manager: SensitiveWordManager):
        self.word_manager = word_manager
    
    def filter_text(self, text: str, replacement: str = "*") -> str:
        """
        过滤文本中的敏感词
        
        Args:
            text: 待过滤文本
            replacement: 替换字符
            
        Returns:
            过滤后的文本
        """
        if not text:
            return text
        
        # 使用前缀树进行高效匹配
        filtered_text = self._filter_with_trie(text, replacement)
        return filtered_text
    
    def _filter_with_trie(self, text: str, replacement: str) -> str:
        """
        使用前缀树过滤敏感词
        
        Args:
            text: 待过滤文本
            replacement: 替换字符
            
        Returns:
            过滤后的文本
        """
        if not self.word_manager.word_tree:
            return text
        
        filtered_chars = list(text)
        text_length = len(text)
        
        i = 0
        while i < text_length:
            # 从当前位置开始匹配
            node = self.word_manager.word_tree
            j = i
            
            # 尝试匹配敏感词
            while j < text_length and text[j] in node:
                node = node[text[j]]
                j += 1
                
                # 如果匹配到完整敏感词
                if 'end' in node:
                    # 替换敏感词
                    for k in range(i, j):
                        filtered_chars[k] = replacement
                    i = j  # 跳过已匹配的部分
                    break
            else:
                # 没有匹配到敏感词，继续下一个字符
                i += 1
        
        return ''.join(filtered_chars)
    
    def contains_sensitive_word(self, text: str) -> bool:
        """
        检查文本是否包含敏感词
        
        Args:
            text: 待检查文本
            
        Returns:
            是否包含敏感词
        """
        if not text or not self.word_manager.word_tree:
            return False
        
        text_length = len(text)
        
        for i in range(text_length):
            node = self.word_manager.word_tree
            j = i
            
            while j < text_length and text[j] in node:
                node = node[text[j]]
                j += 1
                
                if 'end' in node:
                    return True  # 找到敏感词
        
        return False

3.3 敏感词配置文件

LangBot使用JSON格式的配置文件管理敏感词：

{
  "metadata": {
    "version": "1.0",
    "last_updated": "2025-11-19T10:00:00Z",
    "description": "敏感词库配置"
  },
  "words": [
    "敏感词1",
    "敏感词2",
    "不良内容",
    "违规词汇"
  ],
  "categories": {
    "political": ["政治敏感词1", "政治敏感词2"],
    "violence": ["暴力相关词1", "暴力相关词2"],
    "porn": ["色情相关词1", "色情相关词2"]
  },
  "whitelist": [
    "白名单词1",
    "白名单词2"
  ]
}

4. 访问控制机制

访问控制机制用于管理用户和机器人的访问权限，确保只有授权的实体可以访问系统资源。

4.1 用户权限管理

class AccessControlManager:
    """访问控制管理器"""
    
    def __init__(self, ap: app.Application):
        self.ap = ap
        self.user_permissions: dict = {}
        self.role_permissions: dict = {}
    
    async def initialize(self):
        """初始化访问控制管理器"""
        await self.load_permissions()
    
    async def load_permissions(self):
        """加载权限配置"""
        # 从数据库加载用户权限
        result = await self.ap.persistence_mgr.execute_async(
            sqlalchemy.select(persistence_user.UserPermission)
        )
        
        for row in result:
            user_id = row.user_id
            if user_id not in self.user_permissions:
                self.user_permissions[user_id] = set()
            self.user_permissions[user_id].add(row.permission)
        
        # 加载角色权限
        result = await self.ap.persistence_mgr.execute_async(
            sqlalchemy.select(persistence_user.RolePermission)
        )
        
        for row in result:
            role = row.role
            if role not in self.role_permissions:
                self.role_permissions[role] = set()
            self.role_permissions[role].add(row.permission)
    
    async def check_permission(self, user_id: str, permission: str) -> bool:
        """
        检查用户是否具有指定权限
        
        Args:
            user_id: 用户ID
            permission: 权限名称
            
        Returns:
            是否具有权限
        """
        # 检查用户直接权限
        if user_id in self.user_permissions:
            if permission in self.user_permissions[user_id]:
                return True
        
        # 检查用户角色权限
        user_roles = await self._get_user_roles(user_id)
        for role in user_roles:
            if role in self.role_permissions:
                if permission in self.role_permissions[role]:
                    return True
        
        return False
    
    async def _get_user_roles(self, user_id: str) -> list:
        """
        获取用户角色
        
        Args:
            user_id: 用户ID
            
        Returns:
            用户角色列表
        """
        result = await self.ap.persistence_mgr.execute_async(
            sqlalchemy.select(persistence_user.UserRole)
            .where(persistence_user.UserRole.user_id == user_id)
        )
        
        return [row.role for row in result]
    
    async def require_permission(self, user_id: str, permission: str):
        """
        要求用户具有指定权限，否则抛出异常
        
        Args:
            user_id: 用户ID
            permission: 权限名称
        """
        if not await self.check_permission(user_id, permission):
            raise PermissionError(f"用户 {user_id} 缺少权限: {permission}")

4.2 API访问控制

class APIAccessController:
    """API访问控制器"""
    
    def __init__(self, access_mgr: AccessControlManager):
        self.access_mgr = access_mgr
    
    async def check_api_access(self, user_id: str, api_endpoint: str) -> bool:
        """
        检查API访问权限
        
        Args:
            user_id: 用户ID
            api_endpoint: API端点
            
        Returns:
            是否允许访问
        """
        # 将API端点映射到权限
        permission_map = {
            "/api/bots/create": "bot.create",
            "/api/bots/delete": "bot.delete",
            "/api/models/list": "model.list",
            "/api/users/list": "user.list",
            # 其他API端点映射...
        }
        
        required_permission = permission_map.get(api_endpoint)
        if not required_permission:
            # 默认允许访问未明确限制的API
            return True
        
        return await self.access_mgr.check_permission(user_id, required_permission)
    
    async def enforce_api_access(self, user_id: str, api_endpoint: str):
        """
        强制执行API访问控制
        
        Args:
            user_id: 用户ID
            api_endpoint: API端点
        """
        if not await self.check_api_access(user_id, api_endpoint):
            raise PermissionError(f"用户 {user_id} 无权访问 {api_endpoint}")

5. 内容审查系统

内容审查系统用于对用户生成的内容进行更全面的审查。

5.1 内容分类器

class ContentClassifier:
    """内容分类器"""
    
    def __init__(self, ap: app.Application):
        self.ap = ap
        self.classification_rules: dict = {}
    
    async def initialize(self):
        """初始化内容分类器"""
        await self.load_classification_rules()
    
    async def load_classification_rules(self):
        """加载分类规则"""
        # 从配置加载分类规则
        # 这里可以集成第三方内容审查服务
        self.classification_rules = {
            "spam": ["刷屏关键词1", "刷屏关键词2"],
            "advertising": ["广告关键词1", "广告关键词2"],
            "inappropriate": ["不当内容1", "不当内容2"]
        }
    
    def classify_content(self, content: str) -> dict:
        """
        对内容进行分类
        
        Args:
            content: 待分类内容
            
        Returns:
            分类结果
        """
        classification = {
            "categories": [],
            "confidence": {},
            "risk_level": "low"
        }
        
        # 基于关键词的简单分类
        for category, keywords in self.classification_rules.items():
            match_count = 0
            for keyword in keywords:
                if keyword in content:
                    match_count += 1
            
            if match_count > 0:
                classification["categories"].append(category)
                confidence = min(match_count / len(keywords), 1.0)
                classification["confidence"][category] = confidence
                
                # 更新风险等级
                if confidence > 0.7:
                    classification["risk_level"] = "high"
                elif confidence > 0.3 and classification["risk_level"] != "high":
                    classification["risk_level"] = "medium"
        
        return classification

6. 会话限制机制

会话限制机制防止滥用和恶意刷屏行为。

6.1 频率限制器

class RateLimiter:
    """频率限制器"""
    
    def __init__(self, ap: app.Application):
        self.ap = ap
        self.user_requests: dict = {}
        self.limits: dict = {}
    
    async def initialize(self):
        """初始化频率限制器"""
        # 从配置加载限制规则
        self.limits = self.ap.instance_config.data.get("rate_limits", {
            "user": {
                "requests_per_minute": 10,
                "requests_per_hour": 100
            },
            "session": {
                "requests_per_minute": 20,
                "requests_per_hour": 200
            }
        })
    
    async def check_rate_limit(self, user_id: str, session_id: str = None) -> bool:
        """
        检查频率限制
        
        Args:
            user_id: 用户ID
            session_id: 会话ID（可选）
            
        Returns:
            是否允许请求
        """
        now = time.time()
        minute_ago = now - 60
        hour_ago = now - 3600
        
        # 检查用户频率限制
        user_key = f"user:{user_id}"
        if not self._check_limit(user_key, minute_ago, hour_ago):
            return False
        
        # 检查会话频率限制
        if session_id:
            session_key = f"session:{session_id}"
            if not self._check_limit(session_key, minute_ago, hour_ago):
                return False
        
        # 记录请求
        self._record_request(user_key, now)
        if session_id:
            self._record_request(f"session:{session_id}", now)
        
        return True
    
    def _check_limit(self, key: str, minute_ago: float, hour_ago: float) -> bool:
        """
        检查特定键的限制
        
        Args:
            key: 键名
            minute_ago: 一分钟前的时间戳
            hour_ago: 一小时前的时间戳
            
        Returns:
            是否允许请求
        """
        if key not in self.user_requests:
            self.user_requests[key] = []
            return True
        
        requests = self.user_requests[key]
        
        # 清理过期请求记录
        requests[:] = [req_time for req_time in requests if req_time > hour_ago]
        
        # 检查每小时限制
        if len(requests) >= self.limits.get("user", {}).get("requests_per_hour", 1000):
            return False
        
        # 检查每分钟限制
        recent_requests = [req_time for req_time in requests if req_time > minute_ago]
        if len(recent_requests) >= self.limits.get("user", {}).get("requests_per_minute", 100):
            return False
        
        return True
    
    def _record_request(self, key: str, timestamp: float):
        """
        记录请求
        
        Args:
            key: 键名
            timestamp: 时间戳
        """
        if key not in self.user_requests:
            self.user_requests[key] = []
        self.user_requests[key].append(timestamp)

7. 在流水线中集成安全机制

7.1 敏感词过滤阶段

@stage.stage_class("sensitive-word-filter")
class SensitiveWordFilterStage(stage.PipelineStage):
    """敏感词过滤阶段"""
    
    def __init__(self, ap: app.Application):
        super().__init__(ap)
        self.filter: SensitiveWordFilter = None
    
    async def initialize(self, pipeline_config: dict):
        """初始化阶段"""
        self.filter = SensitiveWordFilter(self.ap.sensitive_word_mgr)
    
    async def process(
        self,
        query: pipeline_query.Query,
        stage_inst_name: str,
    ) -> entities.StageProcessResult:
        """处理消息"""
        # 获取用户消息
        original_text = query.message_chain.get_text()
        
        # 检查是否包含敏感词
        if self.filter.contains_sensitive_word(original_text):
            # 记录警告日志
            self.ap.logger.warning(f"检测到敏感词内容: {original_text[:50]}...")
            
            # 过滤敏感词
            filtered_text = self.filter.filter_text(original_text)
            
            # 更新消息链
            query.message_chain = platform_message.MessageChain([
                platform_message.Plain(text=filtered_text)
            ])
            
            # 记录过滤事件
            query.variables["content_filtered"] = True
            query.variables["original_text"] = original_text
            
            return entities.StageProcessResult(
                result_type=entities.ResultType.CONTINUE,
                new_query=query,
                console_notice="检测并过滤了敏感词内容"
            )
        
        return entities.StageProcessResult(
            result_type=entities.ResultType.CONTINUE,
            new_query=query
        )

7.2 访问控制阶段

@stage.stage_class("access-control")
class AccessControlStage(stage.PipelineStage):
    """访问控制阶段"""
    
    async def process(
        self,
        query: pipeline_query.Query,
        stage_inst_name: str,
    ) -> entities.StageProcessResult:
        """处理消息"""
        user_id = query.sender_id
        session_id = f"{query.launcher_type.value}:{query.launcher_id}"
        
        # 检查频率限制
        rate_limiter = self.ap.rate_limiter
        if not await rate_limiter.check_rate_limit(user_id, session_id):
            # 超过频率限制，拒绝请求
            return entities.StageProcessResult(
                result_type=entities.ResultType.INTERRUPT,
                new_query=query,
                user_notice="请求过于频繁，请稍后再试",
                console_notice=f"用户 {user_id} 超过频率限制"
            )
        
        # 检查内容分类
        content = query.message_chain.get_text()
        classifier = self.ap.content_classifier
        classification = classifier.classify_content(content)
        
        # 根据风险等级处理
        if classification["risk_level"] == "high":
            # 高风险内容，直接拒绝
            return entities.StageProcessResult(
                result_type=entities.ResultType.INTERRUPT,
                new_query=query,
                user_notice="内容不符合规范，已被系统拦截",
                console_notice=f"拦截高风险内容: {content[:50]}..."
            )
        elif classification["risk_level"] == "medium":
            # 中等风险内容，记录警告
            query.variables["content_risk_level"] = "medium"
            query.variables["content_categories"] = classification["categories"]
        
        return entities.StageProcessResult(
            result_type=entities.ResultType.CONTINUE,
            new_query=query
        )

8. 安全配置

8.1 配置文件示例

# security.yaml
security:
  # 敏感词过滤配置
  sensitive_word_filter:
    enabled: true
    replacement: "*"
    reload_interval: 300  # 5分钟
  
  # 频率限制配置
  rate_limits:
    user:
      requests_per_minute: 10
      requests_per_hour: 100
    session:
      requests_per_minute: 20
      requests_per_hour: 200
  
  # 内容审查配置
  content_moderation:
    enabled: true
    risk_threshold: 0.5
    auto_block_high_risk: true
  
  # 访问控制配置
  access_control:
    enabled: true
    default_permissions:
      - "basic_chat"
    admin_permissions:
      - "basic_chat"
      - "bot_management"
      - "user_management"
      - "system_admin"

8.2 安全策略管理

class SecurityPolicyManager:
    """安全策略管理器"""
    
    def __init__(self, ap: app.Application):
        self.ap = ap
        self.policies: dict = {}
    
    async def load_policies(self):
        """加载安全策略"""
        # 从配置文件加载策略
        security_config = self.ap.instance_config.data.get("security", {})
        self.policies = security_config
    
    def is_feature_enabled(self, feature: str) -> bool:
        """
        检查功能是否启用
        
        Args:
            feature: 功能名称
            
        Returns:
            是否启用
        """
        return self.policies.get(feature, {}).get("enabled", True)
    
    def get_policy_value(self, policy_path: str, default=None):
        """
        获取策略值
        
        Args:
            policy_path: 策略路径，如 "rate_limits.user.requests_per_minute"
            default: 默认值
            
        Returns:
            策略值
        """
        keys = policy_path.split('.')
        value = self.policies
        
        try:
            for key in keys:
                value = value[key]
            return value
        except (KeyError, TypeError):
            return default

9. 安全最佳实践

9.1 定期更新敏感词库

class SensitiveWordUpdater:
    """敏感词库更新器"""
    
    async def update_from_remote_source(self):
        """从远程源更新敏感词库"""
        try:
            # 从远程API获取最新敏感词
            async with aiohttp.ClientSession() as session:
                async with session.get("https://api.example.com/sensitive-words") as response:
                    if response.status == 200:
                        data = await response.json()
                        words = data.get("words", [])
                        
                        # 更新本地敏感词库
                        await self._update_local_word_list(words)
        except Exception as e:
            self.ap.logger.error(f"更新敏感词库失败: {e}")
    
    async def _update_local_word_list(self, words: list):
        """
        更新本地敏感词列表
        
        Args:
            words: 新的敏感词列表
        """
        # 更新配置
        self.ap.sensitive_meta.data["words"] = words
        
        # 保存到文件
        await self.ap.sensitive_meta.dump_config()
        
        # 重新加载敏感词管理器
        await self.ap.sensitive_word_mgr.load_sensitive_words()

9.2 安全日志记录

class SecurityLogger:
    """安全日志记录器"""
    
    def __init__(self, logger: logging.Logger):
        self.logger = logger
    
    def log_sensitive_content_detected(self, user_id: str, content: str, filtered_content: str):
        """
        记录检测到敏感内容
        
        Args:
            user_id: 用户ID
            content: 原始内容
            filtered_content: 过滤后内容
        """
        self.logger.warning(
            "敏感内容检测",
            extra={
                "user_id": user_id,
                "original_content": content[:100] + ("..." if len(content) > 100 else ""),
                "filtered_content": filtered_content[:100] + ("..." if len(filtered_content) > 100 else ""),
                "timestamp": datetime.now().isoformat()
            }
        )
    
    def log_access_violation(self, user_id: str, resource: str, permission: str):
        """
        记录访问违规
        
        Args:
            user_id: 用户ID
            resource: 资源
            permission: 权限
        """
        self.logger.warning(
            "访问违规",
            extra={
                "user_id": user_id,
                "resource": resource,
                "permission": permission,
                "timestamp": datetime.now().isoformat()
            }
        )
    
    def log_rate_limit_exceeded(self, user_id: str, session_id: str = None):
        """
        记录频率限制超限
        
        Args:
            user_id: 用户ID
            session_id: 会话ID
        """
        self.logger.info(
            "频率限制超限",
            extra={
                "user_id": user_id,
                "session_id": session_id,
                "timestamp": datetime.now().isoformat()
            }
        )