DeepSeek新玩法!用AI一键揪出图片中的敏感词

📝 面试求职: 「面试试题小程序」 ,内容涵盖 测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试,命中率杠杠的。(大家刷起来…)

📝 职场经验干货:

软件测试工程师简历上如何编写个人信息(一周8个面试)

软件测试工程师简历上如何编写专业技能(一周8个面试)

软件测试工程师简历上如何编写项目经验(一周8个面试)

软件测试工程师简历上如何编写个人荣誉(一周8个面试)

软件测试行情分享(这些都不了解就别贸然冲了.)

软件测试面试重点,搞清楚这些轻松拿到年薪30W+

软件测试面试刷题小程序免费使用(永久使用)


在当今数字化时代,图片内容的安全性越来越受到重视。基于AI的图片关键字检测技术在现代社会中具有重要的意义和广泛的应用场景。

随着互联网和社交媒体的快速发展,图片内容的数量呈爆炸式增长,如何高效、准确地管理和审核这些内容成为了一个重要的挑战。

基于AI的图片关键字检测技术通过结合计算机视觉(CV)和自然语言处理(NLP)技术,能够从图片中提取文本信息并检测敏感或关键内容,从而帮助企业和个人更好地管理和利用图片数据。

尤其是在社交媒体、内容审核和广告投放等场景中,检测图片中的敏感关键字成为了一个重要的需求。本文将分享如何使用 Python 脚本调用 DeepSeek 接口,实现图片敏感关键字检测,并通过具体代码和测试样例简单展示实现过程。

背景介绍

DeepSeek 是一个强大的自然语言处理(NLP)和计算机视觉(CV)平台,提供了丰富的 API 接口,能够帮助我们快速实现文本和图片的内容分析。

本文将重点介绍如何通过 DeepSeek 的文本分析接口,结合 OCR(光学字符识别)技术,从图片中提取文本并检测敏感关键字。

实现步骤

01 环境准备

在开始之前,我们需要安装以下 Python 库:

  • requests:用于发送 HTTP 请求调用 DeepSeek 接口;

  • Pillow:用于处理图片;

  • pytesseract:用于从图片中提取文本。

安装命令如:

pip install requests pillow pytesseract。

02 获取 DeepSeek API 密钥

首先,你需要注册 DeepSeek 平台并获取 API 密钥。假设你已经获得了 API 密钥,并将其存储在环境变量中。如:export DEEPSEEK_API_KEY="你的api key"。

03 编写 Python 脚本

以下是完整的 Python 脚本,用于调用 DeepSeek 接口完成图片敏感关键字检测。

import os
import requests
from PIL import Image
import pytesseract

# 设置 Tesseract 的路径(如果需要)
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# DeepSeek API 配置
DEEPSEEK_API_URL = "https://api.deepseek.com/v1/text/analyze"
DEEPSEEK_API_KEY = os.getenv("DEEPSEEK_API_KEY")

def extract_text_from_image(image_path):
    """从图片中提取文本"""
    image = Image.open(image_path)
    text = pytesseract.image_to_string(image)
    return text

def detect_sensitive_keywords(text):
    """调用 DeepSeek 接口检测敏感关键字"""
    headers = {
        "Authorization": f"Bearer {DEEPSEEK_API_KEY}",
        "Content-Type": "application/json"
    }
    data = {
        "text": text,
        "tasks": ["sensitive_keyword_detection"]
    }
    response = requests.post(DEEPSEEK_API_URL, headers=headers, json=data)
    if response.status_code == 200:
        return response.json()
    else:
        raise Exception(f"API request failed: {response.status_code}, {response.text}")

def main(image_path):
    # 从图片中提取文本
    text = extract_text_from_image(image_path)
    print("Extracted Text:", text)
    # 调用 DeepSeek 接口检测敏感关键字
    try:
        result = detect_sensitive_keywords(text)
        print("DeepSeek Analysis Result:", result)
    except Exception as e:
        print("Error:", str(e))
if __name__ == "__main__":
    image_path = "violence.jpg"  # 替换为你的图片路径
    main(image_path)

代码解析

01 图片文本提取

如图所示,上述代码中,我们使用 pytesseract 库从图片中提取文本。

pytesseract 是 Tesseract OCR (一款开源的文本识别(OCR)引擎。主要用于识别图片中的文字,并将其转换为可编辑文兵,是目前公认最优秀、最精确的开源 OCR 系统之一。

详情可访问官网:

(https://tesseract.patagames.com/)引擎的 Python 封装,能够支持多种语言的文本识别。

02 调用 DeepSeek 接口 

如图所示,通过 requests 库发送 HTTP POST 请求,调用 DeepSeek 的文本分析接口。

我们将提取的文本作为输入,并指定任务为 sensitive_keyword_detection。

03 主函数

主函数负责调用上述功能,并输出结果。

最后: 下方这份完整的软件测试视频教程已经整理上传完成,需要的朋友们可以自行领取【保证100%免费】

​​​

### DeepSeek 敏感词过滤方法 DeepSeek 在处理敏感词方面采用了多层次的技术手段来确保内容的安全性和合规性。具体来说,敏感词过滤主要依赖于以下几个关键技术环节: #### 1. 预定义敏感词库构建 为了有效识别并阻止不当内容的传播,DeepSeek 维护了一个动态更的预定义敏感词库。该词库不仅涵盖了常见的违法不良信息关键词,还包括特定地区法律法规所规定的特殊词汇[^1]。 #### 2. 自然语言处理技术的应用 除了静态匹配外,DeepSeek 还利用先进的自然语言处理算法对文本语义进行深层次理解。这使得即使某些敏感信息经过变形或伪装也能被精准捕捉到。例如,对于同音字替换、字符间隔插入等情况下的隐晦表达同样具备较高的检出率[^2]。 #### 3. 多轮反馈机制优化 针对初次未能完全覆盖的颖型敏感表述形式,DeepSeek 设计了一套基于用户交互反馈的学习框架。当发现的潜在违规模式时,系统能够快速响应并将之纳入后续监测范围之内,从而实现自我进化的能力[^3]。 ```python def filter_sensitive_words(text, sensitive_word_list): """ 对输入文本中的敏感词进行过滤 参数: text (str): 待检测的原始字符串 sensitive_word_list (list): 已知敏感词语组成的列表 返回值: str: 去除敏感词后的干净文本 """ clean_text = text for word in sensitive_word_list: clean_text = clean_text.replace(word, '*' * len(word)) return clean_text ``` 此函数展示了如何简单地应用敏感词表来进行基本的内容净化操作。实际生产环境中使用的逻辑将会更加复杂和完善,包括但不限于上述提到的各种高级特性支持。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值