Octopii:一款AI驱动的个人身份信息(PII)扫描工具

Octopii是一款使用AI技术,基于TesseractOCR和KerasCNN模块的个人身份信息扫描工具,用于检测图片中的敏感信息如身份证、护照等。它通过图像处理、分类和OCR来识别PII,并提供置信度评分。用户需先安装Python3环境和依赖,然后运行工具进行扫描。文章还提供了学习网络安全的详细路线图。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关于Octopii

Octopii是一款功能强大的AI驱动的个人身份信息(PII)扫描工具,可以帮助广大研究人员在一个目录中扫描各种和个人身份信息(PII)相关的图片资源,比如说身份*证信息、护照、照片和签名等等。

工作机制

Octopii使用了Tesseract的OCR和Keras的CNN模块来检测各种形式的可能会发生泄漏面临安全风险的个人身份信息。该工具通过下列步骤实现其功能:

1、导入和清理图片资源

图像通过OpenCV导入,并进行清理、去扭斜和旋转以进行扫描。

2、执行图片分类

扫描图像的特征,如ISO/IEC 7810规格、颜色、文本位置、照片、全息图等,这一步通过传递图像并将其与训练模型进行比较来完成。

3、光学字符识别(OCR)

作为一种最终验证方法,扫描图像中的某些字符串,以验证模型的准确性。

扫描的准确性可以通过输出中的置信分数来确定。如果满足上述所有条件,则返回100.0分。

为了训练模型,还可以将数据输入model_generator.py脚本并使用新改进的h5文件来进行数据处理。

工具下载

由于该工具基于Python 3开发,因此广大研究人员首先需要在本地设备上安装并配置好Python 3环境。接下来,使用下列命令将该项目源码克隆至本地:

git clone https://github.com/redhuntlabs/Octopii.git

接下来,使用pip命令和项目提供的requirements.txt文件来安装该项目所需的依赖组件:

cd Octopii

pip install -r requirements.txt

然后使用下列命令安装Tesseract帮助工具(Ubuntu/Debian):

sudo apt install tesseract-ocr -y

安装完成后,可以使用下列命令运行Octopii:

python3 octopii.py <location to scan> <additional flags>

Octopii当前支持本地扫描和S3目录扫描,可以通过输入目标URL地址或路径来进行扫描。比如说:

python3 octopii.py pii_list/

工具使用样例

owais@artemis ~ $ python3 octopii.py pii_list

 

Not a valid image format: pii_list/aadhaar/aadhaar-8.gif

 

[

    {

        "asset_type": "Bank",

        "confidence": 100.0,

        "file_name": "passbook",

        "extension": "jpeg",

        "path": "pii_list/bank/passbook.jpeg"

    },

    {

        "asset_type": "Photo",

        "confidence": 99.98,

        "file_name": "IMG-20200331-WA0037",

        "extension": "jpg",

        "path": "pii_list/photos/IMG-20200331-WA0037.jpg"

    },

    {

        "asset_type": "PAN",

        "confidence": 100.0,

        "file_name": "pan-7",

        "extension": "jpg",

        "path": "pii_list/pan/pan-7.jpg"

    },

    {

        "asset_type": "Aadhaar",

        "confidence": 97.31,

        "file_name": "aadhaar-14",

        "extension": "jpg",

        "path": "pii_list/aadhaar/aadhaar-14.jpg"

    }

]

最后

分享一个快速学习【网络安全】的方法,「也许是」最全面的学习方法:
1、网络安全理论知识(2天)
①了解行业相关背景,前景,确定发展方向。
②学习网络安全相关法律法规。
③网络安全运营的概念。
④等保简介、等保规定、流程和规范。(非常重要)

2、渗透测试基础(一周)
①渗透测试的流程、分类、标准
②信息收集技术:主动/被动信息搜集、Nmap工具、Google Hacking
③漏洞扫描、漏洞利用、原理,利用方法、工具(MSF)、绕过IDS和反病毒侦察
④主机攻防演练:MS17-010、MS08-067、MS10-046、MS12-20等

3、操作系统基础(一周)
①Windows系统常见功能和命令
②Kali Linux系统常见功能和命令
③操作系统安全(系统入侵排查/系统加固基础)

4、计算机网络基础(一周)
①计算机网络基础、协议和架构
②网络通信原理、OSI模型、数据转发流程
③常见协议解析(HTTP、TCP/IP、ARP等)
④网络攻击技术与网络安全防御技术
⑤Web漏洞原理与防御:主动/被动攻击、DDOS攻击、CVE漏洞复现

5、数据库基础操作(2天)
①数据库基础
②SQL语言基础
③数据库安全加固

6、Web渗透(1周)
①HTML、CSS和JavaScript简介
②OWASP Top10
③Web漏洞扫描工具
④Web渗透工具:Nmap、BurpSuite、SQLMap、其他(菜刀、漏扫等)

在这里插入图片描述

恭喜你,如果学到这里,你基本可以从事一份网络安全相关的工作,比如渗透测试、Web 渗透、安全服务、安全分析等岗位;如果等保模块学的好,还可以从事等保工程师。薪资区间6k-15k。

到此为止,大概1个月的时间。你已经成为了一名“脚本小子”。那么你还想往下探索吗?

想要入坑黑客&网络安全的朋友,给大家准备了一份:282G全网最全的网络安全资料包免费领取!
扫下方二维码,免费领取

有了这些基础,如果你要深入学习,可以参考下方这个超详细学习路线图,按照这个路线学习,完全够支撑你成为一名优秀的中高级网络安全工程师:

高清学习路线图或XMIND文件(点击下载原文件)

还有一些学习中收集的视频、文档资源,有需要的可以自取:
每个成长路线对应板块的配套视频:


当然除了有配套的视频,同时也为大家整理了各种文档和书籍资料&工具,并且已经帮大家分好类了。

因篇幅有限,仅展示部分资料,需要的可以【扫下方二维码免费领取】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值