一、miniconda集成环境搭建
1.Miniconda集成环境的安装
https://mirrors.ustc.edu.cn/
2.Minicodna指定名称和Python版本创建环境
conda create -n xxx python=3.8
# 创建指定环境
conda activate xxx
# 启动指定环境
pip install playwright -i https://pypi.mirrors.ustc.edu.cn/simple/
# 下载第三方库, -i 指向国内的文件
3.Miniconda集成环境的迁移
conda config --append envs_dirs C:\user\envs #为刚粘贴过来的环境添加目录
conda env export > environment.yml
conda env update --file environment.yml --prune
4.Visual studio code创建Python测试项目,设置集成Miniconda环境
“文件”---> “首选项” ---> “设置” ---> “拓展”---> “python”
更改 Default Interpreter Path 为目标环境的 python.exe 文件
设置“解释器”使用环境中的 python.exe
5.Visua1 studio code调试测试项目代码并成功运行
------------------------------------------------------------------------
二、kali数据恢复和数字取证
1.通过U盘启动Kail Linux系统
2.Kali Linux集成工具恢复指定存储介质中的数据(图像、文件等数据)坏分区
foremost -t all -i /path/to/input -o /path/to/output
testdisk /dev/sdb
scalpel /dev/sdb -o output/
extundelete attachment.img --restore-all #对目标文件进行恢复
3.Kali集成工具提取指定应用的日志(虚拟日志)
4.通过Kali集成工具分析文件的元数据和隐藏信息
exiftool /path/to/document.docx
binwalk /path/to/file
strings /path/to/file
pdfinfo /path/to/document.pdf
steghide extract -sf /path/to/file
5.完成目标提取数据和文件的持久化
------------------------------------------------------------------------
三、pc端信息资源网站的数据采集(爬虫)
pip install shutil -i https://pypi.mirrors.ustc.edu.cn/simple/
pip install openpyxl -i https://pypi.mirrors.ustc.edu.cn/simple/
1.对指定数据源设计数据采集规则
playwright codegen https://xxx
# 通过采集可以得到一个基本的数据
page.wait_for_load_state('domcontentloaded')
page.wait_for_timeout(5000)
#页面静止,并等待设定时间结束后执行其他操作
xxx=page.locator('xPath')
xxx.click()
list=page.locator('.bzd').all()
#获取所有 class = '.bzd' 的元素对象
for ele in list: #从标题元素列表中便利每一个元素(标题+发布日期)
title=ele.locator('.list2').first
#从元素中获取文本部分内容,通过网页可以知道该网页文本段落 class = list2
title_text=title.text_content()
date=ele.locator('//div[3]/span[1]').first
date_text=date.text_content()
导出
shutil.copy('xxx.xlsx','20xx-xx-xx.xlsx') # 将数据模板表复制为新表
time.sleep(10)
wb=openpyxl.load_workbook('20xx-xx-xx.xlsx') # 加载Excel文件
ws=wb['Sheet1'] #指定到要操作的 sheet 页
ws.append([title_text,date_text]) #将新内容追加到新行
wb.save('20xx-xx-xx.xlsx') #保存 excel
wb.close() #关闭 excel
2.配置、调试运行数据采集机器人程序代码:使程序能够正常运行
3.正式执行数据采集机器人,获得任务要求的数据采集标准结果
import re,time
from playwright.sync_api import Playwright, sync_playwright, expect
import shutil
import openpyxl
import time
def run(playwright: Playwright) -> None:
# 将数据模板表复制为新表
shutil.copy("D:\\python代码\\数字取证\\test.py","test2.xlsx")
time.sleep(1)
browser = playwright.firefox.launch(headless=False)
context = browser.new_context()
page = context.new_page()
page.goto("https://www.ahifa.org/")
# 等待网站页面资源加载
page.wait_for_load_state('domcontentloaded')
with page.expect_popup() as page1_info:
page.get_by_role("link", name="协会动态", exact=True).click()
page_xiehuidongtai = page1_info.value
#获取所有 class = '.bzd' 的元素对象
biaoti_list = page_xiehuidongtai.locator('.bzd').all()
#从标题元素列表中便利每一个元素(标题+发布日期)
for i in biaoti_list:
biaoti = i.locator('.list2_title').first
#从元素中获取文本部分内容
biaotiwenben = biaoti.text_content()
faburiqi = i.locator('//div[3]/span[1]').first
fbrq = faburiqi.text_content()
print(biaotiwenben,fbrq )
# 加载Excel文件
wenjian = openpyxl.load_workbook("test2.xlsx")
#指定到要操作的 sheet 页
sheet = wenjian['test']
#将新内容追加到新行
sheet.append([biaotiwenben,fbrq])
#保存和关闭excel
wenjian.save('2024.xlsx')
#页面静止,并等待设定时间结束后执行其他操作
#page.wait_for_timeout(5000)
# ---------------------
context.close()
browser.close()
with sync_playwright() as playwright:
run(playwright)
------------------------------------------------------------------------
四、RPA工具
1.给定的流程自动化任务进行需求分析,对作业平台进行摸底测试
2.完善提供的业务场景实施技术方案的撰写,明确各项指标
使用pandas
3.流程自动化机器人设计器调用OCR组件的使用
识别验证码
4.流程自动化机器人设计器调用Exce1组件的使用
5.流程自动化机器人是机器实现指定信息系统自动登录,机器人安全验证的实现(AI+OpenCv)
6.流程自动化机器人设计器挖掘、分析、提取Excel关键数据
7.使用流程自动化机器人设计器设计指定信息系统自动填报和审批的作业流程设计
8.流程自动化机器人定时任务设置与自动化任务部,能成功运行,100%完成赛题要求任务
------------------------------------------------------------------------
五、RAG技术综合应用
1.通过管理平台搭建RAG作业引擎
2.RAG环境中搭载大语言模型,模型微调适配当前数据归档作业任务
3.设计并实施数据批量加载、自动清洗、数据智能分析、分词、归类等操作完成数据归档
4.构建问答引擎,完成指定问题的智能回答,并给出正确答案
5.通过Python对RAG引擎的调用生成数据分析报告