数据转换服务-文本抽出技术

DMCTextFilter是一款由北京市红樱枫软件有限公司自主研发的支持多平台、多线程、多语言的通用文本抽取程序库。它能从多种格式的文件中抽取纯文本数据,并支持包括中文简体/繁体、英文、日文、韩文等多种文字集合。

利用我公司自主开发的数据格式转换产品,面向社会各界,提供数据转换技术服务。根据用户的需求,将用户提供的原始数据文件转换为用户所需的数据文件格式。本公司向广大用户承诺,数据格式转换结果满足用户的需求,收费价格合理。为用户提供质量优良的技术服务。

 

    DMC Text Filter是北京市红樱枫软件有限公司自主独立开发完成的,支持多平台、多线程、多语言的通用文本抽出程序库。利用该程序库可以从数十种数据文件格式中,将纯文本数据进行抽出。

  (1)原数据文件的语言
    中国语(简体/繁体),英语,日本语及韩国语。

  (2)文本抽出时可以指定以下的文字集合
    ★中文简体(GB2312、GB18030、GBK)
    ★中文繁体(Big5)
    ★日文(Jis、Shift_Jis、EUC_JP、EUC_JP_Fix、ISO2022_JP、Window31J)
    ★韩文(KoreanKSC)
    ★西文(ISO8859-1~15)
    ★Unicode(UTF8、UTF16、UCS4、UCS8)

  (3)原数据文件格式的种类
    ·Microsoft Word95/97/98/2000/2003/XP
    ·Microsoft Excel95/97/2000/2003/XP
    ·Microsoft PowerPoint95/97/2000/2003/XP
    ·Adobe PDF 1.2/1.3/1.4/1.5
    ·Adobe PageMaker 6.0/6.5
    ·Microsoft RTF
    ·Lotus 1-2-3 R5/97/98/2000
    ·Works 2000 WP/DB/SS
    ·一太郎 7/8/9/10/11/12/13
    ·OASYS V3/V4/V5/V6/V7/V8 OA2
    ·ClarisWorks 4.0
    ·AppleWorks 6
    ·WordPerfect Office 2000(仅限于WordPerfect 8/9 )
    ·Corel Presentations 9(Slide show 7/8/9)
    ·QuarkXPress 3.3/4
    ·AutoCAD R13/LT95/ R14/LT97 DXF
    ·AutoCAD 2000/2002
    ·DocuWorks Ver.4/5
    ·HTML
    ·XML

  (4)文本抽出时可以指定以下的功能
    ★从指定的文件或嵌在文件中的OLE对象中抽出文本数据。
    ★从指定的文件中,将文件的属性信息进行抽出。
    ★从指定的文件中,抽出指定页中的文本数据。
    ★从设定了安全保护的PDF文件中抽出文本数据。

一、数据采集层:多源人脸数据获取 该层负责从不同设备 / 渠道采集人脸原始数据,为后续模型训练与识别提供基础样本,核心功能包括: 1. 多设备适配采集 实时摄像头采集: 调用计算机内置摄像头(或外接 USB 摄像头),通过OpenCV的VideoCapture接口实时捕获视频流,支持手动触发 “拍照”(按指定快捷键如Space)或自动定时采集(如每 2 秒采集 1 张),采集时自动框选人脸区域(通过Haar级联分类器初步定位),确保样本聚焦人脸。 支持采集参数配置:可设置采集分辨率(如 640×480、1280×720)、图像格式(JPG/PNG)、单用户采集数量(如默认采集 20 张,确保样本多样性),采集过程中实时显示 “已采集数量 / 目标数量”,避免样本不足。 本地图像 / 视频导入: 支持批量导入本地人脸图像文件(支持 JPG、PNG、BMP 格式),自动过滤非图像文件;导入视频文件(MP4、AVI 格式)时,可按 “固定帧间隔”(如每 10 帧提取 1 张图像)或 “手动选择帧” 提取人脸样本,适用于无实时摄像头场景。 数据集对接: 支持接入公开人脸数据集(如 LFW、ORL),通过预设脚本自动读取数据集目录结构(按 “用户 ID - 样本图像” 分类),快速构建训练样本库,无需手动采集,降低系统开发与测试成本。 2. 采集过程辅助功能 人脸有效性校验:采集时通过OpenCV的Haar级联分类器(或MTCNN轻量级模型)实时检测图像中是否包含人脸,若未检测到人脸(如遮挡、侧脸角度过大),则弹窗提示 “未识别到人脸,请调整姿态”,避免无效样本存入。 样本标签管理:采集时需为每个样本绑定 “用户标签”(如姓名、ID 号),支持手动输入标签或从 Excel 名单批量导入标签(按 “标签 - 采集数量” 对应),采集完成后自动按 “标签 - 序号” 命名文件(如 “张三
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值