- 博客(13)
- 问答 (1)
- 收藏
- 关注
原创 藏文字符的排序算法
摘要:本文开发了基于Python的藏文字符的排序工具,针对藏文独特的非线性组合结构(包含基字、上加字等7个层级)实现了科学的字典排序算法。工具集成了快速排序、堆排序等四种经典算法,支持升/降序排列,具有进度可视化、结果导出等功能。通过分析《藏汉大辞典》等权威词典,建立了分层循环的排序规则:以基字为核心,按构件优先级(基字→上加字→...→再后加字)逐层比较。
2025-08-17 17:40:06
909
原创 藏字构件的动态统计分析算法
本文介绍了一个基于多文件藏文语料库的动态分析工具,可统计藏文构件在连续文本中的频率分布。系统支持90个藏文特殊符号作为音节分隔符,具备多文件批量处理、实时进度显示和详细统计功能。提供可视化界面,支持多种主题切换,并能导出分析结果。
2025-08-16 15:06:40
962
原创 藏文字体预览工具
该工具提供全面的藏文排版解决方案,支持TTF/OTF字体上传与多字体切换预览,内置12种动画效果及六向渐变调色系统。用户可精细调节字号(12-72px)、行距(1.0-2.5倍)和字距(-2px-10px),实时预览修改效果。支持纯色/渐变双色模式,导出PNG/SVG格式文件,配置可保存为JSON。技术栈采用HTML5/CSS3/ES6+,配合Canvas/SVG实现图形处理,通过PythonHTTP服务器快速部署。项目结构清晰,含字体存储目录和核心前端文件,v1.0版本已实现基础功能与界面优化。
2025-08-14 22:09:34
702
原创 DeepSeek-OCR 本地部署:多模态藏文文档图像检测识别
DeepSeek-OCR是一款基于深度学习的多模态文字识别系统,整合了CV、NLP和大模型技术,创新性地提出"光学压缩"概念,将文本转化为视觉token,显著提升长文本处理效率。该模型能够快速处理图片和PDF文档,可在十几秒内完成多页PDF的精准识别,兼具学术创新与工程实用价值,适合各类OCR应用场景。
2025-10-26 22:25:04
987
原创 藏文OCR数据合成工具
本项目是专为藏文OCR任务定制的文本图像生成工具,基于SynthTIGER框架深度优化。主要特点包括:1)专为藏文字符结构和基线对齐特性设计的优化配置;2)集成80款藏文字体,覆盖印刷体、简体和手写风格;3)支持背景纹理、噪声干扰等智能增强功能,适用于藏文文本识别领域。
2025-09-23 17:56:40
793
原创 基于 Tesseract.js 的藏文文字识别系统
基于Tesseract.js开发的藏文OCR识别库,支持浏览器和Node.js双平台。支持多格式图片/PDF识别、离线多线程处理、结果导出等。项目采用WebAssembly优化性能,通过Worker实现异步处理,v6版本解决了内存泄漏问题。提供模块化API和丰富示例,支持藏文文本精准提取(如测试图片中的政府文件、书籍内容等场景)。开发者可快速集成到Web或服务端应用,满足藏语数字化处理需求。
2025-08-30 12:33:25
1032
原创 藏文词云生成器 (Tibetan Word Cloud Generator)
《藏文智能词云生成工具》是一款专为藏文设计的可视化工具,支持多字体、多形状、多色彩自定义配置。核心技术采用botok分词和D3.js可视化引擎,提供SVG/PNG高清导出、10种图形模板及4款预置字体。功能包括实时交互渲染、拖放文件上传、API接口开发,支持Python环境部署和Docker容器化。项目采用Flask框架,具备响应式布局,兼容主流浏览器,适用于学术研究、文化传播等场景。通过模块化结构设计,支持开发者扩展新字体、形状和配色方案。
2025-08-26 16:35:25
999
原创 藏文与拉丁字符互转算法
本文介绍了藏文与拉丁文双向转写的算法实现。基于藏文拼音文字特性,采用Wylie转写方案实现30个辅音字母和4个元音符号的可逆转换。系统支持Unicode 10.0收录的211个藏文字符处理,整理了90个分隔符号用于音节切分。核心功能包括双向转换、批量处理、文件导入导出等,采用Python开发,界面简洁美观。用户可通过命令行或脚本启动,支持单文件或文件夹批量处理,转换结果实时显示并支持保存。
2025-08-22 12:15:25
996
原创 基于Bi-LSTM+CRF方法的藏文分词工具
摘要:该项目是由西藏大学和东北大学联合开发的藏文分词系统,基于Bi-LSTM和CRF模型,特别优化了未登录词识别。系统提供命令行和图形界面双模式,支持文本输入和文件批量处理,操作简便。安装需创建Python3.8虚拟环境并安装相关依赖,通过启动脚本或直接运行程序文件使用。研究成果需引用指定论文。系统结构清晰,包含模型、界面和资源目录,为藏文信息处理研究提供实用工具。
2025-08-19 16:46:04
934
原创 藏文字符构件识别算法
本文介绍了一个基于Python开发的藏文构件识别系统。该系统采用正则表达式和规则匹配两种算法,能够自动分析藏文字符的组成结构,包括前加字、上加字、基字等下加字等构件。系统支持1-7个构件的藏字识别,兼容多种编码格式,提供图形界面和命令行两种操作方式,并可将结果导出为CSV或JSON格式。研究基于18,785个藏字样本,按照现代藏文48种结构类型进行分类处理,为藏文信息处理技术发展提供了基础工具。项目已在GitHub开源,包含详细的使用说明和安装指南。
2022-06-04 18:10:18
4383
5
原创 藏文构字原理与算法实现
藏文字符是拼音性文字,现代藏字由30个辅音字母和4个元音符号(简称为元音)拼写组合而成,既可以前后书写,还可以上下叠加,构成二维的平面文字。现代藏字均以一个称为“基字”的辅音字母为核心,其前后添加和上下叠加,组成一个完整的字符结构。
2022-04-17 16:41:33
8765
3
原创 python爬虫里下载压缩文件后缀为(.rar),怎样下载文件才不会损坏
红色标注的地方是问题的描述。是从文件链接里下载后缀为(.rar)的压缩文件,我是从链接里取最后的(.rar)字符集,然后写到保存的文件夹里,下载完了以后所有文件都是损坏的。 import requestsfrom lxml import etreeimport os.pathdef wenjian(): if not os.path.exists('./简历模板'): os.mkdir('./简历模板')def jianli(url): heade...
2021-09-14 10:54:40
2896
11
空空如也
请问python这个错误怎么解决
2021-08-10
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅