PemaWangchuk-优快云博客

原创藏文字符的排序算法

摘要：本文开发了基于Python的藏文字符的排序工具，针对藏文独特的非线性组合结构（包含基字、上加字等7个层级）实现了科学的字典排序算法。工具集成了快速排序、堆排序等四种经典算法，支持升/降序排列，具有进度可视化、结果导出等功能。通过分析《藏汉大辞典》等权威词典，建立了分层循环的排序规则：以基字为核心，按构件优先级（基字→上加字→...→再后加字）逐层比较。

2025-08-17 17:40:06 909

原创藏字构件的动态统计分析算法

本文介绍了一个基于多文件藏文语料库的动态分析工具，可统计藏文构件在连续文本中的频率分布。系统支持90个藏文特殊符号作为音节分隔符，具备多文件批量处理、实时进度显示和详细统计功能。提供可视化界面，支持多种主题切换，并能导出分析结果。

2025-08-16 15:06:40 962

该工具提供全面的藏文排版解决方案，支持TTF/OTF字体上传与多字体切换预览，内置12种动画效果及六向渐变调色系统。用户可精细调节字号（12-72px）、行距（1.0-2.5倍）和字距（-2px-10px），实时预览修改效果。支持纯色/渐变双色模式，导出PNG/SVG格式文件，配置可保存为JSON。技术栈采用HTML5/CSS3/ES6+，配合Canvas/SVG实现图形处理，通过PythonHTTP服务器快速部署。项目结构清晰，含字体存储目录和核心前端文件，v1.0版本已实现基础功能与界面优化。

2025-08-14 22:09:34 702

原创 DeepSeek-OCR 本地部署：多模态藏文文档图像检测识别

DeepSeek-OCR是一款基于深度学习的多模态文字识别系统，整合了CV、NLP和大模型技术，创新性地提出"光学压缩"概念，将文本转化为视觉token，显著提升长文本处理效率。该模型能够快速处理图片和PDF文档，可在十几秒内完成多页PDF的精准识别，兼具学术创新与工程实用价值，适合各类OCR应用场景。

2025-10-26 22:25:04 987

原创藏文OCR数据合成工具

本项目是专为藏文OCR任务定制的文本图像生成工具，基于SynthTIGER框架深度优化。主要特点包括：1）专为藏文字符结构和基线对齐特性设计的优化配置；2）集成80款藏文字体，覆盖印刷体、简体和手写风格；3）支持背景纹理、噪声干扰等智能增强功能，适用于藏文文本识别领域。

2025-09-23 17:56:40 793

原创基于 Tesseract.js 的藏文文字识别系统

基于Tesseract.js开发的藏文OCR识别库，支持浏览器和Node.js双平台。支持多格式图片/PDF识别、离线多线程处理、结果导出等。项目采用WebAssembly优化性能，通过Worker实现异步处理，v6版本解决了内存泄漏问题。提供模块化API和丰富示例，支持藏文文本精准提取（如测试图片中的政府文件、书籍内容等场景）。开发者可快速集成到Web或服务端应用，满足藏语数字化处理需求。

2025-08-30 12:33:25 1032

原创藏文词云生成器 (Tibetan Word Cloud Generator)

《藏文智能词云生成工具》是一款专为藏文设计的可视化工具，支持多字体、多形状、多色彩自定义配置。核心技术采用botok分词和D3.js可视化引擎，提供SVG/PNG高清导出、10种图形模板及4款预置字体。功能包括实时交互渲染、拖放文件上传、API接口开发，支持Python环境部署和Docker容器化。项目采用Flask框架，具备响应式布局，兼容主流浏览器，适用于学术研究、文化传播等场景。通过模块化结构设计，支持开发者扩展新字体、形状和配色方案。

2025-08-26 16:35:25 999

原创藏文与拉丁字符互转算法

本文介绍了藏文与拉丁文双向转写的算法实现。基于藏文拼音文字特性，采用Wylie转写方案实现30个辅音字母和4个元音符号的可逆转换。系统支持Unicode 10.0收录的211个藏文字符处理，整理了90个分隔符号用于音节切分。核心功能包括双向转换、批量处理、文件导入导出等，采用Python开发，界面简洁美观。用户可通过命令行或脚本启动，支持单文件或文件夹批量处理，转换结果实时显示并支持保存。

2025-08-22 12:15:25 996

原创基于Bi-LSTM+CRF方法的藏文分词工具

摘要：该项目是由西藏大学和东北大学联合开发的藏文分词系统，基于Bi-LSTM和CRF模型，特别优化了未登录词识别。系统提供命令行和图形界面双模式，支持文本输入和文件批量处理，操作简便。安装需创建Python3.8虚拟环境并安装相关依赖，通过启动脚本或直接运行程序文件使用。研究成果需引用指定论文。系统结构清晰，包含模型、界面和资源目录，为藏文信息处理研究提供实用工具。

2025-08-19 16:46:04 934

原创藏文字符构件识别算法

本文介绍了一个基于Python开发的藏文构件识别系统。该系统采用正则表达式和规则匹配两种算法，能够自动分析藏文字符的组成结构，包括前加字、上加字、基字等下加字等构件。系统支持1-7个构件的藏字识别，兼容多种编码格式，提供图形界面和命令行两种操作方式，并可将结果导出为CSV或JSON格式。研究基于18,785个藏字样本，按照现代藏文48种结构类型进行分类处理，为藏文信息处理技术发展提供了基础工具。项目已在GitHub开源，包含详细的使用说明和安装指南。

2022-06-04 18:10:18 4383 5

原创藏文构字原理与算法实现

藏文字符是拼音性文字，现代藏字由30个辅音字母和4个元音符号（简称为元音）拼写组合而成，既可以前后书写，还可以上下叠加，构成二维的平面文字。现代藏字均以一个称为“基字”的辅音字母为核心，其前后添加和上下叠加，组成一个完整的字符结构。

2022-04-17 16:41:33 8765 3

原创藏文字符的输出

根据藏文Unicode编码，通过程序输出藏文字符。

2022-04-07 12:22:26 4984 2

原创 python爬虫里下载压缩文件后缀为(.rar)，怎样下载文件才不会损坏

红色标注的地方是问题的描述。是从文件链接里下载后缀为(.rar)的压缩文件，我是从链接里取最后的（.rar）字符集，然后写到保存的文件夹里，下载完了以后所有文件都是损坏的。 import requestsfrom lxml import etreeimport os.pathdef wenjian(): if not os.path.exists('./简历模板'): os.mkdir('./简历模板')def jianli(url): heade...

2021-09-14 10:54:40 2896 11

qq_41139540的博客