- 博客(6)
- 收藏
- 关注
原创 大模型 Token 预测实践
在语言模型中,模型并不是直接处理“文字”或“句子”,而是处理Token—— 一种由分词器根据特定规则切分出来的子词单元。例如:“ChatGPT” 可能被视为 1 个 token;“你好世界” 则可能被拆分为多个 token。不同模型(如 GPT、Qwen、DeepSeek、Hunyuan 等)都有各自的分词方式。因此,当我们输入一段文本时,需要先使用相应模型的Tokenizer将文字转化为 token,再由模型进行推理。而Token 预测的目标,就是在调用模型之前,
2025-10-21 15:02:39
318
原创 gRPC 与 OkHttp 流式传输对比
项目gRPC (默认)OkHttp是否异步✅ 是❌ 否背压默认启用❌ 否✅ 是主要内存类型Heap内存爆炸风险高(无背压)低(阻塞写)适合场景高并发 RPC文件上传、流式请求gRPC 的高性能来自异步与直接内存,但性能的代价是必须显式实现“背压”;OkHttp 的性能略低,但由于阻塞式写入天然具备背压,因而更安全稳定。靠阻塞实现背压,安全但略慢。靠协议支持背压,高效但需显式控制。在长时间流式传输(例如 GPU 镜像上传、模型文件推送)等场景中,
2025-10-13 17:23:40
454
原创 记一次 gRPC 流式上传导致的 OutOfDirectMemoryError
让生产速度适应消费速度监控内存 → 检测压力 → 调整速度 → 释放内存↑ ↓反馈循环通过实现自适应背压控制机制,我们成功将 gRPC 流式上传的直接内存占用从30+ MB 降低到 10-20 MB,同时保持了稳定的传输性能。🎯减小 chunk 大小:降低单次内存占用🎯限制并发数:减少内存积压🎯实时监控:及时发现内存压力🎯动态调整:根据内存情况自适应调速🎯主动回收:在危险时刻强制 GC这不仅解决了内存问题,还提高了系统的稳定性和可维护性。
2025-10-12 00:51:07
308
原创 Vosk 中文语音识别中的 JNA 编码问题及解决方案
在使用 Vosk 进行中文语音识别时,遇到了一个令人困惑的问题:同样的代码在不同的运行环境下会产生不同的识别结果。更奇怪的是,英文语音识别完全正常,只有中文识别会出现这种情况。Vosk 是基于 C++ 的 native 库,通过 JNA 与 Java 进行交互。这个看似正常的代码在不同环境下会产生不同的结果。2. 程序运行指定系统变量。
2025-06-30 02:14:47
743
原创 背包问题(1):关于零一背包问题的个人理解
主要解题思路:与上一题相似,stone[i] 抽象成重量价值相统一的物品集,难点在于找出target值,根据题意,所要求的是碰撞后剩下的石头重量,可以将石头堆尽可能分为重量相等的两堆,即target = sum / 2;将问题转化成单纯的经典的零一背包问题:有一个物品集为stone ,求在最大容量target的情况下,求背包中的物品最大价值。(最后返回:sum - 2 * dp[target])。
2023-04-21 23:29:38
1469
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅