- 博客(36)
- 收藏
- 关注
原创 C++ onnxruntime多进程/多线程CPU推理时出现内存泄漏问题(memory leak)
压测的时候发现,进程的RSS内存一直在上升,就怀疑是onnxruntime导致的。因此,没加模型推理前,是不存在内存泄漏的。不知道,还没看出来。但估计可能是多线程/进程环境中mem会发送竞争吧。,可以解决内存泄漏的问题。后, 额外添加一个配置项。
2023-06-08 16:23:31
3457
5
原创 Transformers训练预处理datasets出现Socket Timeout
库(低版本不支持如下方式),并添加参数 --ddp_timeout 3600。ddp的时候默认等待时间是1800s, 如果超出这个时间程序就会退出。这里3600s只是demo,具体根据自身程序来设置。
2023-03-21 18:26:02
783
原创 PyTorch错误定位系列之DDP训练中 double free or corruption (out)
解决pytorch训练中DDP报 double free or corruption
2022-08-31 20:47:13
1539
原创 解决wsl2突然没有网络的问题
问题描述更新wsl2后发现,机器的网络就有问题了。具体体现为 启动后ifconfig内容是空的,但ip addr却有网卡,通过ifconfig eth0 up把显卡挂上也不行。解决方法问题出在从wsl1升级到wsl2,有一个参数被误配置了,就swap,wsl2类似虚拟机的存在,配了swap就要分配相应的磁盘,但是这里其实我并没有配置,所有导致一直没有网络,很淦。#进入到windows的用户目录%UserProfile%# 编辑.wslconfig文件#把内容改成如下[wsl2]memory
2022-05-14 14:35:51
5214
2
原创 如何管理和快速登录多台服务器(基于expect)
背景shell快速登录多个机器。平时需要经常切换多个机器,或者需要通过跳板机来回换登录机器。为了便于自己快速登录,和每次找机器,写了登录管理工具https://github.com/cgpeter96/shell/blob/main/login_remote.sh。依赖基于expect和shell编写,因此需要安装expect#rehat or centosyum install expect# debianapt install expect脚本说明每次有新机器的时候就复制下以下内
2022-04-27 19:43:48
417
原创 Onnxruntime Java loading的内存溢出&持续增长问题
Onnxruntime Java loading的内存溢出&持续增长问题背景业务服务内存持续增加,看了一大堆文章分析来分析去也搞明白。尝试用jstat,jmap gdb perf MAT等工具分析了jvm的情况,总结一句话堆内内存没问题。 问题出在了堆外内存上。又从github onnxruntime的issue上找到了问题所在 https://github.com/microsoft/onnxruntime/issues?q=memory+leak。问题原因OnnxTensor和Or
2022-02-16 15:35:11
2452
9
原创 linux服务器防止误删操作(重命名rm)
复制内容到自己的.bashrc下# Prevent accidental deletion #trash_home=/home/$USER/.trash/alias rm=del #删除alias rl='ls $trash_home' #陈列垃圾箱alias ur=undelfile # 恢复删除文件alias ct=cleantrash # 清空回收站alias RM='/bin/rm' #这个路径需要根据不同机器确定undelfile(){ mv -i $trash_hom
2021-12-30 18:23:04
822
原创 使用Openjdk8和maven时出错:java.security.InvalidAlgorithmParameterException
错误类型Maven: java.lang.RuntimeException: Unexpected error: java.security.InvalidAlgorithmParameterException: the trustAnchors parameter must be non-emptymvn clean package 报了以下的错误java.lang.RuntimeException: Unexpected error: java.security.InvalidAlgorithmP
2021-12-16 14:30:29
8187
7
原创 如何通过开发机连接远程机器开发(端口转发)
MobaXterm方式可以解决公司需要要用跳板机连接远程机器的问题打开mobaxterm->tools->MobaSSHtunnel就进入以下界面Forward Port 写本地没有被用过的端口,这里用的是10023SSH sever 写跳板机/开发机Remote sever 写远程机器点Save就可以了注意下Setting中要0.0.0.0, no代理,然后启动就可以了。本地可以 ssh -p 10023 xxxx@127.0.0.1 SSH端口转发格式:ssh -N -f
2021-10-27 20:10:17
761
原创 PyTorch错误定位系列之CUDA error: device-side assert triggered
PyTorch错误定位系列之CUDA error: device-side assert triggeredIntroduction本栏目只是提供一些自己遇到的错误的解决思路。Background我昨天写了个模型加了focal loss可以训练,今天换了一批数据,尼玛第二个epoch就报了上面标题这个错误。Solution经过本人,本菜鸡的大量调研(google),发现该错误可以总结为tensor溢出了或者下溢了。所以按着这个思路,我就尝试把我加的focal loss给去掉了,换成了正常的nn
2021-10-09 17:44:05
8186
5
原创 Bad owner or permissions on C:\\Users\\USER/.ssh/config on Windows
这里写自定义目录标题Bad owner or permissions on C:\\Users\\USER/.ssh/config问题描述解决方法Bad owner or permissions on C:\Users\USER/.ssh/config问题描述由于使用vscode远程连接服务器突然新增了C:\Users\USER/.ssh/config ,再powershell/cmd下面使用openssh(windows自带)连接服务器会出现Bad owner or permissions on C
2021-04-27 00:40:01
2160
原创 信息抽取之街道抽取
如何从文本信息抽取出道路信息问题从给定的语料中抽取出相应的道路信息。数据向塘北大道西50米天龙路与龙华路交叉口北50米观澜大道490号附近成都市锦江区海椒市街13号附7号玉兰西路团结北路23号湖塘镇火炬北路12号昆明市晋宁区庄跷西路28金水路合作路28-1号长公大道浙江显家门业阆中总代理旁安阳街道岭下东路4号楼万顷沙珠江街珠江东路169号中央大街万达广场a座一层a17梅亭路18号民生银行旁北京市四川西路输出向塘北大道西50米 -> 塘北大道北京市四川西路 -
2021-02-24 23:27:14
461
原创 Tensorflow2中Blas GEMM launch failed/CUBLAS_STATUS_NOT_INITIALIZED错误
Blas GEMM launch failed/CUBLAS_STATUS_NOT_INITIALIZED错误问题分析问题现象如图, 去tensorflow的issue区查看看了下问题,给出的解决方案大多数是说你应该重启下程序或者是确保其他程序没有占用gpu和设置gpu使用但是实际问题是出在了libcublas上,因为目前的libcublas与cuda10-1不匹配解决方法修改了libcublas到相应匹配版本即可重定向软连接后然后tensorflow的程序就可以正常运行了。总结问
2020-11-08 22:25:57
1091
原创 Elitebook 735 更换键盘
Elitebook 735 更换键盘起因按多了把了A键给按掉了,所以淘宝了买了新的键盘(略微有点点不适配,但可以用,就那样吧)教程记得关机拆开后盖拧掉螺丝切回键盘面,开始翘键盘卡扣具体看视频拆键盘视频拆开后可以发现上面有卡扣,所以需要向上掰(挑),目的就是把排线拆下来就行。更换开机测试下继续工作致谢感谢Elitebook735/745交流群的小伙伴们,有735-R7-萌新和735-R5-Johnny感谢自己心灵手巧...
2020-10-11 01:39:09
1270
原创 pycharm配置服务器远程开发
文章目录pycharm配置服务器远程开发背景配置远程开发安装pycharm创建项目同步代码pycharm配置服务器远程开发背景就是突然想用pycharm在服务器做开发,但有时候配置完就忘记了,又得去找相关文章,所以就不如自己写一篇配置远程开发废话不多说,开始!!1安装pycharm具体就不说了创建项目这里需要注意下哦,我已经在服务器装好了anaconda,所以就直接用了。existing interpreter选择服务器上自己的python环境。创建完成,我们来到这里。在工具栏选
2020-07-12 00:00:46
595
原创 PyTorch错误收集与解决方法
PyTorch错误收集与解决方法文章目录PyTorch错误收集与解决方法RNN的初始状态在多GPU训练报错RuntimeError: module must have its parameters and buffers on device cuda:0 (device_ids[0]) but found one of them on device: cpuRNN module weights are not part of single contiguous chunk of memoryRuntime
2020-05-28 01:27:55
10243
1
原创 实现两台linux服务器互相传递ip
实现两台linux服务器互相传递ip背景实验室机器经常重启之后会变ip, 然后自己又不想固定ip,所以期望能够再机器重启后立马就能知道机器的ip实现#!/bin/bash# 功能:两台服务器来回传递ip,防止一台机器重启后,ip不知道了# 1. 设置remote_user/ip, 目标主机地址# 2. 设置device,当前机器网卡名# 3. 设置ssh免密登录 ,ssh-copy-id user@host# 4. 加入crontab 定时启动# */1 * * * * /bin/
2020-05-21 19:13:56
872
原创 topk问题解决思路
topk问题解决方法顾名思义,topk问题就是求解最大或者最小k个数字的一类问题常见的解决思路是先排序,然后取依次取k个,最大堆/最小堆,排序法思路:先进行排序然后依次取k个,本次讲都是取topk大def q_sort(ary, left, right): if left<=right: ary[right],ary[left] = ary[lef...
2020-03-15 21:03:50
478
原创 记一次心惊动破的抢救Linux(manjaro)电脑桌面
记一次心惊动破的抢救电脑桌面系统是manjaro,修复manjaro系统桌面起因是不小心把所有的lightdm-deepin-greeter都删掉了 导致桌面进不去,因此必须要通过终端进行配置,需要重装一个greeter1.进入终端这里有两种方法进入卡住的节目按ctrl+alt+f2(这里桌面其实是启动了,就是有问题所以进不去)修改grub 在linux那一行添加 linux s...
2019-09-23 12:42:00
1559
原创 Manjaro deepin 睡眠后无法唤醒
最近尝试换了新的桌面(之前是xfce),使用deepin感觉很棒,也很好看,但是遇到下面一个问题问题因为我是双系统,因此经常会来回切win/linux,但是发现换了deepin桌面后睡眠无法使用了,经常一睡就凉咯(无法唤醒),经过查找问题,发现因该是交换区没有指定好的缘故。解决方法首先使用swapon查看交换分区的位置$ swaponNAME TYPE ...
2019-08-22 17:54:20
11581
5
原创 fswebcam一次拍摄多张图片(存在问题)
初衷由于树莓派上使用python-v4l2capture有问题,因此想了个中间办法使用fswebcam一次连续拍摄多张图片 fswebcam --no-banner -d /dev/video0 -r 1920x1080 -F 15 --save {1..15}.jpg ...
2019-03-21 10:30:48
2360
10
原创 ubuntu18断电后recovering journal一直卡在开机界面
事故机器:elitebook735系统:ubuntu18内核:4.20发生原因:没电关机了(还是保持电量充足比较好)开机的时候回显示xxx recovering journal/dev/磁盘 clean xxxxx修复方法:关闭电脑,再打开电脑进入grub(我是双系统,单系统好像得开机长按shift)找到ubuntu(高级选项),再找到 recovery mode 按e找...
2019-03-10 00:14:36
28847
1
原创 海思3559A移植opencv3.4.1
第一步下载opencv3.4.1这里就不累述了cd opencv-3.4.1mkdir build_armmkdir ouput3.改写cmakecmake -D CMAKE_BUILD_TYPE=RELEASE \ -D CMAKE_C_COMPILER=aarch64-himix100-linux-gcc \ ...
2019-02-26 12:46:25
2140
3
原创 win10安装pycocotools遇到的问题(gcc.exe failed with exit status 1)
背景安装pycocotools一直过不去,一直报错PS C:\Users\peter&amp;gt; pip install git+https://github.com/philferriere/cocoapi.git#subdirectory=PythonAPICollecting git+https://github.com/philferriere/cocoapi.git#subdire...
2019-02-25 23:50:06
14256
11
原创 Elitebook735安装ubuntu18
采坑记由于工作需要没办法需要linux,因此打算装个双系统elitebook735相关信息固件1.04第一步:制作启动盘忽略,参考其他教程第二步:关闭secure boot嗯,大家应该可以找到第三步:插入启动盘,从启动盘启动如果不做任何处理会导致进入不去(就选择try ubuntu without install就会变成紫色了)方法1:修改启动盘中 boot目录下的g...
2019-01-05 16:50:18
1302
2
原创 Elitebook735 没有插入键解决方法
最近刚入手了hp的elitebook735但是遇到一个问题,没有insert按钮,参考了一下惠普官方论坛的一些思路,经过自己尝试发现, fn+m 就是insert键
2018-08-11 22:47:42
5078
翻译 通过构建一个区块链来学习区块链(Learn Blockchains by Building One)
通过构建一个区块链来学习区块链最快的学习区块链的方法就是学习怎么构建区块链 你在这里的原因可能和我一样,对 加密数字货币(Cryptocurrencies) 非常感兴趣。并且你想要知道 区块链(Blockchains) 是怎么工作的—它们背后的技术但是理解区块链不是那么简单—-或者不适合我。我在浩瀚的视频里找寻,在满目疮痍的指南里追随,还被几个破例子所挫败我喜欢通过做来学习。这能...
2018-08-09 16:41:51
1459
3
原创 PyTorch使用cpu调用gpu训练的模型
最近遇到一个问题,发下gpu训练的模型在cpu下不能跑,很难受。 结果发现原来是自己使用了DataParallel的问题,我保存的是整个模型。model=DataParalle(model)torch.save('xx.pkl',model)然后把模型copy到自己电脑上用cpu跑model=torch.load('xx.pkl')#此处报错了。。。。 原因是cp...
2018-08-09 16:38:07
31244
2
原创 信息科学原理第一章(香农熵,条件熵,相对熵)
@(信息科学原理)导论香农熵联合熵互信息条件熵相对熵(KL-散度)交叉熵边缘概率,条件概率,联合概率- 条件概率计算的是P(y|x)=P(x,y)P(x)P(y|x)=P(x,y)P(x)P(y|x)=\frac{P(x,y)}{P(x)}example导论香农熵 信息:h(x)=−logp(x)h(x)=−logp(x)h(x...
2018-08-04 13:49:30
877
原创 Logistic Regression对J(θ)和sigmoid的求导
Logistic Regression中对loss function的求导的详细过程
2017-11-18 22:24:03
1218
5
原创 阿里巴巴2017实习生招聘数据研发工程师编程题2(字符串处理)
问题背景:小明是我司的一名优秀数据研发,每天他要处理着上千亿的数据。然而他的老板今天又给了他新的任务,要通过自然语言学习的方法,去挖掘数据中的更多价值,于是小明踏上了NLP的学习之路。小明翻阅了很多书籍,初步的了解了一些NLP的算法,它们有一个共同的步骤,是要做分词,然后做词频统计。现在小明已经通过一些算法,得到了一个分好词的词典,然后对于一篇给定的文章,他想知道,他得到的词典
2017-04-27 14:09:48
1059
原创 迷茫
读了两年的软件工程,迷茫始终伴随着自己的前行道路。我想吃计算机这碗饭,我又不想吃太久。这个问题我都感觉很吃屎。大一刚开始,学的是C语音。老师就是按着书本的知识给你讲,数据类型,函数,控制语句,数组,指针,文件。讲完之后,这些东西还是这些东西,感觉很难用这些做一个项目。我们当时C语音,感觉更像是为了通过这门课而开的,大家也是为了过二级C而学的,感觉真的很可笑。大一下学期,学了Java,这时我才感觉计
2016-05-02 18:16:10
244
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人