- 博客(59)
- 资源 (1)
- 收藏
- 关注
原创 undefined symbol: __nvJitLinkComplete_12_4, version libnvJitLink.so.12
ImportError: /opt/conda/lib/python3.10/site-packages/torch/lib/../../nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4, version libnvJitLink.so.12
2025-02-11 11:23:22
722
原创 基础问题-汇总
虽然在训练期间 Dropout 会随机丢弃部分神经元,但模型的权重并不会因为 Dropout 的启用或禁用而发生变化。框架通常会在训练时对激活值进行缩放(例如,乘以保留概率),以确保在评估时直接使用全网络时,激活值的期望值保持一致。Dropout是一种常用的正则化技术,它通过在每次前向传播时随机“丢弃”(即将输出设置为0)一部分神经元来减少过拟合。这样做的目的是迫使网络学习到更鲁固的特征表示,而不是过分依赖于特定的神经元组合。
2025-01-02 13:06:01
155
原创 Deformable CNN 和 Deformable Attention
论文地址:Deformable Convolutional Networks针对视觉任务中,如何根据物体的尺寸、位置、视角等来调整模型的几何变化,一般传统做法有:1)通过数据增强等方式,增加训练数据的多样性2)使用transformation-invariant的特征和算法,比如TI-pooling (transformation-invariant pooling)和SIFT(scale invariant feature transform)但这些方法有一些缺点:比如1)需要假设几何
2022-02-17 15:12:45
5073
原创 Pooling
RoI pooling感兴趣区域池化(Region of interest pooling)是使用卷积神经网络在目标检测任务中广泛使用的操作。其目的是对非均匀尺寸的输入执行最大池化以获得固定尺寸的特征图。对于来自输入列表的每个感兴趣区域,它采用与其对应的输入特征图的一部分并将其缩放到某个预定义的大小(例如,7×7): 将区域提案划分为相等大小的部分(其数量与输出的维度相同) 找到每个部分的最大值 将这些最大值复制到输出(max pooling) ...
2022-02-17 14:37:06
518
原创 xgboost为啥使用二阶泰勒展开?
1. 直接理解一阶导指引梯度方向,二阶导指引梯度方向如何变化,所以二阶信息本身就能让梯度收敛更快更准确。这里可以对比牛顿法和SGD。牛顿法是二阶收敛,梯度下降是一阶收敛,当初始点选取合理的情况下,牛顿法比梯度下降法收敛的速度快。通俗的讲,比如你想找一条最短的路径走到一个盆地的最底部,梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步,牛顿法在选择方向时,不仅会考虑坡度是否够大,还会考虑你走了一步之后,坡度是否会变得更大。所以,可以说牛顿法比梯度下降法看得更远一点,能更快地走到最底部。(牛顿法目光
2021-09-13 14:17:58
3690
转载 分类树vs回归树
参考分类树就是面向分类的,每个决策树最末端的叶子结点出来的是一个分类标签;回归树就是面向回归的,回归就是拟合函数一样,输出连续值1.分类树的最后一层叶子结点后才是分类标签,其他时候的节点都不是,可以认为是某个特征属性。2.回归树的所有节点可以理解为都是一个东西,就是待回归属性,比如温度,最后的回归值是把树走完走到最后一个节点的值。...
2021-05-25 17:19:35
3163
转载 线程池的作用
https://zhuanlan.zhihu.com/p/259624983线程池 Thread Pool线程池是一种池化的技术,类似的还有数据库连接池、HTTP 连接池等等。池化的思想主要是为了减少每次获取和结束资源的消耗,提高对资源的利用率。比如在一些偏远地区打水不方便的,大家会每段时间把水打过来存在池子里,这样平时用的时候就直接来取就好了。线程池同理,正是因为每次创建、销毁线程需要占用太多系统资源,所以我们建这么一个池子来统一管理线程。用的时候从池子里拿,不用了就放回来,也不用你销.
2021-05-17 22:53:11
143
转载 缓存类设计
https://blog.youkuaiyun.com/ybn6775/article/details/80865425FIFO缓存策略:首先缓存两个基本的特点, 一个是缓存空间有限, 另一个是数据过期,缓存空间有限就需要我们对有限的控件进行利用,数据的置换策略非常重要,基本的置换策略有FIFO、LRU、LFU,其中FIFO最为简单,其基本假设就是最近被加载进来的数据下次使用到的可能性大于之前被加载进来的数据,对于符合这种假设的场景较为适用。其python代码如下: class FI...
2021-05-17 22:41:32
141
原创 python 取括号内容
去除括号内容pat = re.compile('\(.*?\)’)print pat.sub("", s, 1)取括号内容print re.findall('\((.*?)\)', s)[0]
2021-04-12 15:33:02
756
原创 python编码问题
1.>>> print "\u751F\u5316\u5371\u673A".encode('utf-8').decode('unicode_escape')>>> print "\u751F\u5316\u5371\u673A".encode('utf-8')>>> a =u"生化危机”>>> print a>>> print a.encode('utf-8’)2. py...
2021-04-12 15:30:03
157
原创 高德poi爬虫
1. 点位周边搜索https://gaode.com/service/poiInfo?query_type=RQBXY&pagesize=20&pagenum=1&qii=true&cluster_state=5&need_utd=true&utd_sceneid=1000&div=PC1000&addr_poi_merge=true&is_classify=true&zoom=14&longitude=116.50
2021-04-12 15:28:17
474
转载 Django
Django已经成为web开发者的首选框架,是一个遵循 MVC 设计模式的框架。MVC是Model、View、Controller三个单词的简写,分别代表模型、视图、控制器。Django其实也是一个MTV 的设计模式。MTV是Model、Template、View三个单词的简写,分别代表模型、模版、视图。https://www.cnblogs.com/feixuelove1009/p/5823135.html...
2021-04-11 22:43:29
140
原创 GIS坐标系
http://cnodejs.org/topic/564c0a27e4766d487f6fe38d地球坐标 (WGS84):国外使用,比如谷歌地图火星坐标 (GCJ-02)(也叫国测局坐标系):国内大部分地图使用,比如高德地图百度坐标 (BD-09):百度地图使用//中国经纬度的范围(火星坐标)double minLatitude = 3.86;double maxLatitude = 53.55;double minLongitude = 73.66;double m.
2021-04-11 22:40:06
238
原创 中文繁简转换
1.https://segmentfault.com/a/1190000005089690Open Chinese Convert(OpenCC)是一個中文簡繁轉換開源項目,提供高質量的簡繁轉換詞庫和可供調用的函數庫(libopencc)。還提供命令行簡繁轉換工具,人工校對工具,詞典生成程序,以及圖形用戶界面。brew install opencc将繁体转为简体的命令如下:opencc -i wiki_zh.text -o wiki_zhs.text -c zht2zhs_config.j.
2021-04-11 22:37:42
379
原创 换行符
换行符:windows:’\r\n’mac: ‘\r’Linux: ‘\n’转换方式:Windows->Linux : sed -i 's/\r$//' file.txtWindows->Mac : cat old.txt | tr -d "\n" > new.txtMac->Windows : cat old.txt | tr "\r" "\n" | sed 's/$/\r/' > new.txtMac->Linux : ca..
2021-04-11 22:35:31
170
原创 candidate sampling
Sampled SoftmaxHierarchical softmaxNegative SamplingNoise Contrastive Estimation(NCE)Info-NCE
2021-04-11 22:30:42
125
原创 负对数似然 交叉熵 mse mae的区别
交叉熵的介绍见https://blog.youkuaiyun.com/jzwei023/article/details/115496906?spm=1001.2014.3001.5501交叉熵 vs 二阶Loss函数逻辑回归一些简单的网络中,我们会使用MSE(均方误差mean-square error)这样的二阶Loss函数。然而二阶loss函数,会存在一个问题。ANN被设计的一个最大优势在于可以根据误差进行学习来调整参数。误差越大,则希望调整的幅度越大,从而收敛速度越快。而二阶loss函数则有可能误差越大
2021-04-11 22:22:33
1255
原创 tensorflow安装-Mac
conda create -n tensorflow112_2 python=2.7source activate tensorflow112_2pip install tensorflow==1.12 (tensorflow-1.12.0-cp27-cp27m-macosx_10_11_x86_64.whl)
2021-04-11 22:03:16
301
原创 pytorch安装
先安装pytorch3环境: conda create -n pytorch3 python=3.6然后针对pytorch3安装:conda install -n pytorch3 pytorch torchvision如果官网下载安装比较慢,使用清华镜像:https://blog.youkuaiyun.com/xo3ylAF9kGs/article/details/104104041/...
2021-04-11 22:01:50
90
原创 查看python、numpy、tensorflow版本和路径
1、查看python版本方法一: python -V 注意:‘-V‘中‘V’为大写字母,只有一个‘-’方法二: python --version 注意:‘--version'中有两个‘-’2、查看python安装位置方法一: python -c "import sys; print sys.executable"方法二: python -c "import os; print os.sys.executable" python -c ".
2021-04-11 21:56:58
985
原创 GBDT小结
GBDT的核心就在于,每一棵树学的是之前所有树结论和的残差(负梯度),这个残差就是一个加预测值后能得到真实值的累加量。比如A的真实年龄是18岁,但第一棵树的预测年龄是12岁,差了6岁,即残差为6岁。那么在第二棵树里面我们把A的年龄设为6岁去学习,比如第二棵树的结论是5岁,则A仍然存在1岁的残差,第三棵树里面把A的年龄设为1岁去学习,继续学。Boosting的最大好处在于,每一步的残差计算其实变相的增大了分错的instance的权重,而已经分对的instance则都趋于0。这样后面的树就能越来越专注那些前面被
2021-04-11 21:27:14
115
原创 向量检索综述
各向量检索方法的性能比较:https://blog.youkuaiyun.com/luoyexuge/article/details/84235421Faiss (Facebook AI Similarity Search)针对高维空间中的海量数据,提供了高效且可靠的检索方法。AnnoyAnnoy是 Spotify开源的高维空间求近似最近邻的库,在 Spotify 使用它进行音乐推荐。...
2021-04-07 22:39:45
145
转载 聚类算法
基于划分聚类算法(partition clustering)k-means: 是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据 k-modes: K-Means算法的扩展,采用简单匹配方法来度量分类型数据的相似度 k-prototypes: 结合了K-Means和K-Modes两种算法,能够处理混合型数据 k-medoids: 在迭代过程中选择簇中的某点作为聚点,PAM是典型的k-med
2021-04-07 22:20:14
195
原创 序列标注中的几种标签方案
标签列表B,即Begin,表示开始 I,即Intermediate,表示中间 E,即End,表示结尾 S,即Single,表示单个字符 O,即Other,表示其他,用于标记无关字符常见标签方案基于上面的标签列表,通过选择该列表的子集,可以得到不同的标签方案。同样的标签列表,不同的使用方法,也可以得到不同的标签方案。常用的较为流行的标签方案有如下几种:IOB1: 标签I用于文本块中的字符,标签O用于文本块之外的字符,标签B用于在该文本块前面接续则一个同类型的文本块情况下的第一个字符。
2021-04-07 22:09:45
372
原创 交叉熵和相对熵(KL散度)
信息量熵当一个事件发生的概率为 P(x),那么它的信息量是 -log(p(x))。那么熵就是信息量的期望。假如事件X有n种可能x1,x2,...,xn,发生xi的概率是p(xi),那么熵H(X)定义如下:对于0-1分布问题(二项分布的特例),熵的计算方法可以简化为如下算式:相对熵(KL散度)相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information d
2021-04-07 22:05:51
611
原创 文本表征 Text Representation
文本表征有哪些方法:https://www.infoq.cn/article/PFvZxgGDm27453BbS24W
2021-03-27 20:06:49
1790
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人