- 博客(272)
- 资源 (6)
- 收藏
- 关注

原创 强化学习中的一些疑惑与求解
Q值和V值的互相转换:Q和V本质上可以通过Bellman方程相互转化Policy-Iteration & Value iteration:还是结合例子看比较直观;策略迭代(选定策略,更新策略),价值迭代(多次迭代直至收敛)
2021-04-11 15:05:14
1744

原创 动手学习深度学习-一些不能细想的问题(持续更新)
推荐系统有可能形成反馈循环:推荐系统首先会优先推送一个购买量较大(可能被认为更好)的商品,然而目前用户的购买习惯往往是遵循推荐算法,但学习算法并不总是考虑到这一细节,进而更频繁地被推荐。强化学习的目标是产生一个好的策略(policy)。 强化学习 agent 的选择的”动作“受策略控制,即一个从环境观察映射到行动的功能。当环境可被完全观察到时,我们将强化学习问题称为马尔可夫决策过程(markov decision process)。 当状态不依赖于之前的操作时,我们称该问题为上下文赌博机(context
2021-03-24 20:58:24
552

原创 数据分析-全流程(持续更新)
# 导入包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlineimport warningswarnings.filterwarnings('ignore')# 加载数据data = pd.read_csv()# 查看数据基本信息data.head()data.columnsdata.info()data.shape(.
2020-12-29 20:09:35
425

原创 MultiTask Learning Survey
原文链接:MultiTask Survey一、常见Multi-Task 架构Hard和Soft区分:Hard共享底层参数,在高层提取中相互独立;Soft使用十字绣的形式,使得不同的“独立”Task网络之间有交互;缺点:这两种方式都会随着Task增长模型的规模线性变大;在Hard中何处“分支”是一个较难解决的问题;Encoder-based和Decoder-based区分:在底层特征提取时可以结合使用Hard和Soft的架构,但是Encoder在高层特征预测时候相互独立,Decoder的在
2020-12-20 13:25:51
573

原创 小赵带你读论文系列14-阿里妈妈之Deep Interest Network for Click-Through Rate Prediction
前言鬼才知道我为什么要学管理经济学和管理数学,学不进去了,算了看看论文读读代码放松一下。这是阿里DIN系列的第一篇文章,文章读起来不是很难,不过工业上实现会考虑时延就很麻烦,主要的工作我觉得像是引入了Attention机制(他自己解释说有点差别)。以往都是根据用户的Profile,Behavior Sequence做一个用户的Embedding,然后根据这个Embedding来和待推荐的商品作比较,最终输出用户点击该商品的概率。阿里觉得不好,第一,这种对待所有商品用户的Embedding都一成不变,
2020-11-29 19:19:11
2048
6

原创 Graph-Embedding - 详解node2vec
目录前言核心创新点代码前言原文链接:Stanford Node2Vec概括:综合使用DFS和BFS的思想进行neighbours的搜索(因为要保证neighbours在embedding后的空间内足够的“近”),保证共现的neighbours(DFS,类比句子中相邻的单词)和结构相似(BFS)的节点都能足够的“相似”。注:结构近似一开始我也没看明白,后面发现是u和s6同样担任中心点的作用,我们认为其结构近似。换句话说,也就是不但要找到u的直接相邻的邻居s1,s2,s3,还
2020-11-21 00:25:52
452

原创 小赵讲堂系列1-特征工程这件小事
我们做算法的,一定不能成为调包侠,我们每做一个操作,每写一段代码都要知道为什么要写这段代码,最终要使模型的预测效果可解释,故有此篇。刷了三遍百面机器学习的总结和日常见到的一些小问题,加入了自己的理解,不足之处请见谅。为什么我们要使用数据归一化及其适用范围在学习速率相同的情况下,范围大的特征更新速度会大于范围小的特征,这样会导致找到最优解迭代次数增加。适用范围:包括线性回归,逻辑回归,支持向量机、神经网络,但并不适用于决策树,为什么呢?因为决策树每次选择特征只考虑一个变量,不考虑变量之间的相关性。
2020-11-06 10:09:07
3623
11

原创 Python算法实战-牛客刷题-剑指offer通关
目录二维数组中的查找替换空格从尾到头打印链表重建二叉树用两个栈实现队列旋转数组的最小数字斐波那契数列跳台阶变态跳台阶矩阵覆盖二进制中1的个数数值的整数次方调整数组顺序使奇数位于偶数前面链表中倒数第k个节点反转链表合并两个排序的链表树的子结构二叉树的镜像顺时针打印矩阵包含min函数的栈栈的压入弹出序列从上往下打印二叉树二叉搜索树的后序遍历序列二叉树中和为某一值的路径复杂链表的复制二叉搜索树与双向链表.
2020-05-30 12:11:48
1232

原创 数据分析实战-Kaggle-手把手Xgboost信用欺诈检测实例-超详细完整数据分析项目
这个实战并不是我自己纯手写的,其中很多想不明白的地方参考了诸多kaggle金牌得主的discussion和idea,其实数据分析本来就不是从0开始,嘿嘿。
2020-05-22 14:45:30
6888
1

原创 Python爬虫项目实战-Scrapy+Charles+MongoDB+Redis实现分布式京东全网信息爬取2020最新版
目录一、基础知识二、开发环境及项目结构三、结果展示四、实战源码4.1 数据模型-items.py4.2 存储操作(以MongoDB为存储数据库)-pipelines.py4.3 项目配置-settings.py4.4 中间件配置-middlewares.py4.5 分类信息抓取-jd_category.py4.6 抓取商品详细信息-jd_product.py4.7 分布式操作的实现-add_category_to_redis.py五、项目使用方法一、.
2020-05-14 15:27:00
2918
4

原创 Ubuntu 18.0虚拟机安装-VirtualBox和VMware哪家强
一、吐槽不要用VirtualBox,不要用VirtualBox,谁用谁傻子!!!!用VirtualBox安装了一下午,都是这个界面试了网上所有的办法,毫无卵用。听懂了吗,毫无乱用,别去试了。下面VM-Ware傻瓜式安装结果,只用一次就成功了!!!二、VMware安装步骤及相关修改下面是下载安装VMware步骤-Workstation Pro(这个网站好像需要先注册)...
2020-03-09 18:32:25
5798

原创 保研夏令营-南大、哈工、天大、中山、北理
应学校老师之邀,还是写一下自己的保研经历保研好比打怪,打怪你得有装备,赤膊上阵肯定是不行的。这些装备不需要氪金但是需要刷时间,无论是一张“充实”的简历,一份流利的自我中英文自我介绍还是联系导师的“套磁”邮件,都需要你用心的,慢慢的去做。我的打怪经历相比一些广撒网的同学来说并不是很丰富。保研之初我便明确了自己保研的方向和地域,东部沿海或发达城市的管理科学与工程(信息系统方向)或者大数据方向的...
2020-03-06 12:11:47
3894
原创 Algorithm & Data Management Cube(A&DM-Cube)本科生招募
1. 保持对科研工作的专注和耐心,确保有足够的精力投入在团队的工作中,合理分配时间,尽量减少其他非科研事项或本组内科研无关事务的干扰,保证科研的持续性;我们期待有志于算法研究的同学加入我们的团队,共同探索数据挖掘与机器学习、算法分析与管理、商务智能与金融科技领域的前沿问题,为学术研究和社会进步贡献力量。1. 科研经验:你将有机会参与到高水平的科研项目中,与经验丰富的导师和团队成员一起开展研究工作,深入了解学术研究的流程和方法,发表高水平论文;2. 对机器学习、数据挖掘等领域有浓厚兴趣,具备一定的基础知识;
2024-06-17 14:35:18
818
原创 修改第三方源码
如果第三方库通过pip instal *或者conda install *安装,那么直接更改’…/site_packages/…’中相应的.py文件将不起作用(Python: how to edit an installed package?),这是因为使用pip安装库时已经自动编译了python代码,所以更改原始文件并没有改动编译内容。此时可以将该项目源码从GitHub中clone下来,更改源码,然后使用python setup.py build和python setup.py install手动安装。
2021-09-26 19:48:58
1445
原创 VSCode PowerShell 提示“无法加载文件,因为在此系统上禁止运行脚本”的解决方法
这主要是Windows自身设置Restrict模式。管理员身份打开PowerShell,然后执行set-executionpolicy remotesigned然后回答:Yes就行了。
2021-09-14 09:56:02
570
原创 Parameter的使用
class Attention(nn.Module): """ 层级Attention,汇集某方玩家的轨迹为一个向量 """ def __init__(self): super(Attention,self).__init__() self.w_omega = nn.Parameter(torch.Tensor(32,32)) # hidden_layer self.u_omega = nn.Parameter(torch.Te
2021-09-08 10:09:35
1079
原创 RuntimeError: mat1 dim 1 must match mat2 dim 0
多半需要dataloader是drop_last=True
2021-07-18 09:20:11
447
原创 git每次输入密码
ssh-keygen -t rsa -C 'email.com'# 下面一路回车,不然每次都要输入密码然后再重新设置github中的ssh key。对了,以前用http提交的已经不能用了,可以再git文件夹里修改config文件
2021-07-17 09:06:07
186
原创 Dataloader的一些BUG
Broken PiP ERROR:参考RuntimeError: unable to open shared memory object </torch_3212_4199725757> in read-write mode:参考
2021-06-30 11:43:15
1458
原创 tensorboard显示多个曲线
tensorboard --logdir_spec=h1:runs01/,h2:runs02/ --port=6006 --bind_alll
2021-06-28 12:57:30
1462
原创 GPU利用率低的解决办法
watch -n 0.1 -d nvidia-smi # 检查GPU利用率参数解决办法:1. dataloader设置参数2.增大batchsize3. 减少IO操作,比如tensorboard的写入和打印。4. 换显卡
2021-06-25 18:51:48
21281
原创 Pytorch分布式
nn.DataParallel的作用是将模型和数据分配到各个GPU上,让其在各自的GPU上训练。1. 首先检查batchsize是否是GPU数量的整数倍2. 以及dataloader是否设置了drop_last是否是true,如果没有drop_last,那么最后一个batchsize剩下的数量可能不是GPU数量的整数倍,会出现此错。3. 如果以上情况都不是报错原因,还有一个原因可能是:对模型进行传参时,有可能传递了标量。(!我就是这个原因无法进行训练,因为我每一个batch的都需要一组标量进行划
2021-06-25 10:00:08
308
原创 warning: LF will be replaced by CRLF in config/mem.sh.
往往出现在windows使用git提交linux开发机的代码时git config --global core.autocrlf false
2021-06-23 13:49:06
184
原创 pandas含有空列表
all the input arrays must have same number of dimensions, but the array at index 0 has 2 dimension(s) and the array at index 7 has 1 dimension(s) ('Lengths must match to compare', 'occurred at index trajs_1')出现以上两个错误多半是你的数据里含有空列表,可以考虑先替换为None或者0然..
2021-06-22 15:44:27
895
原创 /bin/bash^M: bad interpreter: No such file or directory
死活搞不好,其实是换行符的问题,检查文件格式(大多是windows写好传到linux的问题)1.cat -A filename,如果输出结果中行末尾是^M$,则是dos格式,如果行末尾只是$,则是unix格式。2.vim filename,编辑文件,执行“:set ff”,若执行结果为fileformat=dos则为dos格式,若执行结果为fileformat=unix则为unix格式。3.od -t x1 filename,以16进制查看文件,若输出结果中存在“0d 0a”则为dos格式,如..
2021-06-22 10:48:00
375
原创 查看dataframe内存占用
## 查看df占内存的大小import timeitimport sys st = time.time()print('all_data占据内存约: {:.2f} GB'.format(df.memory_usage().sum()/ (1024**3)))st1=time.time()print('costtime: {:.2f} s'.format(st1-st))print('all_data占据内存约: {:.2f} GB'.format(sys.getsizeof(df)/(10.
2021-06-18 19:58:48
1003
原创 多进程与多线程
https://blog.youkuaiyun.com/brucewong0516/article/details/86569707https://www.jianshu.com/p/2e6d72ae1770
2021-06-18 18:04:09
224
原创 If using all scalar values, you must pass an index
# 错误场景import pandas as pddict = {'a':1,'b':2,'c':3}data = pd.DataFrame(dict)import pandas as pd#方法一:直接在创建DataFrame时设置index即可dict = {'a':1,'b':2,'c':3}data = pd.DataFrame(dict,index=[0])print(data)#方法二:通过from_dict函数将value为标称变量的字典转换为DataFrame对.
2021-06-09 21:17:40
179
原创 pandas时序图搞起-业务
# 创建simulator数据,暂时代替sql_process功能,模拟一种指标import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib.dates as mdates%matplotlib inline# 仿真数据data_label_1 = { 'server_1': np.random.randn(67), 'server_2': np.random.ran.
2021-05-31 22:15:27
377
原创 missing operandTry ‘mkdir --help‘ for more information.
ubuntu系统版本问题mkdir -p "$system"
2021-05-30 19:15:18
3150
2
原创 ssh问题
ssh-service是否安装不是输入ssh有返回就行的service ssh status如果返回unrecongnized service
2021-05-28 11:23:29
160
原创 类别特征Embedding
输入数据是32*2,32个样本,2个类别特征,且类别特征的可能值是0到9之间(10个)。对这2个特征做one-hot的话,应该为32*20(multihot 编码),embedding就是使1个特征原本应该one-hot的10维变为3维(手动设定,也可以是其它),因为有2个类别特征这样输出的结果就应该是32*6model = Sequential()model.add(Embedding(10, 3, input_length=2))#构造输入数据input_array = np.random.ra
2021-05-27 10:44:21
910
原创 Pytorch-Training的一些高级操作
# 设置随机种子import torchimport randomimport numpy as npdef set_random_seed(seed=10,determinstic=False,benmark=False): random.seed(seed) np.random(seed) torch.manual_seed(seed) torch.cuda.manual_seed_all(seed) if determinstic: torch.backends.cudnn.d
2021-05-22 19:57:21
242
原创 Linux Debug-Python
无脑Pycharm远程SSH服务器就够了,但是有些业务场景需要用到命令行调试。分享几个比较好的链接。PDB常见操作其他工具
2021-05-12 22:52:28
172
数据库大作业Java---采购系统(满分)
2019-04-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人