- 博客(34)
- 收藏
- 关注
原创 【Datawhale暑期实践第三期】用户新增预测挑战赛
赛题名称:用户新增预测挑战赛 赛题类型:数据挖掘、二分类 赛题链接👇: https://challenge.xfyun.cn/topic/info?type=subscriber-addition-prediction&ch=ymfk4uU讯飞开放平台针对不同行业、不同场景提供相应的AI能力和解决方案,赋能开发者的产品和应用,帮助开发者通过AI解决相关实际问题,实现让产品能听会说、能看会认、能理解会思考。用户新增预测是分析用户使用场景以及预测用户增长情况的关键步骤,有助于进行后续产品和应用的迭代升级。本次
2023-08-18 20:45:55
455
原创 【Datawhale AI 夏令营第二期】AI 量化模型预测挑战赛
本赛事通过大数据与机器学习的方法和工具,理解市场行为的原理,通过数据分析和模型创建量化策略,采用历史数据,验证量化策略的有效性,并且通过实时数据进行评测。本次比赛采用macro-F1 score进行评价,取label_5, label_10, label_20, label_40, label_60五项中的最高分作为最终得分,所以在初次建模的时候对应五个目标都需要进行建模,确定分数最高的目标,之后进行优化的时候仅需对最优目标进行建模即可,大大节省时间,聚焦单个目标优化。点差越小,该品种的流动性越高。
2023-08-06 18:20:15
413
原创 【打卡】Datawhale暑期实训ML赛事
初赛任务:初赛提供了电炉17个温区的实际生产数据,分别是电炉上部17组加热棒设定温度T1-1 ~ T1-17,电炉下部17组加热棒设定温度T2-1~T2-17,底部17组进气口的设定进气流量V1-V17,选手需要根据提供的数据样本构建模型,预测电炉上下部空间17个测温点的测量温度值。
2023-07-27 22:44:08
352
原创 【打卡】零基础入门推荐系统-新闻推荐
赛题以预测用户未来点击新闻文章为任务,数据集报名后可见并可下载,该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。可见节省了很多内存。我们把它存储下来以便以后使用,这里使用hdf5存储。由于数据量比较大,读取占用内存和时间都比较多,考虑对其进行优化。
2022-12-11 18:54:33
1013
原创 ModuleNotFoundError: No module named ‘ale_py._ale_py‘
文章目录一、问题描述二、问题解决一、问题描述在执行导入gym的命令时,from gym import envs出现错误ModuleNotFoundError: No module named 'ale_py._ale_py'重新安装ale_py也没用。二、问题解决ale_py的版本太高,改成0.7版本就可以了:python -m pip install ale_py==0.7成功执行...
2022-04-16 15:21:25
1622
原创 Jupyter Notebook运行中内核挂掉
问题在jupyter notebook中写代码时突然蹦出:内核似乎挂掉了,它很快将自动重启。可是无论重启多少次都是这样,似乎只要在那个代码块里写那个函数就会挂。解决方法造成这个的原因恐怕有很多,我这里提供一个鸵鸟式解决方法,就是不在那个代码块里写了????,或者在别的地方写好那个函数然后粘贴过来,对我的来说这样子就没问题了,希望能帮到大家。...
2021-12-03 17:50:18
4690
2
原创 mac下更改jupyter notebook默认打开目录
文章目录一、问题二、解决方法一、问题想更改jupyter notebook的默认目录,结果遇到始料未及的错误。按别人的说法,首先找到jupyter_notebook_config.py文件,更改其中的default_url为目标目录就行,但是实际我改了之后是这样:开始还以为是文件夹权限问题,结果不是。又查了很多方法都不行,无意中终于找到解决方法,不知道会不会有人遇到相同问题,还是记录一下。二、解决方法其实default_url不要改,保持默认的tree就行,改的应该是notebook_dir,改
2021-12-03 17:04:41
749
原创 论文阅读:Chrome Extensions- Threat Analysis and Countermeasures
目的分析chrome扩展的安全性,提出方法来提高扩展安全性。方法用micro-privilege management 方法防止信息泄漏,用“根据敏感性划分DOM元素“方法来防止敏感信息收集。micro-privilege management首先区分不同组件的权限,然后给每个组件赋予最合适的权限。Differentiating DOM Elements With Sensitivity最直接的方法是由web开发者或web管理员标记敏感性,设置sensitivity属性。结果能有效抵御如s
2021-10-23 15:02:43
169
原创 mac打开软件显示没有权限不能打开
文章目录一、问题描述二、问题解决一、问题描述在mac上安装了一个破解工具打不开,显示没有权限。到网上找各种解决方法,一般都说用upx脱壳,但是对我的这个没用,可能很多人遇到同样问题,这里记录一下。二、问题解决其实只需要赋予权限即可,主要是找到准确的文件。首先在应用程序文件夹里找到目标程序,右键显示包内容。依次找到contents/macos下的文件。打开终端,输入命令sudo chmod 755在755后空一格,将上一步的文件拖入终端,出现路径,运行命令。这里可能还要确保安全性
2021-08-04 13:38:19
8767
原创 word写论文公式编号问题
文章目录一、问题描述二、环境要求三、问题解决一、问题描述在用word本身自带的公式时,无法直接在其后添加编号,网上搜的方法大多比较麻烦,这里我找到一种简单的。二、环境要求我用的是word2016,文档为docx格式,其它版本没试过。三、问题解决在编辑公式的最后加上“#”+“编号”,按回车确定就可以看到效果。...
2021-05-04 16:54:54
6381
原创 sklearn数据预处理函数LabelEncoder获取标签与编码映射
文章目录一、问题描述二、问题解决一、问题描述利用sklearn中的LabelEncoder函数进行编码后,想要得到原来的标签和现在编码之间的映射关系。le = LabelEncoder()labels_en = le.fit_transform(labels).astype(np.int64)二、问题解决可以新建一个字典,用循环更新:res = {}for cl in le.classes_: res.update({cl:le.transform([cl])[0]})效果:
2021-05-01 16:21:27
5227
1
原创 pytorch自己创建数据集
文章目录一、数据准备二、继承Dataset类一、数据准备假设图像在".\datasets\DogCat\train"中,文件名称是‘dog’和‘cat’,数据集是二分类,现在需要创建文件名和标签对应关系。fold=r'.\datasets\DogCat\train'wfold=r'.\datasets\DogCat'flist=os.listdir(fold) #文件名称列表#文件描述with open(os.path.join(wfold,'train.txt'),'w') as fw:
2021-04-11 15:45:35
223
原创 卷积神经网络中间结果可视化
pytorch默认只保存最后一层的输出,中间层输出默认不保存,要提取中间层网络输出值,需要使用回调函数register_forward_hook(),通过传入处理函数,便可以提取和保存特点网络层的输出值。class ActivationData(): #网络输出值 outputs = None def __init__(self,layer): #在模型的layer_num层上注册回调函数,并传入处理函数hook_fn self.hook = layer.register_forward_h
2021-04-08 16:16:59
1043
原创 python执行过程中显示实时时间
在深度学习模型训练过程中,显示每一批次的实时时间的一个小方法。import timeprint('epoch:{} , Loss:{} , Time:{}'.format(i, loss, time.strftime('%Y.%m.%d %H:%M:%S', time.localtime(time.time()))))
2021-04-08 11:27:21
1641
原创 深度学习保存模型小技巧
非常基础的东西,写下来以防忘记。将损失值loss_value设置为无限大,每次迭代若损失值比loss_value小则保存模型,并将最新的损失值赋给loss_value。loss_value = np.inf...if loss < loss_value: torch.save(model, 'model.ckpt') loss_value = loss...
2021-04-04 14:54:38
560
原创 metasploit渗透测试学习(一):信息搜集
文章目录一、Google Hacking1、搜索网站目录结构2、检索特定文件类型3、搜索网站的email地址4、搜索网站登录页面二、活跃主机扫描1、metasploit的主机发现模块2、nmap扫描三、端口扫描1、metasploit的端口扫描器一、Google Hacking1、搜索网站目录结构parent directory site: RHOST类似可用metasploit里的dir_scanner\brute_dirs\dir_listing等辅助模块来搜集。2、检索特定文件类型sit
2021-03-04 18:58:59
897
原创 GVM(原openvas)fail to find config
文章目录一、问题描述二、问题解决一、问题描述在kali linux2020.4中,装好gvm,用gvm-check-setup检查好没问题之后,创建扫描任务时提示“Failed to find config ‘daba56c8-73ec-11df-a475-002264764cea’”。(修复前的图忘记截了,遇到这个问题的人应该都知道是什么样子)网上查的资料都只说用gvm-feed-update升级特征库,但是对我没用,应该对大多数人也没用。二、问题解决出现这个提示主要是由于Scan Confi
2021-03-04 11:34:26
7018
19
原创 python自定义函数中的return lambda含义
文章目录一、问题二、解决方法一、问题看到别人写的一个函数里用了return lambda,刚开始没太搞明白,后来懂了,记录一下。# 真实样本高斯分布def get_distribution_sampler(mu, sigma): return lambda n: torch.Tensor(np.random.normal(mu, sigma, (1, n)))二、解决方法其实这个指的就是返回一个函数对象,是这么用的:d_sampler = get_distribution_sampl
2021-02-26 15:50:05
1167
1
原创 python使用imblearn进行采样时报错No module named sklearn.neighbors._base
“No module named 'sklearn.neighbors._base”。这个问题很坑,查了好久都没有发现解决方法,最后终于找到了。其实就是需要将环境重启一下就可以了。
2020-05-17 22:20:29
3840
2
原创 pandas数据保留中文
处理pandas表格数据时,对某一列提取出中文。测试:words=['这是one测试','the第一季of侠盗联盟']import pandas as pddf=pd.DataFrame({'words':words})dfdf['words']=df['words'].str.replace(r'[^\u4e00-\u9fa5]','')df...
2020-04-30 18:05:10
2239
1
原创 正则表达式去除各种指定字符
想要去除字符串里的一些指定字符,看了很多复杂的正则表达式,终于看到简单的,只要用‘\’分隔要去除字符就行了。先记载下来:str = re.sub("[A-Za-z0-9\!\%\[\]\,\。\@\:\;\//\:\']", "", a)...
2020-04-28 15:36:26
9384
原创 pandas读取csv时读取编码错误UnicodeDecodeError
在使用pandas的read_csv读取数据时提示读取编码错误UnicodeDecodeError,什么’utf-8’ code can’t decode byte 什么的,改编码方式也不行,read_csv里面又没有ignore,于是用下面的方法:# 获取文件编码类型def get_encoding(file): # 二进制方式读取,获取字节数据,检测类型 with open...
2020-04-28 15:22:08
1512
原创 PaddleSlim介绍
文章目录一、介绍二、剪裁三、量化四、蒸馏五、NAS这是百度飞桨关于PaddleSlim的直播介绍的一点整理,方便日后查看。地址:https://aistudio.baidu.com/aistudio/education/lessonvideo/256291一、介绍PaddleSlim是一个模型压缩工具集,产出好用的“小模型”。二、剪裁flops是指计算量。三、量化四、蒸馏...
2020-04-06 18:42:47
3846
原创 推荐系统学习:百度飞桨直播一
文章目录一、推荐系统的概念二、推荐系统的建模分析三、代码结构这是百度飞桨推荐系统直播的记录,课程地址:https://aistudio.baidu.com/aistudio/education/group/info/888一、推荐系统的概念二、推荐系统的建模分析三、代码结构...
2020-03-17 21:24:54
310
原创 自然语言处理学习(四)百度飞桨直播3:句子分类(情感分析)和语义匹配
文章目录句子分类(情感分析)和语义匹配一、什么是情感分析二、实现句子分类1、句子的向量表示2、处理长句子(1)截断(2)填充3、处理句子语义信息三、循环神经网络(RNN)四、长短时记忆网络LSTM这是百度飞桨第三次NLP直播课程的记录。课程地址:https://aistudio.baidu.com/aistudio/education/group/info/888句子分类(情感分析)和语义匹配...
2020-03-04 22:10:37
704
原创 自然语言处理学习(三)百度飞桨直播2:词向量(word2vec)
文章目录词向量(word2vec)一、词向量动机和基本概念1、什么是词向量这是百度AI Studio自然语言处理的第二次直播记录,课程地址:百度飞桨。词向量(word2vec)一、词向量动机和基本概念1、什么是词向量此时没有语义信息向量、矩阵都是张量。GPU很难支持查询操作,解决方法是进行one-hot编码。左边的表称为word2id dict。将one-hot enco...
2020-03-04 21:58:18
371
原创 疫情预测分析:FlyAI直播讲解
这是3月1日FlyAI的直播,主要讲解新冠肺炎疫情趋势预测大赛基本流程。在此做下记录,以供日后复习。一、模型选择二、策略选择
2020-03-02 11:31:00
732
原创 机器学习比较不同模型效果
这是在贪心学院直播中看到的一个技巧。以boston房价集为例:导入模块:from sklearn.datasets import load_bostonboston=load_boston()处理数据from sklearn import preprocessing,model_selectionimport numpy as np#获取房屋数据以及对应房价X,y=bost...
2020-02-28 22:25:19
1428
原创 自然语言处理学习(二)使用nltk获取语料
一、语料库导入brown和gutenberg语料库。import nltkfrom nltk.corpus import brown as cbfrom nltk.corpus import gutenberg as cg二、查看语料库中的目录dir(cb) #目录dir(cg)输出:三、语料库包含的种类cb.categories() #种类四、语料库文件块名字c...
2020-02-26 18:54:06
3047
原创 自然语言处理实战(一):king-man+woman
第一个word2vec例子:woman+king-man=queen。1、加载二进制模型直接使用Google开源模型GoogleNews-vectors-negative300.bin,使用gensim库来加载这个二进制模型:from gensim import modelsw=models.KeyedVectors.load_word2vec_format('GoogleNews-vec...
2020-02-26 16:53:23
1140
原创 自然语言处理学习(一)百度飞桨直播1:自然语言处理概览
文章目录自然语言处理概览1、自然语言发展历史2、自然语言技术划分(1)词、短语级(2)句子、段落(3)对话、篇章3、自然语言处理两大分支这是2月25日飞桨b站直播nlp课程的简单笔记,这次课主要讲自然语言处理的历史。自然语言处理概览1、自然语言发展历史2、自然语言技术划分(1)词、短语级切词同义词计算(2)句子、段落文本分类文本相似度(3)对话、篇章对话系统阅...
2020-02-25 21:24:50
496
原创 百度AI Studio——卷积神经网络基础
很早以前就想写博客记录学习状态,一直拖着,感觉错过了很多,甚是后悔,下定决心开始写。这是百度AI Studio上的课程卷积神经网络的笔记。课程链接:百度AI Studio卷积神经网络卷积神经网络是目前计算机视觉中使用最普遍的模型结构。基础模块主要包括:卷积(Convolution)池化(Pooling)ReLU激活函数批归一化(Batch Normalization)丢弃法(D...
2020-02-16 15:49:14
538
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人