- 博客(19)
- 收藏
- 关注
原创 详解TF-IDF
目录什么是TF-IDF怎么计算举例例1例2再看代码什么是TF-IDFTF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件...
2019-12-22 12:36:25
1028
原创 机器学习中的一些Boosting
目录什么是Boosting?Boosting的种类AdaBoost (Adaptive Boosting)Gradient BoostingXGBoost什么是Boosting?The term ‘Boosting’ refers to a family of algorithms which converts weak learner to strong learners. Boosting...
2019-12-21 22:33:01
557
原创 Git常用设置
目录设置姓名和邮箱设置代理取消代理设置姓名和邮箱git config --global user.name “”git config --global user.email “@163.com”设置代理国内Git虽然没有屏蔽,但用 git clone 时,网速大部分都在20KiB/s以下,可以设置代理方式加速命令行执行:git config --global http.proxy s...
2019-12-15 13:14:08
313
原创 Encoder and Decoder with Attention Model
#!/bin/bash# 定义变量方便修改APP=gmallhive=/opt/module/hive/bin/hive# 如果是输入的日期按照取输入日期;如果没输入日期取当前时间的前一天if [ -n "$1" ] ;then do_date=$1else do_date=`date -d "-1 day" +%F`fi echo "===日志日期为 $do_...
2019-12-01 13:06:56
1067
原创 Shell中单引号和双引号区别
vim test.sh#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo "'$do_date'"echo '"$do_date"'echo `date`test.sh 2019-02-10结果:$do_date2019-02-10'2019-02-10'"$do_date"2019年 05月 02日...
2019-11-29 17:12:15
169
原创 Linux环境变量
1)修改/etc/profile文件:用来设置系统环境参数,比如$PATH. 这里面的环境变量是对系统内所有用户生效。使用bash命令,需要source /etc/profile一下。2)修改~/.bashrc文件:针对某一个特定的用户,环境变量的设置只对该用户自己有效。使用bash命令,只要以该用户身份运行命令行就会读取该文件。3)把/etc/profile里面的环境变量追加到~/.bas...
2019-11-29 11:00:46
142
原创 大数据集群操作脚本
#! /bin/bashcase $1 in"start"){ for i in hadoop102 hadoop103 hadoop104 do ssh $i "/opt/module/zookeeper-3.4.10/bin/zkServer.sh start" done};;"stop"){ for i in hadoop102 hadoop103 hadoop104...
2019-11-29 10:57:49
299
原创 激活函数总结
激活函数的作用首先,激活函数不是真的要去激活什么,而是用来加入非线性因素的,因为线性模型的表达能力不够。在神经网络中,激活函数的作用是能够给神经网络加入一些非线性因素,使得神经网络可以更好地解决较为复杂的问题。如果不用激励函数(其实相当于激励函数是f(x) = x),在这种情况下你每一层节点的输入都是上层输出的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与没有隐藏层...
2019-11-22 11:45:52
424
翻译 怎么用Git上传上G的超大文件
Download and install the Git command line extension. Once downloaded and installed, set up Git LFS and its respective hooks by running:git lfs installYou’ll need to run this in your repository di...
2019-11-21 20:45:59
1261
原创 怎么将多个文件的内容进行合并(Talk is cheap, show me the code)
import osdef readfile(path): # 读取文件夹下所有的文件 files = os.listdir(path) file_list = [] for file in files: # 遍历文件夹 if not os.path.isdir(file): file_list.append(path + '/'...
2019-11-11 14:58:47
378
原创 亲手实践安装Ubuntu系统(傻瓜式、超详细)
准备U盘一个下载ISO文件下载rufus-3.8.exe链接:https://pan.baidu.com/s/1b8-btvBjtQLUd8ro4L3Lug提取码:0jji先插入U盘,rufus软件免安装,双击打开rufus-3.8.exe文件即可运行,点击选择按键选择下载好的ISO文件,如下图点击开始,如果出现如下提示选择是继续选择是选择是,然后可以制作镜像了制作完...
2019-11-08 10:35:15
3964
原创 Centos7 普通用户配置sudo免密
在Linux里当我们需要执行一条root权限的命令时,每次都要用sudo命令然后再确认密码,非常不方便。那么我们修改配置sudo免密。默认新建的用户不在sudo组,但可以编辑/etc/sudoers文件将普通用户加入sudo组。要注意的是修改该文件需要切换到root用户使用命令 vi /etc/sudoers修改配置文件,将下列第三或第四行添加到文件中youuser ALL=(ALL) AL...
2019-11-04 23:16:28
6277
原创 解决ModuleNotFoundError: No module named 'sklearn.cross_validation'
新版本的sklearn已经废弃cross_validation,将其中的内容整合到model_selection中,将sklearn.cross_validation 替换为 sklearn.model_selection 即可from sklearn.model_selection import KFold...
2019-11-04 22:58:19
3377
原创 二八定律 VS 长尾效应
二八定律二八定律又名80/20定律、帕累托法则(Pareto‘s principle)、朱伦法则(Juran’s Principle)、关键少数法则(Vital Few Rule)、不重要多数法则(Trivial Many Rule)、最省力的法则、不平衡原则等。二八定律是19世纪末20世纪初意大利经济学家帕累托发现的。他认为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管...
2019-11-03 16:11:14
7565
原创 Centos 7配置Anaconda3国内镜像源
Anaconda的配置文件叫.condarc,一般会放在用户的家目录,因为前面带有’.’,因此是隐藏文件。我们可以用vi ~/.condarc直接编辑将以下代码添加到配置中就可以使用清华的镜像源了channels: - defaultsshow_channel_urls: truedefault_channels: - https://mirrors.tuna.tsinghua.e...
2019-11-02 08:31:09
4260
原创 什么是混淆矩阵(Confusion Matrix)
在分类任务下,预测结果与正确标记之间存在四种不同的组合,就构成了混淆矩阵(适用于多分类)正例假例正例真正例TP伪反例FN假例伪正例FP真反例TN作用用于观察模型在各个类别上的表现,可以计算模型对应各个类别的准确率,召回率;精确率(Precision):预测结果为正例样本中真实为正例的比例(查得准)召回率(Recall):真实为正例的样本中预测结...
2019-10-27 07:52:43
1656
原创 解决Windows环境下Microsoft Visual C++ 14.0 is required问题
错误重现error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": https://visualstudio.microsoft.com/downloads/解决方案下载Microsoft visual c++ 14.0,并安装(以下资源选其一)链接:http...
2019-10-27 06:57:00
788
原创 一文解决烦人的Impala日期问题
获取当前日期now()select now()rst:2019-10-24 10:58:47.128771000current_timestamp()select current_timestamp()rst:2019-10-24 11:29:43.718155000now()和current_timestamp()等价,都是获取当前系统时间unix_timestamp(...
2019-10-25 10:17:56
2850
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人