- 博客(97)
- 资源 (2)
- 收藏
- 关注
原创 shell 快语句
1. 查看文件第一列数据:cat 2.txt | awk -F " " '{print $1}' | sort | uniq > 11.txt
2021-04-06 18:07:47
211
原创 python环境配置打包
python 打包记录 1. pipinstall-i https://pypi.tuna.tsinghua.edu.cn/simplevirtualenv 2. virtualenv --always-copy venv#用 virtualenv 以 always-copy 方式建立一个全新的 Python 环境,这里定义名称为 venv;会在当前目录生成一个 venv 文件 3. VENV_PYTHON=venv/bin/python 4. DST=`$V...
2021-01-18 11:13:44
515
原创 pyspark 记录
1. 读取文件./bin/spark-submit examples/src/main/python/wordcount.py file:///home/hadoop/coder_oyang/tst #读取本地文件 ./bin/spark-submit examples/src/main/python/wordcount.py file:///home/hadoop/coder_oyang/ #读取本地文件夹 ./bin/spark-submit examples/src/main/python..
2020-12-22 11:21:05
296
原创 推荐-线下AUC提升,线上CTR无提升
线下AUC提升,线上AB测试无提升1.判断线上线下特征提取是否一致?2.数据是否泄露,简言之,倒因为果,某特征跟目标有很高相关性?3.是否需要一味地添加特征?
2020-09-07 09:48:52
818
原创 scala word2vec 工程异常总结
scalaword2vec在集群出现奇奇怪怪的问题,代码如下:val documentDF = sentence.map(Tuple1.apply) .toDF("macs_videos") .repartition(15) documentDF.show(3, false) val model = new Word2Vec() .setInputCol("macs_videos") .setOutputCol("vector").
2020-08-29 16:26:54
389
1
原创 scala 基础 - join
Spark DataFrame中join与SQL很像,都有inner join, left join, right join, full join;类型 说明 inner join 内连接 left join 左连接 right join 右连接 full join 全连接 spark join看其原型def join(right : DataFrame, usingColumns : Seq[String], joinType : String).
2020-08-03 20:23:48
4053
1
原创 scala 基础-flatMap
在你调用map方法后紧接着调用flatten方法的情况下,你就可以尝试调用flatMap来解决这个问题了。满足如下情况: 使用map方法来从原集合基础上创建一个新的集合 map方法的返回结果是一个嵌套集合,或者元素为Some和None 你在map方法后紧接着调用了flatten方法 如果你的程序正好符合上面的情况,那么你就是可以使用flatMap来代替collection.map.flatten了下面这个例子中,你会看到如何使用flatMap来处理一个Option。在这个例
2020-07-30 10:55:15
750
原创 pyspark -- Please check environment variables PYSPARK_PYTHON
Exception:Python in worker has different version 3.6 than that in driver 2.7,PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVER_PYTHON are correctly setfrom __future__ import print_funct
2020-07-13 21:47:13
1185
2
原创 检索-推荐
1.Annoy(Approximate Nearest Neighbors Oh Yeah)算法是应用于稠密矩阵的最近邻查找算法,Annoy的目标是建立一个数据结构,使得查询一个最近邻的时间是线性的。Annoy通过对输入矩阵建树来获取O(log n)的检索速度建库:平面内随机取一个点作为种子节点,随机取200个节点判断每个点和哪个种子距离更近,取上述点的中心为最终的中心点,优缺点:树形检索快;...
2020-02-26 17:31:56
372
原创 Linux sendmail 报警邮件
参考 https://blog.youkuaiyun.com/qq_35326134/article/details/90312932参考 https://www.runoob.com/w3cnote/centos-mail-command-sendmail.html
2020-01-02 14:25:42
205
原创 python 多线程可用-demo
import threadingdef thread_num(ss, num): total = len(ss) split_data = [ss[i: i + int(total/num)] for i in range(0, len(ss), int(total/num))] for d in split_data: t = threading.T...
2019-12-26 17:15:28
196
原创 推荐系统--论文
1. Deep Neural Networks for YouTube Recommendations 对应中文解读 重读Youtube深度学习推荐系统论文,字字珠玑,惊为神文2. https://github.com/wzhe06/Reco-papers 推荐系统论文列表...
2019-07-12 16:47:58
397
原创 tar 打包压缩-解压文件
背景常需要将本地工具上传集群,并在集群解压,涉及到解压后的路径问题,故整理压缩解压tar.gz指令压缩压缩分成两个步骤:打包;压缩1. 打包成tar文件,打包路径,影响解压路径1. tar -cf YOUFILE.tar bin/## 将bin文件夹打包进YOUFILE.tar文件夹2. tar -rf YOUFILE.tar conf/## 将conf文件新增进YOU...
2019-07-01 15:26:53
295
原创 python - 技巧
1. 安装过多第三方包,通过 python -c "import mxnet; print mxnet.__file__"输出安装包路径
2019-06-27 20:50:49
129
原创 vim 纵向编辑技巧
一. 插入ctrl + v 进入 VISUAL BLOCK 纵向编辑模式 通过方向键选定列 I 选中列首插入;A选中列尾插入 插入内容 esc二. 删除ctrl + v 方向键选中 d参考 https://www.ibm.com/developerworks/cn/linux/l-cn-vimcolumn/三, 命令行光标移动ctrl+a : 跳到行首 ctrl...
2019-05-09 16:42:08
1147
原创 远程获取文件
1. wget2. scp3. python -m SimpleHTTPServer 8003 启动http服务 wget 机器/文件路径 获取文件, 文件路径取决于该服务启动的路径,可通过 机器名:8003在浏览器中查看文件目录...
2019-04-30 16:27:16
809
原创 hadoop streaming bistreaming ustreaming
1. 问题1close failed in file object destructor:sys.excepthook is missinglost sys.stderr
2019-04-24 11:28:23
1037
原创 vim insert VISUAL模式
vim中使用鼠标右键粘贴,失败。vim的模式:网上解法:1. 普通模式下输入“:set mouse-=a”,有效2. .vimrc中添加:if has('mouse') set mouse-=aendif失效查资料发现:vi的三种模式,命令模式,插入模式,可视模式。鼠标可以启动于各种模式中:The mouse can be enabled for di...
2019-04-08 17:01:54
17694
2
原创 SQL
date nums tag 2019-3-11 1 A 2019-3-11 2 B 2019-3-12 4 A 2019-3-12 5 B select nu-nums,F.tagfrom( select * from pandora_fea_num where {t [...
2019-03-12 17:48:05
198
原创 知识图谱二 -- DeepDive
https://blog.youkuaiyun.com/alitech2017/article/details/80134104https://blog.youkuaiyun.com/xgjianstart/article/details/70214852知识图谱特征学习http://baijiahao.baidu.com/s?id=1602210213239784098&wfr=spider&...
2019-03-10 16:22:58
689
1
原创 知识图谱一 -- 知识图谱架构、DeepDive中文抽取示例
一. DeepDiveDeepDive (http://deepdive.stanford.edu/) 是斯坦福大学开发的信息抽取系统,能处理文本、表格、图表、图片等多种格式的无结构数据,从中抽取结构化的信息。系统集成了文件分析、信息提取、信息整合、概率预测等功能。Deepdive的主要应用是特定领域的信息抽取,系统构建至今,已在交通、考古、地理、医疗等多个领域的项目实践中取得了良好的效果;在...
2019-03-10 15:10:25
20364
1
原创 设置secureCRT不掉线的方法
Options—>Global Options—>General—>Default Session—>Edit Default Settings—>Terminal—>Anti-idle选中Send protocol NO-OP every 120 seconds
2019-03-08 11:34:38
4871
1
原创 HQL - HiveQL
use namespace dba_ns; #选定数据库set user_write_ugi:hdfs://nmg01-xxxx-hdfs.dmop.xxxxx.com:54310/app/ecom/fcr/bigdata_dump/user_feature/=xx,xxxxxxx; #赋值:用户名,密码insert overwrite directory 'hdfs://nmg01-xxxx...
2019-02-23 13:31:05
365
原创 linux tmp自动清理
1. 背景线上机器总是报内存不足,df -h 发现存储空间占满,df -i ,发现是tmp中临时文件占满,可以修改系统定时清除tmp文件的时间间隔tips1 : 指定目录下,列出文件大小du -h --max-depth=1tips2: will delete all files and folders older than 100 days find /tmp/pu* -c...
2019-01-22 15:27:13
3364
原创 流式计算引擎
批量计算:收集数据-存入DB-取出分析,先将数据存进去,再处理区别:1. 与批量计算累积数据不同,流式计算将大数据平摊到各个结点上,连续进行小批量的传输,流动,计算完后抛弃2. 批量计算维护一张表,对表进行各种逻辑操作,流式计算相反,须先定义好计算逻辑,提交到流式计算系统,计算逻辑在整个运行期间不可更改3. 计算结果上,批量计算是对全部数据计算后传输结果,流式计算是每次小批量计算后...
2019-01-11 20:25:50
2016
原创 数据展示
review html case,起 serverhtml测试页面 https://www.w3school.com.cn/tiy/t.asp?f=html_table_test将文件放在html文件夹下,在 html 存放目录下,运行 nohuppython-m CGIHTTPServer 8888 &#端口号自定义#coding:utf-8import sys#...
2018-12-17 16:13:57
350
原创 screen - nohup
通常情况下我们都是为每一个任务开一个远程终端窗口,因为他们执行的时间太长了。必须等待它执行完毕,在此期间可不能关掉窗口或者断开连接,否则这个任务就会被杀掉,一切半途而废了1. 为什么关掉窗口/断开连接会使得正在运行的程序死掉进程组(process group):一个或多个进程的集合,每一个进程组有唯一一个进程组ID,即进程组长进程的ID。 会话期(session):一个或多个进程组的集合...
2018-12-04 14:39:45
206
原创 hadoop streaming 使用总结
hadoop client: 客户端可以让用户访问集群,hadoop client 使用手册,通过配置hadoop-site.xml文件,实现访问不同集群,同时该客户端目录的 xx/xx/hadoop/bin/hadoop 是你配置的hadoop命令路径,在streaming命令参数配置时,需要指明该hadoop位置,对于该命令,可以通过alias hadoopdr='xx/xx/hadoop/...
2018-11-08 10:06:32
883
原创 git | Linux 常用命令汇总
【git】创建仓库之后,常用命令:git 有三个状态:已提交(committed)、已修改(modified)和已暂存(staged);对应下图四个状态:本地工作目录,缓存区(索引),本地仓库,远程仓库 git clone ssh you git address # 将仓库clone到本地git add readme.txt # 添加文件g...
2018-10-23 14:40:05
524
原创 hadoop 简单入门与streaming常用配置参数说明
1. Hadoop包含两核心部分hdfs Hadoop distribute file system -- hadoop分布式文件系统,存储数据 Namenode、Datanode 常用命令形式:hadoop fs -ls / hadoop fs -mkdir MapReduce 分而治之;map:实现分治;reduce:实现合并 解决数据可分割的计算问题 编程接...
2018-10-11 17:33:51
1212
原创 http--Python自动登陆访问页面方式
import sysimport httplibimport base64# import libs.mcpack as mcpackfrom lib.mcpack import * def export_username_http(userId): request = httplib.HTTPConnection("you_ip", 8080) aut...
2018-09-16 11:41:14
1574
原创 python 命令行运行代码参数解析代码详例
一直以IDE的方式运行代码,最近遇到很多以命令行方式输入代码参数并运行代码,所以做一个简单的总结:第一种方法:通过ArgumentParserfrom argparse import ArgumentParserdef init_args(): """ init_args: parse args Args: None Returns: ...
2018-08-26 14:14:27
955
概率图模型
2018-07-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人