- 博客(45)
- 资源 (3)
- 收藏
- 关注

原创 python下字符编码和解码问题:UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0'
UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0'
2016-11-01 11:14:10
21603
1

原创 Ubuntu16.04下安装ns2.35
Ubuntu已经更新到了16.04或者16.10,网上的一些教程略微需要改动,鉴于此,总结了下面的安装步骤,其中会提到运行中常出现的问题以及解决方法。
2016-09-09 21:16:26
18781
53
原创 同构和异构经典图神经网络汇总+pytorch代码
针对一些同构图神经网络GCN/GAT/GraphSAGE和异构图神经网络RGCN/HAN/HGT等汇总,以及一些代码参考
2022-11-23 19:51:06
3483
原创 常用相似性(距离)度量方法概述
1 使用背景在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关性分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)、图计算等等。在做很多研究问题2 距离度量距离度量(Distance)用于衡量个体在空间上存在的距离,距离越远说明个体间的差异越大。2.1. 曼哈顿距离(Manhattan Distance) 在曼哈顿要从一个十字路口开车到另外一个十字路口,实际驾驶距离就是这个“曼哈顿距离”。而这
2020-08-12 11:00:45
16485
4
原创 Spark数据倾斜问题解决与如何对pairRDD内部采样
1、问题背景最近遇到一个这样的需求,需要将原始数据按照key进行汇总,然后把对应key的value数据按照时间排序进行排序,最后分别对每个key进行相同的value操作,于是遇到了严重的数据倾斜问题。单个task接收到了单个key对应的大量value数据,造成处理耗时甚至OOM内存溢出或不足,使得整个任务被拖累。2、数据倾斜解决方案2.1、初步切分数据由于需求的特殊性,key对应的val...
2020-04-17 22:53:24
301
原创 算法系列 - 广告反作弊概述
以下所有内容均整理于各种博客一、广告名词解释网络营销之所以越来越受到重视一个主要的原因就是因为“精准”。相比较传统媒体的陈旧广告形式,网络营销能为广告主带来更为确切的效果与回报,更有传统媒体所没有的即时互动性。很多企业借助于精准的网络营销成为人尽皆知的知名品牌。众多的成功案例吸引着更多的企业计划投入到网络营销中的大潮中来。那么我们在做网络营销前应该要了解哪些基本知识呢?博大精微数据库营销今天开...
2020-04-13 17:39:26
3945
原创 maven和POM问题汇总
1. 执行mvn 报错 source-1.5 中不支持 diamond运算符指定Maven的版本,并且指定Maven使用的jdk版本,在pom.xml中修改<project xmlns="..."> ... <build> <plugins> <plugin> ...
2020-04-12 17:41:51
278
原创 idea开发问题汇总
1. idea配置pyhton环境https://www.jianshu.com/p/06f9e7d2f35c2. idea配置不同module之间互相调用方法https://blog.youkuaiyun.com/big_data1/article/details/81218006
2020-04-12 17:17:58
209
原创 git开发问题汇总
1. 命令行查看标签git tag -lgit tag 标签名2. 撤销已经做的所有修改git status -s git checkout --f4. gitignore不起作用git rm -r --cached .git add .git commit -m 'update .gitignore'https://www.cnblogs.com/thinkingthi...
2020-04-10 19:49:24
153
原创 spark开发问题汇总 (持续更新20210604)
一、两个同类型的rdd合并union(ortherDataset):将两个RDD中的数据集进行合并,最终返回两个RDD的并集,若RDD中存在相同的元素也不会去重//省略sc val rdd1 = sc.parallelize(1 to 3) val rdd2 = sc.parallelize(3 to 5) val unionRDD = rdd1.union(rdd2) ...
2019-10-27 20:50:35
769
2
原创 Scala开发问题汇总
一、在scala的2.10.*时代,case class只支持22参数但是在scala2.11.*时代则没有这个问题。。。https://blog.youkuaiyun.com/feloxx/article/details/76605232二、Nil的含义Nil是一个空的List,定义为List[Nothing],根据List的定义List[+A],所有Nil是所有List[T]的子类。https:...
2019-10-27 20:40:00
1794
原创 Hive开发问题汇总
一、group by操作后将其他字段串接select uid,concat_ws('|', collect_set(device)) from tmp_test group by uid;collect_set 是 Hive 内置的一个聚合函数, 它返回一个消除了重复元素的对象集合, 其返回值类型是 arrayHive group by操作后将其他字段串接mysql中使用的是group...
2019-10-27 20:24:05
2395
原创 Hadoop开发问题汇总
1、hdfs复制和移动参考博客进行整个目录的复制或者移动hadoop fs -cp -f 待复制文件路径 目标文件路径2、Container killed by YARN for exceeding memory limits. 10.4 GB of 10.4 GB physical memory usedspark.yarn.executor.memoryOverhead = 819...
2019-10-27 17:36:18
271
转载 【转载】Presto日常优化
查询速度慢, 如何优化?解决方法1: 避免单节点处理虽然Presto是分布式查询引擎, 但是一些操作是必须在单节点中处理的. 例如:count(distinct x)考虑使用approx_distinct(x)代替但是需要注意这个函数有个大约在2.3%的标准误差, 如果需要精确统计的情况, 请绕道.UNIONUNION有个功能是: 如果两条记录一样, 会只保留一条记录(去...
2019-09-25 16:34:12
475
原创 2017-实习:机器学习、大数据开发、研发等岗位面经
前言刚过完年,就开始到处找实习了,可惜后来发生了一些事情,耽误了春招实习,也完全改变了人生方向。。。 后来到处找散招的实习以及参加春招的暑假实习生笔面试,总共经历了十家公司的面试,相比我秋招的二十家面试少了一半,呵呵哒。。。 同时欢迎大家看我的秋招面经帖子,干货很多的 2017-我的秋招之路:机器学习/算法工程师(含大量面经)算法/研发岗位实习生面经高德地图 (数据挖掘实习生,电话一面,201
2017-11-12 20:16:35
8848
原创 2017-秋招:机器学习/算法工程师(含大量面经)
前言:从今年的8月1号正式开启秋招到现在,过去三个多月了,发生了很多事情,经历了N多场笔试和面试,深深感慨到本硕双非的学生找算法岗的艰辛。。。,当经过了8、9月份的种种面试挂掉后,终于从十月下旬陆续收到了几个offer,而且其中还有自己喜欢的公司,不得不感慨那句《极限挑战》的结束语“这,就是,命!”奇怪的数字:对于我的整个秋招情况,有下面几组数据,我感觉很有意思,而且感觉和自然数e有关:发送的申请
2017-11-05 11:03:16
17345
6
原创 拼多多内推笔试一:求数组中任意三个数的最大乘积
数组中可能有正数、负数和0,所以解题思路是:找出最小的两个负数和最大的正数相乘 以及三个最大的正数相乘 ,两者取其中最大值。
2017-08-02 17:26:32
3255
原创 拼多多内推笔试二:数字字符串两个字符串相乘/大数相乘
这是四道笔试题的第二题:两个字符串形式的数字,求相乘结果并保存到字符串,结果可能会很长,所以只能用字符串模拟乘法操作。1、c+++代码如下:#include <iostream>#include <cstdio>#include <string> #include <vector> #include <sstream>using namespace std;string multipl
2017-08-02 14:00:50
1328
转载 【转载】Anaconda2下的Python2.7和Python3.5的共存
Anaconda2下的Python2.7和Python3.5的共存
2017-04-23 21:59:50
5109
2
原创 Numpy多维数组保存文档时,解决报错TypeError: Mismatch 的方法
TypeError: Mismatch between array dtype (‘float64’) and format specifier (‘%.18e %.18e’)
2017-04-08 20:56:11
16725
原创 python:在for遍历list时使用remove出现的问题以及解析
a=[1,2,3,4,5]for i in a: a.remove(i)print a
2017-03-21 16:56:42
12617
13
原创 ubuntu彻底卸载软件 :关于安装openssh-server后没有启动,22端口没有打开的问题
ssh的服务端启动不了,22端口没有打开
2016-11-17 10:21:16
7916
6
原创 Scrapy中用xpath/css爬取豆瓣电影Top250:解决403HTTP status code is not handled or not allowed
scrapy爬取豆瓣电影top25,采用了selector的xpath和css
2016-11-06 11:47:39
13389
1
原创 python中lxml+cssselect爬取豆瓣电影Top250
上一篇博客已经说了,本想参考[这篇博客](http://blog.youkuaiyun.com/fighting_no1/article/details/50926008)博客爬取豆瓣电影T250的,谁知最后竟是乱码和编码的问题,解决方式呢,上一篇已经说了。我又重新按照自己的学的东西采用lxml和cssselect做了一遍,速度也挺快,效果还行,但是需要注意的是输出文件是csv文件,用excel打开时会是乱码
2016-11-02 21:48:57
4356
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人