
Java&Sql&Python&Scala
Bryan__
17年硕士毕业入职腾讯,工作4年晋升至T11
研究生期间多次参加国内外数据挖掘竞赛,累计获得10次top3;
ijcai-2017冠军,kddcup-2017季军,ijcai-2018亚军;
工作方向:大规模搜索推荐,算法与架构开发
展开
-
Java实现百度贴吧自动签到器
出处http://blog.youkuaiyun.com/zhongkejingwang/article/details/39995909 前段时间经常逛贴吧,每次都要手动签到,有时候也会忘记签到,很麻烦。于是就想用Java写个自动签到的工具并部署到实验室的服务器上,这样就可以常年自动签到了。于是就有了这篇文章,权当玩玩。 看一下程序的执行情况: 将此程序放到服务器后台运行就可以转载 2015-06-01 21:55:30 · 3081 阅读 · 0 评论 -
win7+spark
https://blog.youkuaiyun.com/u011513853/article/details/52865076https://blog.youkuaiyun.com/u011464774/article/details/76697183F:\Program Files\hadoop\bin\winutils.exe chmod 777 /tmp/hive 这一步报错ChangeFileMode...原创 2018-09-27 19:49:48 · 860 阅读 · 0 评论 -
在Python中使用多进程快速处理数据
数据分片:可以将数据分片处理的任务适合用多进程代码处理,核心思路是将data分片,对每一片数据处理返回结果(可能是无序的),然后合并。应用场景:多进程爬虫,类mapreduce任务。缺点是子进程会拷贝父进程所有状态,内存浪费严重。import mathfrom multiprocessing import Pooldef run(data, index, size): # data 传入数...原创 2017-12-12 21:59:06 · 11825 阅读 · 0 评论 -
python中ndarray与dataframe互转
情况1:输入的数据data为list情况2:输入的数据data为dict情况3:输入的数据data为ndarray原创 2017-12-11 21:54:43 · 14889 阅读 · 0 评论 -
Python在windows下安装三方包
1.建议下载anaconda 里面自带很多三方包和一些工具(比如pip),conda镜像2.在这里找需要的包选择对应的版本,比如3.5的就选择带有35的,64位系统就选带64的whl文件就行3.cd 到安装包的位置执行 pip install name.whl 其中name是下载的三方包名字就是这么方便,简单山寨可依赖 pip install --upgrad...原创 2016-06-08 11:06:38 · 1133 阅读 · 0 评论 -
python快速入门
来源:http://cs231n.github.io/python-numpy-tutorial/#python-basicTable of contents:PythonBasic data typesContainersListsDictionariesSetsTuplesFunctionsClassesNumpyArraysArray inde原创 2017-08-18 22:12:31 · 1791 阅读 · 0 评论 -
Java web学习路线图
原创 2014-11-03 00:19:17 · 1173 阅读 · 0 评论 -
MySQL 下 ROW_NUMBER / DENSE_RANK / RANK 的实现
来自:http://blog.sina.com.cn/s/blog_562b10b901011c17.htmlCREATE TABLE test_rownum (ID int,Ke CHAR(1),val INT);INSERT INTO test_rownumSELECT 1, 'A', 1 UNION ALLSELECT 2, 'A', 2 UNIO原创 2016-05-01 17:07:38 · 4826 阅读 · 0 评论 -
scala集合操作
Scala是数据挖掘算法领域最有力的编程语言之一,语言本身是面向函数,这也符合了数据挖掘算法的常用场景:在原始数据集上应用一系列的变换,语言本身也对集合操作提供了众多强大的函数,本文将以List类型为例子,介绍常见的集合变换操作。一、常用操作符(操作符其实也是函数)++ ++[B](that: GenTraversableOnce[B]): List[B] 从列表的尾部添加另外一个原创 2017-07-31 19:22:57 · 1831 阅读 · 0 评论 -
Java 利用最小堆解决topK
public class MinHeap{ // 堆的存储结构 - 数组 private int[] data; // 将一个数组传入构造方法,并转换成一个小根堆 public MinHeap(int[] data) { this.data = data; buildHeap(); } // 将数组转换成最小堆 private void buildHeap()原创 2015-11-05 18:01:36 · 1064 阅读 · 0 评论 -
Java 8十个lambda表达式案例
1. 实现Runnable线程案例使用() -> {} 替代匿名类://Before Java 8:new Thread(new Runnable() { @Override public void run() { System.out.println("Before Java8 "); }}).start();//Java 8 way:原创 2016-07-21 17:48:03 · 2195 阅读 · 0 评论 -
python~pandas常用代码
来源:http://www.cnblogs.com/chaosimple/p/4153083.html# coding=gbk'''Created on 2016年6月1日 @author: bryan'''import pandas as pdimport numpy as npimport matplotlib.pyplot as plt# 1、可以通过传递一个li原创 2016-06-01 23:48:00 · 5566 阅读 · 0 评论 -
JAVA计算稀疏矩阵余弦相似度
import java.util.HashMap;import com.aliyun.odps.udf.UDF;/*** * BASE UDF */public final class MyUDF extends UDF { /** * UDF Evaluate接口 * * UDF在记录层面上是一对一,字段上是一对原创 2016-03-22 23:03:46 · 3232 阅读 · 0 评论 -
JAVA & Eclipse 笔记
自动引入类 ctrl+shift+o自动补全 alt+/错误提示 ctrl+1移动行 alt+上下键删除行 ctrl+dSource alt+shift+S单词跳跃 Ctrl查找方法 Ctrl+oDebug 常用F6 下一步F8 跳到下一个断点F5 跳到方法内设置set,get 方法右键点Source 再点击generat原创 2015-07-07 17:32:51 · 729 阅读 · 0 评论 -
JAVA环境变量设置
1、进入“计算机”的“属性”选项,选择“高级系统设置”,如下图所示:2、点击“高级系统设置”后,会看到如下图所示的对话框,选择“环境变量”:3、点击“环境变量”之后,会看到如下图所示的对话框:4、接下来就是具体的配置过程了: ①、选择上图所示的“新建”, “变量名”:Java_Home “变量原创 2015-07-07 16:37:52 · 1029 阅读 · 0 评论 -
spark的join和leftJoin使用union和reduce实现
在spark中使用自带的join与leftJoin容易引发性能问题,所以可以改写为union后reduce来提升性能。import scala.reflect.ClassTagdef leftJoin[K:ClassTag,V:ClassTag](left:RDD[(K, V)],right:RDD[(K, V)])={ left.mapValues(x=>Ar...原创 2018-12-01 15:07:20 · 3105 阅读 · 2 评论