- 博客(31)
- 资源 (1)
- 收藏
- 关注
原创 python3.5.3安装步骤(linux centos)
安装python3.5可能使用的依赖yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel到python官网找到下载路径, 用wget下载wget https://www.python.org/ftp/python/3.5.3/Python-3.5.3.tgz解压t...
2019-09-02 19:12:15
777
原创 centos7.5误删python2.7之后,导致yum和Python命令无法使用(问题解决)
原微博地址:https://www.cnblogs.com/sueyyyy/p/10410832.html问题描述最近想要将服务器上的Python2.7升级成3.x的版本时。使用了如下命令: 1 2 3 4 5 (1)强制删除已安装python及其关联 # rpm -qa|grep python|xargs rpm -...
2019-09-02 18:51:50
911
转载 解决crontab运行python脚本不生效
https://blog.youkuaiyun.com/weixin_33933118/article/details/86897719
2019-07-16 19:58:27
1329
原创 windows开发环境运行正常,打包jar到linux系统出现,java.io.FileNotFoundException: xxx.jar! xxx.txt (没有文件或目录)
解决:1.利用流的方式读取文件ImputStream inputStream2 = this.getClass.getClassLoader.getResourceAsStream(“dict/xxx.txt”)BufferedReader reader2 = new BufferedReader(new InputStreamReader(inputStream2,"UTF-8"))...
2019-07-16 15:18:31
1972
原创 fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reached (fake_useragent代理获取失败)
fake_useragent 具体github地址:https://github.com/hellysmile/fake-useragent1.下载最新版本json文件(网页拉到最低保存为json文件(fake_useragent.json))https://fake-useragent.herokuapp.com/browsers/0.1.11 (地址需要翻墙) 地址...
2019-05-23 20:31:53
1894
原创 echarts 点击事件 传参数 自定义参数(利用ajax将参数传入后台)
//echarts里面点击事件myChart.on('click', function (params) {//mychart调用下面kmeansyun方法,并传入参数 kmeansyun(params.name)});//点击事件触发方法 方法内其他参数省略 function kmeansyun(name) { var worldCloudcharts=echarts...
2019-04-02 16:42:40
8384
1
原创 spark scala dataframe 窗户函数Window的应用 实现row_number() over(partition by , order by )
需要引入的包:import org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.functions._ //scala实现row_number() over(partition by , order by ) val w = Window.partitionBy($"prediction").o...
2019-04-02 14:47:43
3892
原创 推荐系统评估方式
1.线下评估(一些学术研究或商业)RMSE和MAE recall 和 precision例如: recall = 6/10 precision = 6/50 F1 score :F越大代表推荐系统越好 2.线上评估(商业) A/B testing CTR: click throught rateCR:conv...
2018-12-13 18:56:41
1469
原创 协同过滤和基于内容的推荐系统优缺点
系统过滤优点:根据各个用户的历史信息推荐商品,跟商品的内容属性无关。缺点:冷启动,gray sheep(没有相似的用户),商品用户越多协同过滤越复杂,同义词影响,shilling attack。基于内容优点:不存在商品冷启动问题,根据商品的属性进行推荐。缺点:需要透彻的内容分析,存在用户冷启动问题,不能给用户带来惊喜(只是推荐内容相似的商品)。...
2018-12-13 17:26:13
10519
原创 机器学习回归和分类
回归和分类的区别: 回归的预测结果是连续的,分类的预测结果是离散的。 线性回归: 自变量和因变量之间存在线性关系,例如:线性相关系数(皮尔逊相关系数)...
2018-12-09 01:11:09
302
原创 机器学习基础笔记
1.机器学习是大数据技术的核心。机器学习的方法:1.统计机器学习。2.BP神经网络。3深度学习。机器学习的种类: 1.监督学习:学习一个模型,使模型能够对任意给定的输入做出相应的预测。形式 :(x,y)数据对。 2.无监督学习:学习一个模型,使用的数据是没有被标记过的数据,自己默默的学习隐含的特征,寻找模型与规律。 输入数据形式只有x,例如 ...
2018-12-02 00:31:47
183
原创 Maven笔记
1.maven只编译项目中的单个模块 commonlib mvn clean install -pl commonlib -am -Dmaven.test.skip=true(跳过测试类的编译和运行)
2018-11-21 15:02:58
144
原创 linux命令笔记
让Mac OS X下的终端像Linux那样拥有丰富多彩的颜色显示:参考地址:https://www.linuxidc.com/Linux/2015-12/125917.htm1.chmod +x : 给文件添加执行权限。如:chmod +x ./start.sh参考地址:https://blog.youkuaiyun.com/u012106306/article/details/80436911...
2018-11-21 14:47:38
139
原创 UTC时间和CST时间
UTC时间:世界协调时间(UTC)是世界上不同国家用来调节时钟和时间的主要时间标准。 :也就是零时区的时间CST时间:中央标准时间 Central Standard Time (USA) UT-6:00(美国cst时间:零区时减6个小时) Central Standard Time (Australia) UT+9...
2018-11-01 11:28:57
56081
原创 streamsets简介
streamsets(官网地址:https://streamsets.com/) 由Informatica前首席产品官Girish Pancha和Cloudera前开发团队负责人Arvind Prabhakar于2014年创立的公司,总部设在旧金山。streamsets产品做大数据ETL工具,支持包括结构化和半/非结构化数据源,拖拽式的可视化数据流程设计界面。streamsets的产...
2018-10-31 20:06:37
8692
4
原创 jolt transform (json to json) 嵌套数组进行json格式转换
输入的json格式:[ { "status": "success", "result": [ { "cashierUid": 1111, "items": [ { "name&qu
2018-08-30 17:45:37
2747
原创 枚举算法 实现背包问题
package meiju;import java.util.Scanner;/** * 1)设计一个枚举算法,解决如下背包问题:设有4个物体,其重量和价值分别如下所示:物体 重量 价值1 7 422 3 123 4 404 5 25现在,有一个承重最多10的背包,请设计算法,输出背包中价值最高的物体组合时的物体编号,以及价值总和。例如:C:\>_按照编号、重量、价值输入:1,7,422,3...
2018-06-10 20:38:20
1751
原创 贪婪算法,解决装箱问题
package meiju;import java.util.ArrayList;import java.util.Arrays;import java.util.List;public class TanXin { /** * 2)设计一个贪婪算法,解决如下装箱问题:设每个箱子容量为10,7个物品的容量分别是[8,7,5,4,3,2,1]。 * 请使用贪婪算法(Best Fit)用最少的箱子...
2018-06-10 20:22:17
2277
1
原创 crontab -e 实现每隔20秒执行一次
crontab -e :*/1 * * * * /home/hadoop/data/project/generator_log.sh*/1 * * * * sleep 20 && /home/hadoop/data/project/generator_log.sh*/1 * * * * sleep 40 && /home/hadoop/data/proje...
2018-06-09 22:16:56
10540
原创 将本地开发好的大数据程序打包到linux服务端运行
1.去掉本地代码中setMaster("local[5]")2.用maven在本地编译代码: maven clean package -DskipTests3.服务端运行 spark-submit --master local[5]\ //本地模式启动spark--jars $(echo /home/hadoop/app/hbase-1.2.0-cdh5.7.0/lib/*....
2018-06-06 15:11:57
433
原创 Hbase插入表数据异常: RetriesExhaustedWithDetailsException: Failed 1 action: tableName: 1 time
<hbase.version>1.2.0-cdh5.7.0</hbase.version><!-- HBase 依赖--><dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId
2018-06-05 19:56:40
5371
1
转载 kafka.cluster.BrokerEndPoint cannot be cast to kafka.cluster.Broker
参考地址:https://blog.youkuaiyun.com/zhangjunbaodbd/article/details/80398053
2018-05-31 14:20:36
879
原创 (kafka java API 无法连接远程主机)FailedToSendMessageException: Failed to send messages after 3 tries.
出现以下异常:Exception in thread "main" kafka.common.FailedToSendMessageException: Failed to send messages after 3 tries. at kafka.producer.async.DefaultEventHandler.handle(DefaultEventHandler.scala:91)...
2018-05-24 09:34:47
800
原创 IDEA新建scala项目无法新建xxx.scala文件 (new 没有 scala class)
1.先idea确认有没有安装Scala sdk,如果没有先在idea中下载scala插件。参考地址:https://blog.youkuaiyun.com/iamlihongwei/article/details/72783459?locationNum=10&fps=12.安装完插件还是看不到 scala class 选上scala SDK...
2018-04-18 21:12:00
10713
原创 eclipse操作hdfs,连接不上hdfs系统的原因
1.linux系统中hosts配置文件的ip地址和主机名是否对应。(不能为127.0.0.1 格式)2.linux的防火墙是否关闭。(centos关闭防火墙: systemctl stop firewalld)
2018-04-10 13:11:04
1809
原创 大数据 HDFS系统基本操作命令(centos)
1. hadoop fs -ls / 文件查找 hadoop fs -ls -R / 递归查看 hadoop fs -put 文件名 / 将文件传到根节点 hadoop fs -cat /hello.txt 查看根节点hello.txt文件内容(hadoop fs -text 作用相同) hadoop fs -mkdir /test/ 创建...
2018-04-10 12:44:41
755
原创 Linux下启动mysql数据库5.7,出现找不到mysqld.pid 或无法创建删除pid
mysqld.pid用途: 记录的是当前 mysqld 进程的 pid,pid 亦即 Process ID。1.如果启动mysql服务,显示没有找到pid.可以自己手动创建pid文件。 /var/lib/mysqld/mysqld.pid 最后为此路径 (如果为/var/run/mysqld/mysqld.pid ,下次重启动mysql服务,pid文件会被清除) 2.如果pid文件的放...
2018-04-09 18:40:10
23327
原创 tomcat出现内存溢出 (java.lang.OutOfMemoryError)
文章原地址:http://www.haoplay.top/tiezi/10_1_1.htmltomcat中日志中报错: org.apache.catalina.core.ApplicationDispatcher.invoke Servlet.service() for servlet springmvc threw exception java.lang.OutOfMemoryError...
2018-04-09 18:35:31
230
原创 Java语言 浏览器下载文件时没有进度条和预计文件大小
文章地址:http://www.haoplay.top/tiezi/11_1_1.html解决方案: 在代码中添加: response.setHeader("Content-Length", ""+file.length());
2018-04-09 18:32:37
5843
3
原创 在linux(ubuntu)上搭建hadoop分布式集群配置步骤
原地址:http://www.haoplay.top/tiezi/3_1_1.html文章参考:http://www.linuxidc.com/Linux/2016-02/128149.htm 在vmware上安装多个ubuntu系统 登录ubuntu系统修改机器名称: 修改文件/etc/hostname里的值即可,修改成功后用hostname命令查看当前主机名是否...
2018-04-09 18:29:06
552
nifi 入门英文文档
2018-09-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人