- 博客(54)
- 资源 (7)
- 收藏
- 关注
原创 django-数据库报错处理及处理思路
django配置数据库后,有的人会碰到这样的报错当报这种错误的时候,通常是数据库配置有问题,比如数据库配置填写不正确。如果你确认数据库配置没问题,那你可以尝试修改下用户名,看看报错中的 for user ‘用户名’@*是否修改,如果修改了,说明读取的配置文件确实是这个配置文件,如果其他信息都确定正确,那么一种可能的原因是mysql8的加密机制问题,需要修改密码的加密方式。ALTER USER...
2020-02-18 14:24:42
716
原创 Docker安装pyspark及验证
通过打好的包安装 下载后的配置好的文件的目录结构如下,文件下载地址: 链接:https://pan.baidu.com/s/1i8yO2X25TZ0ofSEXPmIq-g 密码:akfq├── apt.conf ├── build_network.sh ├── build.sh ├── config │ ├── apt.conf │ ├── core-site.xml │ ├─...
2018-07-02 11:39:22
1887
原创 centos7安装CDH记录
https://blog.youkuaiyun.com/qq_37667074/article/details/787315291、下载文件1.1 下载jdkhttp://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 下载jdk1.8下载cdhCloudera Manager下载地址: http://a...
2018-05-19 11:52:52
2915
原创 《逆流而上 阿里巴巴技术成长之路》读后记录之二——业务篇
在阿里巴巴,有大量的业务技术研发人员,在业务线的研发人员每天都要遇到各类技术问题,业务线问题往往隐藏在业务和技术结合系统抽象和系统流程中,比如锁的问题,事务问题,缓存问题。通常排查比较麻烦,从浏览器到网络,到web服务器,到服务化应用,到缓存,到存储。希望排查思路和解决方案能够对读者带来启发。1、幂等控制,分布式锁超时情况和业务重发的并发背景对账出现1分钱的差错,那么多...
2018-04-15 21:48:40
1120
原创 《逆流而上 阿里巴巴技术成长之路》读后记录之一——数据库篇
1、数据库常见问题 对数据库性能的要求,包括提升连接池的性能、单行并发更新能力、降低一些场景下的锁冲突概率、将memcached引擎引入到mysql内核中去。1.1 数据库异常分析结果 场景:数据库相应慢,出现大量的close wait情况,导致业务系统无法正常使用数据库出现大量close wait情况 close wait产生的原因在于数据库服务端等待超时后,...
2018-04-01 22:28:57
912
原创 ELK(elasticsearch+logstash+kabana)安装及简单入门
ElasticSearch安装1、下载安装包https://www.elastic.co/downloads/elasticsearchwget https://www.elastic.co/downloads/elasticsearch2、解压到文件夹tar -zxvf elasticsearch-5.2.2.tar.gz -C /bigdata/3、修改...
2018-03-23 21:45:57
6468
1
原创 linux 文件句柄数查看命令
当你的服务器在大并发达到极限时,就会报出“too many open files”。查看线程占句柄数ulimit -a输出如下:core file size (blocks, -c) 0data seg size (kbytes, -d) unlimitedscheduling priority (-e) 0...
2018-03-23 17:05:39
77266
原创 LSTM及RNN简单总结
RNN及LSTMRNN可以记住之前的信息,将当前信息联系到之前的信息,比如预测“the cloud are in the sky”最后的词,我们并不需要其他的上下文就能知道是sky,这种场景中,相关信息和预测距离比较近,因此RNN可以有效利用先前的信息。 但是当信息距离比较长,比我我们看的一些电影,在前部份埋下伏笔,最后破案的过程中发现原来这地方是这个原因,原来如此,间隔非常远,如果用rcn...
2018-03-09 16:57:32
635
原创 随机森林及xgboost调参过程
随机森林参数记录1、先用默认参数看预测结果2、然后用gridsearchcv探索n_estimators的最佳值3、然后确定n_estimators,据此再搜索另外两个参数:再对内部节点再划分所需最小样本数min_samples_split和叶子节点最少样本数min_samples_leaf一起调参 param_test3= {‘min_samples_split’:range(80,...
2018-03-09 16:54:54
6262
转载 MongoDB 极简实践入门学习(转载)
原作者:StevenSLXie; 标明原链接(https://github.com/StevenSLXie/Tutorials-for-Web-Developers/blob/master/MongoDB%20%E6%9E%81%E7%AE%80%E5%AE%9E%E8%B7%B5%E5%85%A5%E9%97%A8.md);1. 为什么用MongoDB?传统的计算机应用大多使用关系型数...
2018-02-27 11:06:08
261
转载 猜你喜欢-DataCastle
猜你喜欢参考之文章:冠军“yes,boy!”分享,含竞赛源代码背景来自datacastle的竞赛,猜你喜欢 竞赛内容: 个性化推荐已经成为各大电子商务网站的必备服务。准确的推荐不仅可以提高商家的产品销量,更能为顾客提供优质快速的购物体验。推荐系统发展至今,已经有许多非常优秀的推荐算法,从各种不同的角度来为电子商务大厦添砖加瓦。这一次,我们特意为大家准备了一个商品网站的用户评分数据,记录了几年时
2017-12-15 20:40:56
1320
原创 scikit-learn 常用模型介绍及使用(下)
scikit-learn 常用模型介绍及使用在上一篇文章主要介绍了机器学习中常用的模型使用方法,比如线性回归、逻辑回归、决策树、随机森林、bagging、random forest、xgboost、adaboost、svm、k-means、密度聚类、谱和谱聚类等,这些在很多的比赛中是比较常用的算法,前几天看一篇文章还介绍xgboost为何在很多比赛中都有较好的效果,速度快、精度也较高,xgboost
2017-12-06 19:17:30
2636
原创 scikit-learn 常用模型介绍及使用(上)
scikit-learn 常用模型介绍及使用scikit-learn常用的模型及使用,包括线性回归、逻辑回归、决策树、随机森林、svm、聚类、密度聚类、LDA、HMM、贝叶斯网络等等,介绍下这些算法在scikit-learn中的使用方法。 scikit-learn中常用的方法就是fit(),predict(),predict_proba(),pedcit_log_proba()等方法,下面通过实例
2017-12-02 16:12:01
8033
1
翻译 基于Python的分布式高可用扩展引擎Ray 0.3.0发布
Ray: 0.3发布我们很高兴宣布发布Ray的0.3版本,本次发布主要包括distributed actor handles 和Ray.tune——一个新的超参搜索库,还包括修复一系列bug和提高稳定性。 为了更新到最新版本,运行:pip install -U ray超参搜索工具本版本增加了Ray.tune,这是一个分布式超参数评估工具,用于强化学习和深度学习等训练时间较长的任务,他目前包括以下功
2017-12-01 15:03:17
875
原创 mac下mysql安装后修改默认密码
忘记密码由于mysql5.7默认密码不是root,而是乱码,安装后会提示,但是提示的不能用。2017-11-29T11:34:29.410459Z 1 [Note] A temporary password is generated for root@localhost: yD-a%8fsSV<YIf you lose this password, please consult the sectio
2017-11-29 19:48:47
449
翻译 基于python的高性能实时并行机器学习框架之Ray介绍
前言加州大学伯克利分校实时智能安全执行实验室(RISELab)的研究人员已开发出了一种新的分布式框架,该框架旨在让基于Python的机器学习和深度学习工作负载能够实时执行,并具有类似消息传递接口(MPI)的性能和细粒度。这种框架名为Ray,看起来有望取代Spark,业界认为Spark对于一些现实的人工智能应用而言速度太慢了;过不了一年,Ray应该会准备好用于生产环境。 目前ray已经发布了0.3.
2017-11-29 15:05:55
10084
转载 scikit-learn基础使用之一
scikit-learn基础使用之一scikit-learn是机器学习非常常用的一个包,通过scikit-learn可以方便进行机器学习算法的使用,下面总结自己在使用过程中的常用的通用方法,本文参考1 估计器(Esimator)估计器在很多时候可以理解成分类器,主要包括两个函数:fit():预测测试集的类别,参数为训练集和类别两个参数;predict():预测测试集的类别,参数为测试集from
2017-11-22 22:37:48
645
原创 supervisord配置
supervisord配置之前配置过supervisord,时间长了还是忘记了,最近再一次配置,记录下过程,方便以后再次配置。1 安装supervisord由于我安装了python,所以直接安装就可以: pip install supervisor安装后,调用命令: echo_supervisord_conf > /etc/supervisord/supervisor.conf注意:可能
2017-11-21 15:10:34
6512
原创 scikit-learn中gridSearchCV 的使用
GridSearchCV使用介绍通常算法不够好,需要调试参数时必不可少。比如SVM的惩罚因子C,核函数kernel,gamma参数等,对于不同的数据使用不同的参数,结果效果可能差1-5个点,sklearn为我们提供专门调试参数的函数grid_search。函数介绍class sklearn.model_selection.GridSearchCV(estimator, param_grid, sco
2017-11-13 23:26:21
12779
转载 EM算法--ML之六
EM算法基本概念Jensen不等式Jensen不等式是EM算法最重要的一个公式,具体如下: 最大似然估计最大似然估计在线性回归和逻辑回归中都说过,简单说,就是在估计过程中,估计最大可能的情况。二项分布的最大似然估计硬币投掷实验是解释二项分布的最好解说,投币实验过程中,进行N次独立实验,n次朝上,N-n次朝下,假定朝上的概率为p,那么p = n/NGMM算法高斯混合模型是EM算法非常典型的应用,高斯
2017-10-29 17:58:32
595
转载 主题模型LDA-ML之七
LDA 主题模型LDA的应用方向信息提取和搜索文档分类/聚类、文章摘要、社区挖掘基于内容的图像聚类、目标识别生物信息数据的应用基础函数LDA基本函数 LDA涉及的问题共轭先验分布Dirichlet分布LDA模型:Gibbs采样算法学习参数共轭先验分布在贝叶斯概率理论中,如果后验概率p(θ|x)和后验概率p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时先验
2017-10-26 19:38:50
422
转载 SVM--ML之四
SVM算法简介SVM全程Support Vector Machine,支持向量机,在深度学习出来之前,长期霸占机器学习算法图像识别榜首位置多年,可见该算法的魅力,相当于冷兵器时代的长枪。线性可分支持向量机分割超平面假设在二维平面上有两个数据集,C和D为两个不想交的凸集,则存在超平面P,P可以将C和D分离。 两个集合的距离,定义为两个集合间元素的最短距离; 做集合C和集合
2017-10-25 22:25:57
456
翻译 WSO2之DAS介绍使用之一
DAS介绍DAS是WSO2的重要组件,全称是Data Analytics Server,是一个功能强大的开源实时数据流分析平台,它提供流数据分析、复杂事件处理、机器学习算法,有效帮助你理解事件、映射影响、模式识别,时间相应在毫秒级。 下面是DAS的数据处理流程。 实时处理百万级数据 基于流分析的优势,构建高可扩展的高效实时分析系统 更便捷的分析方法 利用Siddhi来
2017-10-24 15:59:45
1159
原创 决策树-ML之三
决策树决策树基本概念熵在决策树模型中,最重要的一个概念就是熵,熵从通俗语言来讲就是信息的不确定性,比如我有一袋5个水果,不知道是什么水果,目前的不确定性是最大的,熵最大,如果拿出来一个是苹果,那么这袋水果的不确定性就减小了,熵也减小了,再拿出一个知道是梨子,熵进一步减小,直到取出所有水果,这时候不确定性最低,都确定了,熵也为0了。 熵的定义是:H(x) = -p(x)log p(x) 联合熵:H
2017-10-24 15:55:44
274
原创 线性回归-ML之二
机器学习算法机器学习算法主要介绍线性回归、逻辑回归、决策树、随机森林、提升、svm、聚类、贝叶斯算法、LDA,HMM算法。线性回归方法:使用极大似然估计解释最小二乘法误差是独立同分布的,服从均值为0,方差为定值的高斯分布(中心极限定理)。中心极限定理实际问题中,很多随机现象可以看做众多因素的独立影响的综合反应,往往近似服从正态分布。计算过程似然函数计
2017-10-21 19:17:30
337
原创 机器学习流程--ML之一
机器学习概论流程机器学习处理的流程大概如下:(1)数据获取 (2)数据清洗,特征工程 (3)模型选择 (4)结果校验那么,在模型选择及结果校验过程中,有如下几个标准:过拟合与欠拟合 过拟合就是模型训练的太好了,在训练集上能够非常好的完成目的,但是在测试集上,效果却很差,通常过拟合是模型参数选择过多导致,而欠拟合就是模型在测试机和训练集上表现都不好。 欠拟合好处理,而过拟合不好处理
2017-10-21 19:10:10
998
翻译 基于Python的分布式高可用扩展引擎Ray 0.2.0发布
翻译自https://ray-project.github.io/2017/09/30/ray-0.2-release.html我们很高兴发布Ray 0.2版本发布,本次发布包括以下信息: * Plasma 对象存储性能的重大提升 * 增加基于Jpuyter 的web UI页面 * 开始可扩展增强学习库的开发 * 行为容错处理Plasma自从上次发布后,Plasma对象已经从Ray项目的基
2017-10-21 11:37:57
2943
原创 redis基本操作
1、redis基本数据类型 string list set sort set hash2、数据类型的基本操作 (1)string127.0.0.1:6379> set name "lck"OK127.0.0.1:6379> get name"lck"127.0.0.1:6
2016-09-19 15:09:46
1012
原创 python中patch的使用
1、由于python是一切皆对象,当我们import一个module时,python会做以下几个事情: 导入一个module 将module对象加入到sys.modules中,后续对该module的导入将直接从该dict中获得 将module对象加入到golbal dict中因此当我们引入一个模块时,会从global中查找,如果需要替换原有模块,需
2016-09-19 10:53:07
15831
11
原创 git操作总结
git操作总结:1、日常操作类 git status //查看状态 git add . //添加当前目录所有的修改到暂存区 git commit -m'添加注释' //提交代码到本地库 git push origin lck_git:lck_1624
2016-09-13 15:44:33
251
原创 pandas读取excel数据
最近学数据分析,需要读取excel数据,用pandas读取excel数据还是很方便的,写了一个函数读取数据:def load_excel_data(filename): data = pd.ExcelFile(filename) print data.sheet_names df = data.parse("Sheet1") id = df['ID'] pri
2016-09-13 10:48:03
6541
转载 epoll解读
转自http://my.oschina.net/dclink/blog/2871981、流的概念 一个流可以是文件,socket,pipe等可以进行I/O操作的内核对象 不管是文件还是套接字还是管道,都可以看作是流2、I/O操作 通过read,我们可以从流中读入数据,通过write,我们可以往流写入数据。 现在假设
2016-09-13 10:37:23
391
原创 查询数据库中表名(postgres)
select relname as TABLE_NAME ,col_description(c.oid, 0) as COMMENTS from pg_class cwhere relkind = 'r' and relname not like 'pg_%' and relname not like 'sql_%' order by relname;
2016-09-13 10:35:39
669
原创 sql查询简单总结
1、group by: 使用group by ,那么select 显示的字段必须在group by 中出现,比如:select year, month ,count(month), sum(account) from yearmonth group by year, month order by year, month; 正确select
2016-09-13 10:32:46
297
原创 数据库事务隔离级别
数据库的事务就是保证数据的acid,原子性、一致性、隔离性、持久性,那么没有事务的话,会出现哪些问题呢?第一部分:数据库事务存在的必要性1、丢失更新(lost Update) 两个事务同时都更新一行数据,但是第二个事务却中途失败退出,导致对两个修改都失效了。2、脏读(dirty reads) 一个事务开始读取了某行数据,但是另外一个事务已经更
2016-09-13 10:23:09
375
原创 Celery学习总结
Celery学习总结 celcery是一个任务分发系统,总体我的感觉就是通过将需要执行的任务交给celery,在celery内进行任务的执行,celery需要消息中间价存放你的任务,这时可以用redis或者rabbitmq作为消息中间件,用来存消息和读消息。1、celcey简介celery是一个简单、灵活可靠的,处理大量消息的分布式系统,并且提供维护这样一个系统的必需的工具。专注于实时处理的任
2016-09-01 16:23:45
471
原创 python在hadoop上运行
1、命令样式: hadoop jar $STREAM \-files ./mapper.py,./reducer.py \-mapper ./mapper.py \-reducer ./reducer.py \-input /user/$(whoami)/input/*.txt \-output /user/$(whoami)/output hadoo
2016-09-01 16:15:37
905
原创 ssh使用简单总结
1、config 配置 /.ssh/config Host lck Hostname 127.0.0.1 User liuchangke Port 222、ssh 登录 ssh root@127.0.0.1 若配置config 可直接通过
2016-09-01 16:14:41
693
原创 hive错误解决
参考链接: http://www.yiibai.com/hive/hive_installation.html安装完hadoop之后按照链接中的步骤安装hive和derby然后现在hive的bin目录下执行 mv metastore_db metastore_db.tmp 然后执行schematool -initSchema -dbType derby然后执行./hiv
2016-08-25 09:52:49
1231
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人