- 博客(26)
- 资源 (5)
- 收藏
- 关注
原创 使用Scikit-learn的joblib保存和加载机器学习模型
使用机器学习必然会面临保存训练模型,和加载训练好的模型的场景。sdklearn的joblib可以满足这个需求。流程:1)训练模型2)保存模型到本地3)从本地加载训练好的模型来使用4)预测代码:import picklefrom sklearn.externals import joblibfrom sklearn.svm import SVCfrom sk...
2019-12-16 13:51:23
955
原创 KNN小结
一 什么是KNNKNN是最常见的机器学习的方法。KNN就是k个最近的邻居的意思,也就是说每个样本都可以用最近的k个邻居来代表。用句老话说就是“近朱者赤,近墨者黑”。KNN可以用于分类,也可以用于回归。用于分类时,使用少数服从多数的原则;用于回归时,则采用平均的方法。二 KNN的距离计算方法计算两个样本间的距离方法,最常见的是欧式距离/直线距离,或者是曼哈顿距离/街区距离。当...
2019-12-06 10:11:21
573
原创 归一化,标准化与正则化学习
机器学习的数据处理中,常见归一化、标准化与正则化的说法。它们都是什么意思呢?一、归一化归一化是把数据处理到一个范围内。机器学习中的数据,可能差别非常大,比如人的年龄与年收入,就不是一个数量级的数字;另外,除数字外,还有很多其他类型的数据。这些数据直接进行机器学习,效果会非常不好,这就需要归一化处理了。归一化处理后,就消除了这种不同数据类型,不同数据范围的差别了,方便数据比较和共同处理...
2019-12-05 10:58:53
1523
原创 elasticsearch报错,failed to obtain node locks
最近帮人解决了一个问题,ES运行时报错,failed to obtain node locks。这个错误网上有很多解决方案,基本上就是杀掉es进程,事实上,这个问题的原因可能不仅仅是一样的。“failed to obtain node locks”的原因通常是没有获得这个lock文件的操作权限,我知道的有两个原因:(1)node.lock被其他进程使用了,这也是网上大多数的解释。解决...
2019-11-26 12:39:47
24211
4
原创 web安全开发 - 预编译防止sql注入
SQL注入是常见的WEB攻击,百度百科上的解释是:“所谓SQL注入,就是通过把SQL命令插入到Web表单提交或输入域名或页面请求的查询字符串,最终达到欺骗服务器执行恶意的SQL命令。”举个例子:使用用户名和密码登陆网站时,用户名填入 123' or 1=1# ,密码也类似 123' or 1=1# 。这时,攻击者是猜测后台的sql命令可能是:SELECT * FROM users ...
2019-10-23 11:32:58
464
转载 安装CDH时,cloudera_health_monitoring_canary_files 中创建文件失败的解决方法
转:启动hdfs时,报错 Canary 测试无法在目录 /tmp/.cloudera_health_monitoring_canary_files 中创建文件。 经过查看日志,发现 Name node is in safe mode. 解决方法:sudo -uhdfs hdfs dfsadmin -safemode leave————————————————版权声明:本文...
2019-10-15 19:16:22
670
原创 ES实践笔记,elasticsearch分词器详解
一,基本概念Analysis,分词,是把全文本转换成一个个的单词的过程anaylyzer,分词器,专门处理分词的组件,有三部分组成:(1)Character filters,原始文本的预处理,通常完成H...
2019-08-06 16:19:50
2741
原创 Django实现数据库读写分离、一主多从、分库
读写分离在工程中,通常需要实现mysql读写分离。在Django中需要支持读写分离的话,只需要很简单的几步就可以了。首先,配置读库和写库。在django项目的settings.py中,配置读库和写库。DATABASES = { 'default': { 'ENGINE': 'django.db.backends.mysql', 'NAME...
2019-07-05 11:55:48
1319
转载 转:我们在360如何使用Python - virtualenv 篇
我们在360如何使用Python - virtualenv 篇这个系列的前面一部分,我们简单介绍了我们的项目的基本结构和开发流程。整个开发流程都是基于 distribute 的。关于我们如何使用distribute,会在后面一部分当中介绍。基于 distribute,我们具有了从代码构建到发布,测试和部署的基本框架。但是在实际的开发当中,我们还有一些问题需要解决,最重要的一点就是开发和运行环境...
2019-07-04 11:46:03
203
转载 转:我们在360如何使用Python
转公司博客的文章:我们在360如何使用Python - 引言打算写这样一个系列,说说我们在360里面,如何使用Python。在360,除非是需要包含在360客户端软件当中的功能,技术人员使用什么语言进行开发,更多的是一种个人,最多是项目团队的决定。因此我们的同事会使用 php写页面,用python的工具,用c/c++写模块,甚至用易语言写界面。也正是因为这个原因,虽然这个标题写得...
2019-07-04 11:44:28
654
原创 python file read(), readline(), readline(), xreadlines()的区别看python学习
常用python读取文件内容的,都知道python有几个不同的函数,完成功能一样,但细节有区别。一、read()读取整个文件,将文件内容(包括换行)放到一个字符串变量中。需要注意的是这个函数对内存的消耗,不推荐在工程中使用。二、readline()读取整行,包括行结束符,并作为字符串返回,保持当前行的内存。特点是不快。:)三、readlines()比上个函数多一个s,功能就...
2019-07-03 16:20:13
2323
原创 Dragonblood: Data-leaking flaw in WPA3 Wi-Fi authentication
上个月,国外安全研究人员发现了WPA3的一组漏洞。WPA3是用来替代WPA2的,虽然还需要几年来部署,但这么快就被发现了严重漏洞,也是太意外了。这些漏洞有多严重呢?采用WPA3保护的无线网络,几乎不可能被破解出密码的。但研究报告揭示,在一定的程度上,WIFI密码依然能被破解。特别是针对支持过渡功能的设备。根据研究报告,可进行的攻击包括:安全组降级攻击,边信道攻击,拒绝服务攻击,降级&...
2019-05-29 15:05:24
247
原创 Python内置filter函数,当参数function传入None时,会发生什么?
记录一个小知识点:Python的filter函数,当第一个参数,即function,传入None时,是在干什么呢?查了下文档,是这样解释的:filter() ParametersThe filter() method takes two parameters:function- function that tests if elements of an iterable re...
2019-05-21 19:26:52
4196
1
原创 RPC vs MQ
看了两篇写对比的文章,摘抄在下面。用我自己的观点看,RPC比较像体感游戏,你在挥舞小刀,切掉了屏幕上的水果;MQ比较类似博客,写了文章后,其它人来看。文章一: http://oldratlee.com/post/2013-02-01/synchronous-rpc-vs-asynchronous-message功能特点在架构上,RPC和Message的差异点是,Message有一个中...
2019-04-23 12:02:17
423
原创 Python JSON序列化与反序列化
序列化是把内存里的变量,变成可存储或者可传输到其他模块、设备的过程。web应用最常见的序列化后的标准格式有JSON,XML等。PYTHON内置的json模块对序列化、反序列化提供了完备的功能。常用接口函数:json.dump() 把对象序列化,写入类似文件的流json.dumps() 注意函数名的区别,把对象序列化成json格式的字符串,这个函数比较常用对应的反序列化的
2017-03-29 15:31:31
1399
原创 用Python计算字符串的相似度
准备做一个小功能,需要计算字符串的相似度,提前做点功课。算法字符串相似度的算法以及有很多资料了。最常见的理解就是:把一个字符串通过插入、删除或替换这样的编辑操作,变成另外一个字符串,所需要的最少编辑次数。AKA,两个字符串之间的距离。解这样一个问题,可以使用穷举法,也可以使用动态规划,大家可以自行搜索。贪婪法不适合这个问题。python-Levenshtein我
2017-02-28 14:20:36
15573
原创 redis的python客户端redis-py
一、redis的python客户端去redis的官网看了一下http://redis.io/clients#python,python的客户端有很多,根据推荐和开发人员,选择redis-py。二、安装redis-py安装方法可以使用easy_install,或者从源码安装。easy_install redis 注意是redis,而不是redis-py或者
2017-02-14 16:00:02
3106
原创 简单脚本:把MYSQL数据导入REDIS
把MySQL数据导入Redis,只需要简单的三点。第一点: 理解Redis的协议格式。Redis的协议为: 参数个数 + 参数长度 + 参数 。如果参数多余一个,则重复前面的(参数长度 + 参数)。举个例子:*3$4SADD$8all_user$5admin*3$4SADD$8all_user$7audito
2017-02-13 17:53:52
1896
原创 检测Python程序运行时间和内存占用的方法
很多时候,需要了解python程序的效率和内存使用情况,以便优化实现 。下面就是几种常用的方法。1. 使用print可以加载datetime模块,然后在需要的地方打印datetime.datetime.now(),就可以知道执行到某一行代码的时间点了。也可以使用装饰器来输出时间。2. 使用linux的time命令命令:time -p python hotspot_clien
2017-01-18 09:47:49
15841
1
原创 Why Django paginator take long time to page?
Django paginator use len() in page function. And it has bad performance to handle large dataset.
2016-07-18 11:43:48
352
转载 如何在CentOS 5/6上安装EPEL 源
https://linux.cn/article-2324-1.html在CentOS 上安装EPEL1. 确认你的CentOS 的版本首先通过以下命令确认你的CentOS 版本$ cat /etc/redhat-release CentOS release 6.4 (Final)2. 下载EPEL 的rpm 安装包$ wget http:/
2016-02-29 15:45:31
260
GITC 2017 北京 基础架构专场演讲PPT
2017-12-01
GITC 大数据
2017-12-01
机器学习实战 machie learning in action 中英文电子书+源码
2017-11-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人