
大数据
文章平均质量分 91
mergerly
这个作者很懒,什么都没留下…
展开
-
go-zero微服务框架入门教程
为什么使用go-zero你还在手撕微服务?快试试 go-zero 的微服务自动生成神器,这可能是我见过最简单好用的微服务框架。还有比它更简单好用的吗?欢迎留言评论和推荐。几分钟搞定个接口和微服务,还不用担心稳定性和高并发,这不香吗?还有比这更简单和高效的吗?工具大于约定和文档的理念,编码自动化,大幅度的提高效率和生产力,这会是个趋势,让精力更多的放在业务和创新上。推荐下go-zero 微服务框架,致力于打造国内最简单好用的框架。为什么使用go-zero?可以有第三个选择golang圈子不大转载 2021-03-11 16:25:19 · 3782 阅读 · 0 评论 -
马里奥 AI 实现方式探索 :神经网络+增强学习
导语在深圳的研发部培训中,我们组给定一个有趣的课题便是:马里奥游戏的智能通关,本文就神经网络和增强学习两个点进行整理,并将我们最后用的NEAT算法以及扩展找到的DRL算法进行了简单梳理。如果能够在游戏自动化测试、智能AI中应用这些有趣的算法,想想还是有点小激动哒 ^v^马里奥AI实现方式探索:神经网络+增强学习儿时我们都曾有过一个经典游戏的体验,就是马里奥(顶蘑菇^v^),转载 2017-09-15 10:57:14 · 2402 阅读 · 1 评论 -
用机器学习检测异常点击流
本文内容是我学习ML时做的一个练手项目,描述应用机器学习的一般步骤。该项目的目标是从点击流数据中找出恶意用户的请求。点击流数据长下图这样子,包括请求时间、IP、平台等特征:该项目从开始做到阶段性完成,大致可分为两个阶段:算法选择和工程优化。算法选择阶段挑选合适的ML模型,尝试了神经网络、高斯分布、Isolation Forest等三个模型。由于点击流数据本身的特性,导致神经网络和高转载 2017-09-14 20:50:39 · 7085 阅读 · 4 评论 -
外卖订单量预测异常报警模型实践
一、前言 外卖业务的快速发展对系统稳定性提出了更高的要求,每一次订单量大盘的异常波动,都需要做出及时的应对,以保证系统的整体稳定性。如何做出较为准确的波动预警,显得尤为重要。从时间上看,外卖订单量时间序列有两个明显的特征(如下图所示):周期性。每天订单量的变化趋势都大致相同,午高峰和晚高峰订单量集中。实时性。当天的订单量可能会受天气等因素影响,呈现整体的上转载 2017-09-14 17:14:19 · 1023 阅读 · 1 评论 -
人人都可以做深度学习应用:入门篇(下)
四、经典入门demo:识别手写数字(MNIST)常规的编程入门有“Hello world”程序,而深度学习的入门程序则是MNIST,一个识别28×28像素的图片中的手写数字的程序。备注:MNIST 的数据和官网深度学习的内容,其背后会涉及比较多的数学原理,作为一个初学者,受限于我个人的数学和技术水平,也许并不足以准确讲述相关的数学原理,因此,本文会更多的关注“应用层转载 2017-09-14 15:04:09 · 4686 阅读 · 0 评论 -
人人都可以做深度学习应用:入门篇(上)
一、人工智能和新科技革命2017年围棋界发生了一件比较重要事,Master(Alphago)以60连胜横扫天下,击败各路世界冠军,人工智能以气势如虹的姿态出现在我们人类的面前。围棋曾经一度被称为“人类智慧的堡垒”,如今,这座堡垒也随之成为过去。从2016年三月份AlphaGo击败李世石开始,AI全面进入我们大众的视野,对于它的讨论变得更为火热起来,整个业界普遍认为,它很可能带来下一次科技革转载 2017-09-14 15:03:16 · 437 阅读 · 1 评论 -
异常点检测算法分析与选择
1.1 常见异常点检测算法 在数据库中包含着少数的数据对象,它们与数据的一般行为或特征不一致,这些数据对象叫做异常点 (Outlier) ,也叫做孤立点。异常点的检测和分析是一种十分重要的数据挖掘类型,被称之为异常点挖掘 [28 ] 。 对于异常数据的挖掘主要是使用偏差检测,在数学意义上,偏差是指分类中的反常实例、不满足规则的特例,或者观测结果与模型预测值不一致并随转载 2017-09-13 18:48:02 · 6517 阅读 · 0 评论 -
基于spark Mllib(ML)聚类实战
写在前面的话:由于spark2.0.0之后ML中才包括LDA,GaussianMixture 模型,这里k-means用的是ML模块做测试,LDA,GaussianMixture 则用的是MLlib模块数据资料下载网站,大力推荐!!!http://archive.ics.uci.edu/ml/datasets.html?format=&task=clu&att=&area=&num转载 2017-08-15 20:54:28 · 1793 阅读 · 0 评论 -
携程大数据实时风控的架构及实践
携程作为国内OTA领头羊,每天都遭受着严酷的欺诈风险,个人银行卡被盗刷、账号被盗用、营销活动被恶意刷单、恶意抢占资源等。 目前携程利用自主研发的风控系统有效识别、防范这些风险。携程风控系统从零起步,经过五年的不断探索与创新,已经可以有效覆盖事前、事中、事后各个环节。也从原来基于“简单规则+DB”,发展到目前能够支撑10X交易增长的智能化风控系统,基于规则引擎、实时模型计算、流式处理、M/转载 2017-08-22 17:37:07 · 1197 阅读 · 0 评论 -
基于大数据分析的异常检测方法及其思路实例
1 概述随着人类社会信息化程度的不断深入,信息系统产生的数据也在呈几何级数增长。对这些数据的深入分析可以得到很多有价值的信息。由于数据量太大以及数据属性的多样性,导致经典的统计分析方法已经无法适用,必须采用以机器学习理论为基础的大数据分析方法。目前,大数据分析的方法已经被广泛用于商业智能(BI)领域,并取得了令人非常满意的效果。这种方法同样可以应用在信息安全领域,用于发现信息系统的异常转载 2017-08-02 11:39:26 · 11175 阅读 · 0 评论 -
启明星辰阐释基于大数据的异常行为分析
2015年中国电机工程学会年会于11月17日至20日在武汉召开。本次年会的主题为“能源革命与电力发展”。会议期间,中国电机工程学会还安排了3场技术论坛和4场专题研讨会,包括在11月19日举行的“电力信息安全技术研讨会暨2015电力行业网络安全攻防技能竞赛”。研讨会由中国电机工程学会电力信息化专委会主办,并由北京启明星辰信息安全技术有限公司提供技术支持。来自国家电网公司、五大发电集团、电力建设集团,转载 2017-08-22 17:08:58 · 1154 阅读 · 0 评论 -
异常行为分析模型设计
本文针对异常访问现状及问题进行简要描述,在此基础上提出基于一元线性回归的最小二乘法异常访问分析模型,通过该模型解决了异常访问中时间与访问间相关性问题。异常访问是指网络行为偏离正常范围的访问情况。异常访问包含多种场景,如Web访问、数据库访问、操作系统访问、终端交互等。异常访问一直是网络信息安全中备受困扰的。困扰主要体现在以下几个方面,通过某一个模型满足所有场景,模型缺少明确使用条件转载 2017-08-22 17:06:08 · 1486 阅读 · 0 评论 -
扛住100亿次请求?我们来试一试
扛住100亿次请求?我们来试一试https://github.com/xiaojiaqi/10billionhongbaos/wiki/扛住100亿次请求?我们来试一试单机百万的实践https://github.com/xiaojiaqi/C1000kPracticeGuide解释:8核单机同时支撑100万用户在线,qps:4万左右。即100万用户可以连转载 2017-07-28 12:31:06 · 1190 阅读 · 0 评论 -
基于Spark的用户行为路径分析的产品化实践
1. 什么是用户行为路径用户行为路径分析是互联网行业特有的一类数据分析方法,它主要根据每位用户在App或网站中的点击行为日志,分析用户在App或网站中各个模块的流转规律与特点,挖掘用户的访问或点击模式,进而实现一些特定的业务用途,如App核心模块的到达率提升、特定用户群体的主流路径提取与浏览特征刻画,App产品设计的优化与改版等。2. 路径分析业务场景用户行为路径分析的一转载 2017-08-17 14:28:53 · 1110 阅读 · 0 评论 -
使用 ML Pipeline 构建机器学习工作流
引言使用机器学习 (Machine Learning) 技术和方法来解决实际问题,已经被成功应用到多个领域,我们经常能够看到的实例有个性推荐系统,金融反欺诈,自然语言处理和机器翻译,模式识别,智能控制等。一个典型的机器学习机器学习过程通常会包含:源数据 ETL,数据预处理,指标提取,模型训练与交叉验证,新数据预测等。我们可以看到这是一个包含多个步骤的流水线式工作,也就是说数据从收集开始,要转载 2017-08-16 20:34:59 · 4168 阅读 · 0 评论 -
kafka->spark->streaming->mysql(scala)实时数据处理示例
开发环境windows7 64、intellij idea 14.1.5、spark-1.5.2、scala 2.0.4、java1.7、maven3.05将spark中的assembly包引入即可使用local模式运行相关的scala任务,注意不要使用scala2.11,非要使用的话先用这个版本的scala编译一遍spark哈代码部分pom文件先附上pom.xml中的jar包转载 2017-08-02 13:53:23 · 637 阅读 · 1 评论 -
Spark ML包中的几种归一化方法总结
org.apache.spark.ml.feature包中包含了4种不同的归一化方法:NormalizerStandardScalerMinMaxScalerMaxAbsScaler有时感觉会容易混淆,借助官方文档和实际数据的变换,在这里做一次总结。原文地址:http://www.neilron.xyz/spark-ml-feature-scaler/0 数据准备转载 2017-08-16 16:25:06 · 910 阅读 · 0 评论 -
flume-kafka- spark streaming(pyspark) - redis 实时日志收集实时计算
鉴于实在是比较少python相关是spark streaming的例子,对于自己实现的测试例子分享上来一起讨论。另外如果做spark streaming应用程序,强烈建议使用scala,python写日常的spark批处理程序还好这个例子为一个简单的收集hive的元数据日志,监控各个hive客户端访问表的统计。例子简单,但是涉及到不同的组件的应用,结构图(不含红色方框)如下 这也是L转载 2017-08-02 13:45:39 · 602 阅读 · 0 评论 -
用 AI 怼黑产是一种怎样的体验?
导读:2017年8月31日,由腾讯安全科恩实验室主办的“2017腾讯安全国际技术峰会(TenSec 2017)”落下帷幕,本次峰会聚焦安全行业前沿技术,覆盖时下最热的安全议题。在为期两天的议程中,来自腾讯、微软、谷歌等国际工业界和学术界顶级的研究员共带来15个安全议题,现场干货满满,堪称一场技术研究人员的盛会。本篇文章正是选择了AI的这个热点,全文刊登了腾讯安全平台部总经理coolc关于“转载 2017-09-15 14:23:45 · 1102 阅读 · 0 评论 -
七种常用特征工程技术
应用机器学习像是把你当一个伟大的工程师,而非伟大的机器学习专家。 ---google 当在做数据挖掘和数据分析时,数据是所有问题的基础,并且会影响整个工程的流程。相比一些复杂的算法,如何灵活的处理好数据经常会取到意想不到的效益。而处理数据不可或缺的需要使用到特征工程。一、什么是特征工程 简单的说,特征工程是能够将数据像艺术一样展现的技术。为什么这么说呢?因为好的特征转载 2017-09-15 12:12:55 · 458 阅读 · 0 评论 -
美女头像这么多,他们用大数据告诉你哪个是骗子
编者按:作为拥有微信和qq等社交应用的腾讯,用户数据是其非常重要的资源,同时也是腾讯安全重点关注的领域,连CEO马化腾都一直在讲,未来的安全是大数据安全。腾讯云安全总监周斌(Blue)在2017腾讯安全技术国际峰会中,就以“大数据下的黑产画像和反欺诈能力建设”为主题,介绍了在过去一年多的时间里面,腾讯怎样运用大数据的能力更快、更好去发现安全威胁,如何运用大数据的算法揪出异常账户。下面为周斌转载 2017-09-15 14:50:43 · 2325 阅读 · 0 评论 -
金融风险之欺诈分类以及银行防控体系简述
本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营——————————————————————————————————————————一、欺诈、损失定义与分类1、欺诈分类欺诈与客户虚假信息识别的案例较少,因为这些案例的数据源十分敏感,一般不会流入市场供大众参考。从英国信用行业欺诈防范体系中看出,绝大多数欺诈可以分为申请欺...转载 2018-03-01 14:16:23 · 7277 阅读 · 0 评论 -
风控分类模型种类(决策、排序)比较与模型评估体系(ROC/gini/KS/lift)
本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营——————————————————————————————————————————一、风控建模流程以及分类模型建设1、建模流程该图源自课程讲义。主要将建模过程分为了五类。数据准备、变量粗筛、变量清洗、变量细筛、建模与实施。2、分类模型种类与区别风控与其他领域一样,分类模...转载 2018-03-01 14:10:22 · 2649 阅读 · 0 评论 -
信用风险模型(申请评分、行为评分)与数据准备(违约期限、WOE转化)
巴塞尔协议定义了金融风险类型:市场风险、作业风险、信用风险。信用风险ABC模型有进件申请评分、行为评分、催收评分。————————————————————————————————————一、数据准备1、排除一些特定的建模客户用于建模的客户或者申请者必须是日常审批过程中接触到的,需要排除以下两类人:异常行为:销户、按条例拒绝、特殊账户;特殊账户:出国、卡丢失/失窃、死亡、未成年、员工账户、VIP;其...转载 2018-03-01 14:08:46 · 16043 阅读 · 0 评论 -
金融风险控制基础常识——巴塞尔协议+信用评分卡Fico信用分
本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营——————————————————————————————————————————一、巴塞尔协议——银行业监管手册巴塞尔协议Ⅲ是全球银行业监管的标杆,其出台必将引发国际金融监管准则的调整和重组,影响银行的经营模式和发展战略。在巴塞尔协议Ⅲ出台之际,中国银监会及时推出了四...转载 2018-03-01 14:07:19 · 2057 阅读 · 0 评论 -
友盟数据平台负责人吴磊:移动大数据平台的架构与实践
MDCC移动开发者大会友盟大数据数据挖掘架构摘要:移动互联网与大数据几乎是一种相生相伴的关系,回归到App研发,到后期尤其需要数据与运营。在MDCC 2015移动开发者大会平台与技术Android专场上,友盟数据平台负责人吴磊分享了友盟大数据平台的架构与实践。【优快云现场报道】10月14日-16日,“ 2015移动开发者大会 · 中国”(Mobile Developer Confer转载 2017-11-16 18:50:00 · 1813 阅读 · 0 评论 -
使用Keras和Tensorflow检测恶意请求
原文:Detecting Malicious Requests with Keras & Tensorflow作者:Adam Kusey翻译:雁惊寒摘要:本文介绍了如何使用Keras框架来构建LSTM RNN来对正常或者恶意的网络请求进行区分。以下是译文。安全是任何一个Web应用需要关注的东西。良好的开发实践有助于抵御黑客试图窃取数据或攻击应用程序的行为。然而,转载 2017-11-14 21:51:14 · 2609 阅读 · 0 评论 -
基于机器学习的web异常检测
Web防火墙是信息安全的第一道防线。随着网络技术的快速更新,新的黑客技术也层出不穷,为传统规则防火墙带来了挑战。传统web入侵检测技术通过维护规则集对入侵访问进行拦截。一方面,硬规则在灵活的黑客面前,很容易被绕过,且基于以往知识的规则集难以应对0day攻击;另一方面,攻防对抗水涨船高,防守方规则的构造和维护门槛高、成本大。基于机器学习技术的新一代web入侵检测技术有望弥补传统规则集方法的不转载 2017-11-13 21:06:56 · 918 阅读 · 0 评论 -
机器学习(八):AnomalyDetection异常检测_Python
七、异常检测 Anomaly Detectiongithub地址:https://github.com/lawlite19/MachineLearning_Python全部代码1、高斯分布(正态分布)Gaussian distribution分布函数: 其中,u为数据的均值,σ为数据的标准差σ越小,对应的图像越尖参数估计(parameter estimati转载 2017-11-13 19:36:40 · 1307 阅读 · 0 评论 -
利用Python Pandas进行数据预处理-数据清洗
概述 Pandas是Python的一个数据分析包,Pandas最初被作为金融数据分析工具而开发出来,因此,Pandas为时间序列提供了很好的支持。Pandas是基于Numpy构建的含有更高级数据结构和工具的数据分析包。Pandas的数据结构:Series:一维数组,与Numpy中的一位Array类似。二者与Python基本的数据结构List也很相近,区别是List可以放转载 2017-11-13 18:27:47 · 7522 阅读 · 0 评论 -
使用sklearn优雅地进行数据挖掘
目录1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,转载 2017-11-01 19:52:05 · 314 阅读 · 0 评论 -
使用sklearn做单机特征工程
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法转载 2017-11-01 17:52:55 · 262 阅读 · 0 评论 -
python中numpy与matlab的对应关系
在本文中,将常用的MATLAB函数及运算与numpy中对应的函数及运算汇总在表中,大部分的运算都经过验证,如有问题请留言:通用函数等价表:matlabnumpy说明help funcinfo(func) or help(func)orfunc?(在Ipython环境下)查看关于func的帮助文档ty转载 2017-09-30 14:00:18 · 2546 阅读 · 0 评论 -
数据挖掘之异常点检测
异常点检测方法一、基本概念 异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。 1、常见的异常成因:数据来源于不同的类(异常对象来自于一个与大多数数据对象源(类)不同的源(类)的思想),自然变异,以及数据测量或收集误差。 2、异常检测的方法:(1)基于模型的技术:首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果转载 2017-09-12 18:11:35 · 2893 阅读 · 0 评论 -
推荐系统那点事 —— 基于Spark MLlib的特征选择
在机器学习中,一般都会按照下面几个步骤:特征提取、数据预处理、特征选择、模型训练、检验优化。那么特征的选择就很关键了,一般模型最后效果的好坏往往都是跟特征的选择有关系的,因为模型本身的参数并没有太多优化的点,反而特征这边有时候多加一个或者少加一个,最终的结果都会差别很大。在SparkMLlib中为我们提供了几种特征选择的方法,分别是VectorSlicer、RFormula和ChiSq转载 2017-09-11 22:02:59 · 467 阅读 · 0 评论 -
结合Scikit-learn介绍几种常用的特征选择方法
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自转载 2017-09-11 20:37:58 · 422 阅读 · 0 评论 -
Spark强大的函数扩展功能
在数据分析领域中,没有人能预见所有的数据运算,以至于将它们都内置好,一切准备完好,用户只需要考虑用,万事大吉。扩展性是一个平台的生存之本,一个封闭的平台如何能够拥抱变化?在对数据进行分析时,无论是算法也好,分析逻辑也罢,最好的重用单位自然还是:函数。故而,对于一个大数据处理平台而言,倘若不能支持函数的扩展,确乎是不可想象的。Spark首先是一个开源框架,当我们发现一些函数具有通用的性质,自然可转载 2017-09-08 16:30:26 · 757 阅读 · 0 评论 -
Kafka+Spark Streaming+Redis实时计算整合实践
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算。我转载 2017-08-02 12:32:45 · 740 阅读 · 0 评论 -
Cloudera Manager 5和CDH5离线安装
一、相关软件准备及规划1、相关软件及下载地址:Cloudera Manager:http://archive-primary.cloudera.com/cm5/cm/5/CDH安装包地址:http://archive.cloudera.com/cdh5/parcels/latest/JAVA官方下载(需登陆):http://www.oracle.com/techne转载 2017-07-19 20:03:14 · 451 阅读 · 0 评论 -
卸载 Cloudera Manager 5.1.x.和 相关软件【官网翻译:高可用】
卸载 Cloudera Manager 5.1.x.和 相关软件【官网翻译:高可用】----存储,学习,共享问题导读:1.不同的安装方式,卸载方法存在什么区别?2.不同的操作系统,卸载 Cloudera Manager Server and 数据库有什么区别?重新安装不完整如果你来到这里,因为你的安装没有完成(例如,如果它是由一个虚拟机超时中断),和你想继续安装转载 2017-07-19 14:02:48 · 515 阅读 · 0 评论