- 博客(44)
- 资源 (15)
- 收藏
- 关注
原创 【读书笔记】2018-阿里云《区块链在企业的落地探索》
前沿:虽然是2018年云栖大会的报告,但是整体思路清晰,特别是与金融/保险行业强相关,还是值得一读和一品。PPT下载地址:https://download.youkuaiyun.com/download/zongzhiyuan/12127331作者介绍:刘昕,原阿里云企业应用事业部高级产品专家,目前为蚂蚁金服智能科技事业群的高级产品专家。笔记内容:1. 金融领域如何看待区块链:“在一个...
2020-01-31 16:39:07
392
原创 【论文精读】Noiseprint: a CNN-based camera model fingerprint
paper:https://ieeexplore.ieee.org/document/8713484开源代码:https://github.com/grip-unina/noiseprint文献分类基于semantic或者physical不连续性 像素级的统计方法 model-based approach 目的:建立针对某些特征的数学模型 缺点:每一种方法的适用范围都较窄...
2020-01-31 15:26:51
3711
原创 【读书笔记】2018《后谷歌时代:大数据的衰落及区块链经济的崛起》
第一章:勿窃此书1. 威廉·布莱恩·阿瑟(圣菲研究院,2017):当前经济发展到了基本上为每个人都生产了足够多产品的阶段……故而,我们正在步入的这个新时代所面临的不再是生产多少产品,而是关于分配,关于人们如何分享生产所得的问题。2. 安全不是通过增加新的密码层,增加更多着装随意的“特警队”队员,增加入侵检测方案,提供反病毒补丁,增强恶意软件预防和软件修复就能实现。安全是所有其他服务的基础,...
2020-01-28 15:56:25
2380
原创 【实时计算架构系列1】WePay如何基于谷歌云平台(GCP)和kafka实现实时流式欺诈检测
原文:https://cloud.google.com/blog/big-data/2017/08/how-wepay-uses-stream-analytics-for-real-time-fraud-detection-using-gcp-and-apache-kafkaBy Wei Li, Lead Engineer at WePay首先,wepay反欺诈场景:交易欺诈
2017-09-24 15:59:35
1004
原创 【Spark系列8】Spark Shuffle FetchFailedException报错解决方案
前半部分来源:http://blog.youkuaiyun.com/lsshlsw/article/details/51213610后半部分是我的优化方案供大家参考。+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++SparkSQL shuffle操作带来的报错o
2017-09-24 15:25:21
22228
转载 【Spark系列7】Spark如何读写hive
hive数据表建立可以在hive上建立,或者使用hiveContext.sql(“create table ....")1) 写入hive表case class Person(name:String,col1:Int,col2:String)val sc = new org.apache.spark.SparkContext val hiveContext = new org.a
2017-09-24 14:48:37
2888
转载 【数据结构系列1】Hash_Map
hash_map和map的区别在哪里?构造函数。hash_map需要hash函数,等于函数;map只需要比较函数(小于函数).存储结构。hash_map采用hash表存储,map一般采用红黑树(RB Tree)实现。因此其memory数据结构是不一样的。什么时候需要用hash_map,什么时候需要用map?总 体来说,hash_map 查找速度会比map快,而且查找速度基本和数
2017-09-10 15:04:05
381
转载 【Flink系列2】时间窗口
引出对于流处理系统来说,流入的消息是无限的,所以对于聚合或是连接等操作,流处理系统需要对流入的消息进行分段,然后基于每一段数据进行聚合或是连接等操作。消息的分段即称为窗口,流处理系统支持的窗口有很多类型,最常见的就是时间窗口,基于时间间隔对消息进行分段处理。本节主要介绍Flink流处理系统支持的各种时间窗口。对于目前大部分流处理系统来说,时间窗口一般是根据Task所在节点的本地时钟来进
2017-09-10 14:12:25
3809
转载 【Flink系列1】flink与spark的区别
spark基本架构flink基本架构Spark提出的最主要抽象概念是弹性分布式数据集(RDD)flink支持增量迭代计算性能对比首先它们都可以基于内存计算框架进行实时计算,所以都拥有非常好的计算性能。经过测试,Flink计算性能上略好。测试环境:CPU:7000个;内存:单机128GB;版本:Hadoop 2.
2017-09-10 12:51:20
15338
转载 【机器学习系列2】FPGrowth算法与spark实现
原理基础支持度支持度是指在所有项集中{X, Y}出现的可能性,即项集中同时含有X和Y的概率: 该指标作为建立强关联规则的第一个门槛,衡量了所考察关联规则在“量”上的多少。置信度置信度表示在先决条件X发生的条件下,关联结果Y发生的概率: 这是生成强关联规则的第二个门槛,衡量了所考察的关联规则在“质”上的可靠性。提升度提升度表示在含有X的条件下同时含有Y的可
2017-09-07 17:22:17
3617
转载 【区块链系列1】区块链科普
前言区块链本质上是一个账本,当一个商品、一个行为、一个交易开始的时候,可以产生一个区块,它的整个流动的生命周期被详细的记录下来,形成一个链。这个账本会存在互联网上,理论上无法被任何人拿走、篡改或者销毁。区块链的优缺点优点:1.分布式,去中心化拿比特币来讲,去中心化的好处就是不需要有一个类似银行的机构来为双方交易提供信任和担保。2.不可篡改、撤销因为区
2017-09-06 20:11:00
1139
转载 【机器学习系列1】Xgboost算法
http://skyhigh233.com/blog/2016/12/01/gbdt-and-xgboost/RF、GBDT和xgboostRF:从M个训练样本中随机选取m个样本,从N个特征中随机选取n个特征,然后建立一颗决策树。这样训练出T棵树后,让这k颗树对测试集进行投票产生决策值。RF是一种bagging的思路。可以并行化处理。GBDT:总共构建T棵树
2017-08-30 20:12:04
739
转载 【招聘系列2】Hive面试问题
Hive的运算逻辑存的是和hdfs的映射关系,hive是逻辑上的数据仓库,实际操作的都是hdfs上的文件,HQL就是用sql语法来写的mr程序。Hive与关系型数据库的关系没有关系,hive是数据仓库,不能和数据库一样进行实时的CURD操作。 是一次写入多次读取的操作,可以看成是ETL工具。
2017-08-29 19:49:19
446
转载 【招聘系列1】Hadoop常见问题
简答说一下Hadoop的map-reduce编程模型hadoop和Spark的都是并行计算,那么他们有什么相同和区别两者都是用mr模型来进行并行计算,hadoop的一个作业称为job,job里面分为map task和reduce task,每个task都是在自己的进程中运行的,当task结束时,进程也会结束spark用户提交的任务成为applicatio
2017-08-29 19:42:10
319
转载 【Spark系列6】spark submit提交任务
根据spark官网,在提交任务的时候指定–jars,用逗号分开。这样做的缺点是每次都要指定jar包,如果jar包少的话可以这么做,但是如果多的话会很麻烦。spark-submit --master yarn-client --executor-memory 3g --executor-cores 2 --num-executors 2 --jars ***.jar,***.jar(你的jar包
2017-08-29 19:05:11
671
转载 【Spark系列5】cache和persist的区别
通过观察RDD.Scala源代码即可知道cache和persist的区别:def persist(newLevel: StorageLevel): this.type = { if (storageLevel != StorageLevel.NONE && newLevel != storageLevel) { throw new UnsupportedOp
2017-08-29 15:14:44
955
转载 【Spark系列4】Spark的shuffle原理
大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。 在Spar
2017-08-29 13:08:24
1123
转载 【Spark系列3】Spark优化
遇到的问题数据倾斜问题数据倾斜后果很严重:OOM、速度慢,不能控制时间数据倾斜的定位:1、Web UI 可以清晰看见哪些个task运行的数据量大小2、log 日志 可以清晰的告诉是哪一行出现问题OOM 在哪个stage出现了数据倾斜,一般在shuffle过程3、代码走读,重点看join groupbykey reducebykey等关键代码;4、对数据特征分布
2017-08-29 13:03:00
1201
转载 如何去硅谷就业?
作者:眠眠链接:https://www.zhihu.com/question/35753713/answer/64727333来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。一, 像上文说的一样,直接申请硅谷的IT公司。虽然看上去比较难,但是如果你的成绩不错,学校还行,底子够硬的话还是有机会的。硅谷并不是只有大公司,也有很多startup级别的
2017-04-30 13:22:25
5640
原创 【HTTP协议系列5】http proxy原理
代理的作用一、提高访问速度。因为客户要求的数据存于代理服务器的硬盘中,因此下次这个客户或其它客户再要求相同目的站点的数据时,就会直接从代理服务器的硬盘中读取,代理服务器起到了缓存的作用,对热门站点有很多客户访问时,代理服务器的优势更为明显。 二、Proxy可以起到防火墙的作用。因为所有使用代理服务器的用户都必须通过代理服务器访问远程站点,因此在代理服务器上就可以设置相应的限制,以过滤
2016-12-18 16:17:35
31799
原创 【HTTP协议系列3】http请求
HTTP请求报文一个HTTP请求报文由请求行(request line)、请求头部(header)、空行和请求数据4个部分组成,下图给出了请求报文的一般格式。<request-line> <headers> <blank line> [<request-body>请求行请求行由请求方法字段、URL字段和HTTP协议版本
2016-12-18 15:47:25
1162
转载 【TCP/IP系列1】TCP/IP经典书籍
《TCP/IP协议详解》三卷,第一卷特别经典,适合反复地看,对于几个基础的协议一定要非常清晰,比如IP、TCP、UDP、ICMP,一定记住每个协议所有字段细节,ping,traceroute 的工作原理。可以做一些小实验:比如ping,你可以先ping 小包、再ping 大包,如2000字节,再ping 2000 DF=1,看看会发生什么?做实验的同时,用抓包软件来capture看看协议的
2016-12-08 12:54:39
10472
原创 【Scrapy爬虫系列2】性能调优
加快爬虫速度:在 settings.py 里把 TIMEOUT 设小点提高并发数( CONCURRENT_REQUESTS )瓶颈在 IO ,所以很有可能 IO 跑满,但是 CPU 没跑满,所以你用 CPU 来加速抓取其实是不成立的。不如开几个进程来跑死循环,这样 CPU 就跑满了在 setting.py 里面,可以把单 IP 或者单 domain 的 concurrent
2016-11-27 15:40:18
12795
1
原创 【Scrapy爬虫系列1】爬虫的几大问题——抛砖引玉
什么是爬虫?抓取特定网站网页的HTML数据什么是Scrapy?Scrapy是一个基于Twisted,纯Python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫。Scrapy使用Twisted这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。Scrapy的几大核心模块:S
2016-11-26 11:42:03
1107
原创 【Python系列6】Navigate for mysql显示Python导入的中文
很多国外软件对中文的支持都不太好,mysql也不例外。为了在客户端Naviagte for mysql中显示中文,核心是要求客户端、数据本身、系统连接、数据库等都统一为utf8编码的,具体地需要做到如下几点:1. Python程序本身需要在头部添加:# /usr/bin/env python# coding: utf-82. 通过navigate对数据库的编码进行修改(右键—
2016-11-23 22:11:27
1077
转载 【HTTP协议系列2】User-Agent的历史
1993年,NCSA 发布了首款 web 浏览器 Mosaic。它的 user-agent 字串非常简洁: Mosaic/0.9虽然当时由于它对操作系统和平台的依赖性,但是基本格式还是很简单明了。在文本中,斜杠前面是产品名称(可能会显示为 NCSA Mosaic 或是其他类似的字),斜杠后面是产品版本号。 Netscape Communications 开发了
2016-02-11 15:57:22
2774
转载 【HTTP协议系列1】Chrome浏览器查看http头
使用chrome浏览器自带的开发者工具查看http头的方法1.在网页任意地方右击选择审查元素或者按下 shift+ctrl+c, 打开chrome自带的调试工具;2.选择network标签, 刷新网页(在打开调试工具的情况下刷新);3.刷新后在左边找到该网页url,点击 后右边选择headers,就可以看到当前网页的http头了;请求Header(HTTP request
2016-02-11 10:31:00
8017
原创 Intellij搭建spark开发环境
今天在windows上搭建了IntelliJ。主要参考的是:http://blog.youkuaiyun.com/pirage/article/details/50216197(1)首先,安装JDK:http://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.html需要注意的是:
2016-02-05 10:39:06
650
原创 【Python系列5】set和list的妙用
set和list是Python常用的结构类型,这里不再多述。本文主要是总结了一些它们配合起来的一些妙用。(1)去重比如一个序列:>>>line = ['a','b','a']为了去除重复的'a',可以进行如下操作:>>> list(set(line))['a', 'b'](2)提取两个序列中出现过的非重复元素比如两个序列:>>> line1=['a','b','
2015-11-29 21:50:42
13429
原创 【Spark系列2】reduceByKey和groupByKey区别与用法
在spark中,我们知道一切的操作都是基于RDD的。在使用中,RDD有一种非常特殊也是非常实用的format——pair RDD,即RDD的每一行是(key, value)的格式。这种格式很像Python的字典类型,便于针对key进行一些处理。针对pair RDD这样的特殊形式,spark中定义了许多方便的操作,今天主要介绍一下reduceByKey和groupByKey,因为在接下来
2015-11-21 15:47:00
80564
1
原创 人工智能与数据挖掘顶级会议
第一等级:(DM) SIGKDD: ACM Knowledge Discovery and Data Mining (since 1995)(DM) ICDM: IEEE International Conference on Data Mining (since 2001)(AI) IJCAI: Intl Joint Conf on AI (since 1969)(AI) AAAI: A
2015-11-21 15:25:43
3131
原创 【HTTP协议系列4】服务器日志之X_Forwarded_For
X_Forwarded_ForX-Forwarded-For:简称XFF头,它代表客户端,也就是HTTP的请求端真实的IP,只有在通过了HTTP代理或者负载均衡服务器时才会添加该项。它不是RFC中定义的标准请求头信息,在squid缓存代理服务器开发文档中可以找到该项的详细介绍。Squid缓存代理服务器的开发人员最早引入了这一HTTP头字段,并由IETF在Forwarded-For HTTP
2015-11-14 16:20:54
2582
原创 【Spark系列1】Windows下Spark单机版的安装
安装Windows单机版spark:预编译http://www.nikest.com/web/jswd/2015/0310/137975.html自己编译http://thinkerou.com/2015-05/How-to-Build-Spark-on-Windows/下载安装scala:http://blog.youkuaiyun.com/chszs/article/details/7
2015-10-30 09:52:51
1632
转载 【转】学习R语言超强资源
#学习 R 的方法知识和耐心,是成为强者的唯一方法。- 通过阅读来学习。包括了阅读经典的教材、代码、论文、学习公开课。- 通过牛人来学习。包括同行的聚会、讨论、大牛的博客、微博、twitter、RSS。- 通过练习来学习。包括代码练习题、参加kaggle比赛、解决实际工作中的难题。- 通过分享来学习。包括自己写笔记、写博客、写书、翻译书,
2015-10-24 10:53:19
2030
原创 【特征工程系列3】Zipf定律及其特征化
(1). Zipf定律描述1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系(如图1),这种分布就称为Zipf定律。其公式为:P(r)=C/r^a这里,r表示一个单词的出现频率的排名,P(r)表示排名为的单词的出现频率。单词频率分布中C约等于0.1, a约等于1。需
2015-10-09 10:43:59
1915
原创 【特征工程系列2】如何获得训练数据的标签?
机器学习可以大致分为有监督和无监督两大类。其中,有监督是指训练数据是带标签的,如果标签准确,其性能一般优于无监督学习。 在各大教科书上,“带标签”和“不带标签”都是直接假定的。那么,问题来了,在现实中,如何获得带标签的训练数据呢?结合自己最近参与的数据挖掘项目,我总结出了以下三种方法:1) 人工标注:顾名思义,就是由专家人工标注部分数据,用作训练集。这种方法工作
2015-09-27 10:08:23
7602
转载 【ML经典书籍系列1】解读PRML
转自知乎:http://www.zhihu.com/question/20970802,作者杨超 本书是经典中的经典我完整看了3遍以上要算上没看完的几次得有快10遍 (剖析自己,没有一本是认真看完的)是的前几次我都是看的半途而废 另外我也看过数本相关领域的大而全的书:如统计学习基础啊,kevin最新的那本啊,还有koller的以及jordan的图模型,以及以kernel为线索的
2015-09-20 15:49:21
7387
转载 【Python系列4】国外程序员整理的机器学习资源大全——Python篇
原文链接: awesome-machine-learning 翻译: 伯乐在线 - toolate译文链接: http://blog.jobbole.com/73806/上面的链接中,还有其他常用语言(C++, Closure, Go, Java, JavaScript, Julia, Lua, Matlab, .Net, Ruby, R, Scala)的机器学习库介绍。本文只是罗列了
2015-09-20 14:42:25
2226
原创 【特征工程系列1】用户评价信息的特征化
在各种互联网平台中,或多或少都可以获得用户对商品、产品、服务等的评价信息(往往以星级或分数的形式展现)。通过这些信息,我们可以方便的提取这些商品、产品或服务的“质量”特征。对于“质量”特征,常用的方法是求数学期望。例如,假设某一商品得到1星的次数是x1,2星的次数是x2,3星的次数为x3,4星的次数为x4,5星的次数为x5,这样,可以算出该商品的期望星数为:E(x)=1*x1/(x1+x2
2015-09-20 14:09:09
626
原创 【Python系列3】两个txt文件通过id进行关联
进行不同表的关联,我们首先想到的都是通过SQL在数据库中完成。然而,最近在做项目的过程中,却遇到了两个表都保存为txt文件,并且需要按照ID进行关联的问题。为了解决这个问题,自己写了下面一段Python程序,主要思想是将一个txt中的ID作为字典的key。def JointTWOTXT(self): #将A.txt和B.txt按照ID进行关联
2015-09-04 22:32:26
3481
aaai_2020_xai_tutorial_Explainable AI.pdf
2021-01-10
超大规模深度学习在美团的应用-余建平.pdf
2020-01-28
Adversarial Examples in Modern Machine Learning- A Review.pdf
2020-01-28
Toward AI Security.pdf
2020-01-28
An Introduction to Deep Reinforcement Learning
2018-12-26
Forward Neural Network for Time Series Anomaly Detection
2018-12-26
一文读懂如何用深度学习实现网络安全
2018-12-26
51单片机c语言教程
2009-10-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人