
数据挖掘
名字被猪吃掉了
这个作者很懒,什么都没留下…
展开
-
Mining Precision Interface From Query Logs -- 学习笔记(一)
Mining Precision Interface From Query Logs》是SIGMOD2019所接收到的papers当中的一篇。花了大概4天时间阅读,全英文的paper读起来还是有点吃力的,不过好在大部分还是能看懂。下面写写自己的学习笔记:摘要(Abstract)摘要其实就能概括整个文章所要解决的问题或者提出的一种新技术:可视化交互工具让数据分析越来越有效,并且对普通大众...原创 2019-08-05 09:59:26 · 416 阅读 · 0 评论 -
数据仓库与联机分析处理技术
计算机系统中存在两类不同数据处理工作:操作型处理和分析型处理,也称联机事务处理(OLTP)和联机分析处理(OLAP)操作型也叫事务处理,通常是对一个或一组记录的查询和修改。分析型指对数据的查询和分析操作,通常是对海量数据查询和分析,要访问的数据量很大。因此诞生了DW数据仓库,数据仓库将操作型和分析型区分开来。传统的数据库技术为操作型处理服务,DW为分析型处理服务。(一)数据仓...原创 2019-08-12 14:53:37 · 1691 阅读 · 0 评论 -
MapReduce
短小精悍的简介:MapReduce是Google提出的大规模并行计算解决方案,应用于大规模廉价集群上的大数据并行处理。MapReduce以key/value的分布式存储系统为基础,通过元数据集中存储,数据以chunk为单位分布存储和数据chunk冗余复制来保证高可用性。MapReduce是一种并行编程模型,将计算阶段分为两个阶段:Map阶段和Reduce阶段。首先把输入数据源分块,交给多个...原创 2019-08-11 14:37:03 · 5699 阅读 · 0 评论 -
Mining Precision Interface From Query Logs -- 学习笔记(三)
读完第五部分,全文的重中之重也可以说是学习完毕了。前半部分是对提出的问题的 一个解决方案。接下来,作者要阐述的 是针对这个问题,有没有更进一步的优化方案,使得生成精确界面的成本代价更小。优化也是问题研究中一个很重要的方面,当数据量庞大时,好的算法有时可以降低很大级别数量级的复杂度,提高性能。下面,来读一读作者关于此问题的优化方案:先回顾一下解决问题的步骤:(1)计算出query logs中...原创 2019-08-08 08:12:29 · 243 阅读 · 0 评论 -
2PC协议(2-phase-commit protocol)
一、协议概述两阶段提交协议(2-phase-commit protocol,2PC)可以保证数据的强一致性,许多分布式关系型数据管理系统采用此协议来完成分布式事务。它是协调所有分布式原子事务参与者,并决定提交或回滚的分布式算法。也是解决一致性问题的一致性算法。为了能够使参与者从故障在恢复,采用日志记录协议的状态,虽然使用日志降低了性能但是节点能从故障中恢复。在2PC中,系统一般含两类节点:...原创 2019-08-08 16:00:24 · 604 阅读 · 0 评论 -
Paxos协议:分布式系统核心算法
Paxos协议是什么?一个可靠的存储系统:基于多数派读写 每个paxos实例用来存储一个值 用2轮RPC(远程调用)来确定一个值 一个值“确定”后不能被修改 “确定”指被多数派接受写入 强一致性Paxos的目的:目的是为了解决分布式环境下一致性的问题。多个节点并发操纵数据,如何保证在读写过程中数据的一致性,并且解决方案要能适应分布式环境下的不可靠性Paxos...原创 2019-08-08 14:41:25 · 318 阅读 · 0 评论 -
Apache Spark概述
MR和Hadoop已被证明是高性能处理海量数据的最佳解决方案。然而,MR在迭代计算中性能不足:多个MR作业之间的输出必须被写入HDFS。在单个MR作业中,因为MR框架存在的一些缺点也存在性能不足。1 Apache Spark是什么?一个快速的企业级大规模数据处理引擎,可以与Apache Hadoop进行互操作 用Scala编写的。Scala是一种兼顾面向对象和函数式的编程语言,在JVM中...原创 2019-08-05 17:27:10 · 686 阅读 · 0 评论 -
Hadoop 底层原理介绍
1 概述Apache Hadoop是一个软件框架,可在具有数千个节点和PB级数据的大型集群上进行分布式处理。Hadoop主要包含四个项目:Hadoop Common、Hadoop分布式文件系统(HDFS)、YARN(Yet Another Resource Negoiator)、MapReduce。HDFS用于存储数据 MapReduce用于处理数据 YARN用来管理集群的资源(C...转载 2019-08-05 15:59:37 · 1067 阅读 · 0 评论 -
Mining Precision Interface From Query Logs -- 学习笔记(二)
4 交互mining 前面说到解决最终问题的步骤之一:分析日志以识别有意义的结构更改,因为如果单纯用成对AST之间的差异表 会导致不相关的差异,所以并不是所有从logs中分析出的差异对生成精确界面都是有意义的。本节作者提出的 语句以及编写 语句的工具:就是一种可以指定 有意义的结构改变的特定于域的语言。Q1:为什么不使用 来分析所有 中的差异?答:有三个方面:...原创 2019-08-06 16:20:25 · 240 阅读 · 0 评论 -
Python网络爬虫从入门到实践 -- chapter 1 -- 网络爬虫入门
1 Robots协议Robots协议(爬虫协议)全称网络爬虫排除标准,网站通过Robots协议告诉搜索引擎哪些页面可以抓取(Allow:/),哪些不能抓取(Disallow:/)。这个协议是国际互联网界遵守的道德规范。在进行爬虫时要对自己的爬虫行为自我管理,过快或者过于密集的网络爬虫会对服务器产生巨大的压力。因此要遵守Robots协议,约束爬虫速度;使用爬到的数据时遵守网站的知识产权。...原创 2019-08-28 20:06:06 · 552 阅读 · 0 评论