- 博客(22)
- 收藏
- 关注
原创 大数据Hadoop生态圈【1】
1、Hadoop 1.0的构架 HDFS :分布式文件的存储。 YARN:数据处理的资源调度器,负责调度内存CPU带宽等计算资源。 MapReduce:做实时的离线批处理的工具,基于磁盘的。 Tez:优化和分析mapreduce的作业,构建成一个有向无环图,保证处理效率 Spark:与Mapreduce类似,不过是基于内存的处理速度更快。 Hive:实现数据仓库的功能,支持SQL...
2018-10-05 21:45:29
581
翻译 SQL语言的进阶整理【3】
1、语言结构 文字值 1.1 字符串、数值型、日期、16进制、布尔值、位域、NULL值 字符串: 字符串指用单引号(‘'’)或双引号(‘"’)引用起来的字符序列。 转义字符 数值型: 整数用一系列阿拉伯数字表示,浮点数使用.作为十进制间隔符,以上两种类型的数值均可以在前面加一个-来表示负值。 日期类型: 作为字母'YYYY-MM-DD'或 'YY-MM-DD'格式的字符串。...
2018-10-03 10:35:23
784
翻译 SQL语言的进阶整理【2】
SQL 中文文档 1 简介 1.1 数据库和 SQL 概念 数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它的产生距今已有六十多年。随着信息技术和市场的发展,数据库变得无处不在:它在电子商务、银行系统等众多领域都被广泛使用,且成为其系统的重要组成部分。 数据库用于记录数据,使用数据库记录数据可以表现出各种数据间的联系,也可以很方便地对所记录的数据进行增、删、改、查等操...
2018-10-02 16:37:34
327
原创 数据分析师初级的技能树
本人正在毕业季,从开始做的半导体行业跨行转入数据分析的行业。 这里记录自己在数据分析中定位的内容。 初级分析师需要了解的内容。 从事数据分析显而易见,概率论和数理统计要过关,你要多因子分析的各种内容。其次是python代码的书写,SQL数据库的学习。...
2018-09-24 15:38:27
1734
转载 计算机网诺——7层协议【1】
ISO7层模型【OSI七层协议是由ISO (International Standards Organization)在1978年为网络通信制定的】 物理层:为数据链路层提供物理连接,在其上串行传送比特流。单位比特 数据链路层:负责在网络节点间的线路上通过检测、流量控制和重发等手段,无差错地传送以帧为单位的数据。 网络层:为了将数据分组从源(源端系统)送到目的地(目标端系统),网络层的任务...
2018-09-19 10:06:03
419
原创 最全的初级SQL语言的整理【1】
SQL 语言使用的基本语法。 初级 一、基本操作 二、查询操作 难点解释: 1、CASE 。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。以后解释 三、聚合函数 难点解释: 1、group by 。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。以后解释 四、表间操作 难点解释: 1、JION ...
2018-09-18 23:11:07
255
原创 最全的最通俗易懂的算法——排序算法【1】
1、冒泡排序 冒泡排序的基本思想就是:从无序序列头部开始,进行两两比较,根据大小交换位置,直到最后将最大(小)的数据元素交换到了无序队列的队尾,从而成为有序序列的一部分;下一次继续这个过程,直到所有数据元素都排好序。 # python [升序的排序] s = [3,4,5,6,7,12,11] n = len(s) i=0 j=0 for i in range(len(s)-1): ...
2018-09-15 20:41:17
1137
原创 Jupyter notebook的使用大全
https://hub.packtpub.com/getting-started-jupyter-notebook-part-1/# https://hub.packtpub.com/getting-started-jupyter-notebook-part-2/ 上面的是原文 ,如果想快速看我下面介绍。 环境 Anoconda3+python3.6+windows10 原文看上面的英文文...
2018-08-10 12:06:51
645
翻译 python爬虫【1】——词云解释
需要的库:worldcloud 【词云库】jieba【分频字段】 介绍一下词云用法,看代码理解。网上很多人都介绍一点,会用但是不会系统的介绍这个库,在查看官方文档的时候在仔细的解释下。在代码中注释中文,每一个命令是做什么的。就当作学习一下如何看文档吧。 官方文档:worldcloud 1、API Reference 1.1 WordCloud(font_path, width, he...
2018-07-31 17:14:27
3220
转载 pycharm【3】——更多的高级操作(重点)
参考下面这篇博文 https://www.jianshu.com/p/2bfc19e1381c 是一位大牛直接在pychram的官网上翻译过来的,pychram的全部操作。 我们只是使用这个,所以用的舒服就行了,不需要系统的学习,知道常用的就好。...
2018-07-26 13:57:26
506
翻译 pycharm【2】——自定义头部模板
File->settings->Editor->File and Code Templates->Python Script #! /usr/bin/env python # -*- coding: utf-8 -*- """ @author: Canon_wang @file: ${NAME}.py @time: ${DATE} ${TIME} @software...
2018-07-26 12:09:57
375
翻译 pycharm【1】_使用总结,基本设置
电脑系统的环境: anoconda3 +python3.6 python3.7 pycharm-community-2018.1.3,虽然很多,但是不冲突,我们用pycharm+anoconda 可以完美的兼容各种问题。 这里要说的是,我们要如何去 玩 pycharm这个强大的IDLE 1、字体设置(主题) 2、第一个程序hello world,用anoconda的库 3...
2018-07-26 11:40:56
406
原创 杂谈2——20180722
距离找工作还有1个月不到,我一直很慌张,暑假这两个月一直在刷机器学习吴恩达,python数据结构和基本语法。 还好当年考研究生,数学有一定的基础,高等数学,线代,还有概率论。对于很机器学习的公式推导,还算能理解。 关于技术能力:现在的基础薄弱点是数据结构和代码的能力,这个需要长时间的锻炼。 暑假结束前,我的任务: 1、机器学习吴恩达的课+课后习题要独立做完,总结。预计会有5-6篇博客...
2018-07-22 23:11:10
254
翻译 python数据结构——链表(最简单的解释)
对于链表,当初学C的时候就没有理解的很清楚,现在又重新遇到,要把这个弄明白。 数据结构是计算机科学必须掌握的一门学问,很多的教材都是用C语言实现链表,因为C有指针,可以很方便的控制内存,很方便就实现链表,其他的语言,则没那么方便,有很多都是用模拟链表,因为python是动态语言,可以直接把对象赋值给新的变量。在C/C++中,通常采用“指针+结构体”来实现链表;而在Python中,则可以采用“引用...
2018-07-22 22:54:06
38075
翻译 python入门——面向对象编程,类(class)介绍
from 缪雪峰 python3入门 这里说一下自己学习python的感受,当初找了本书看,python简明教程,因为只是当作语言工具看,看了一个星期把代码的数据结构看完,就没有再看了,后面自己动手写爬虫的时候,特别困难,本身基础就不够,现在我发现学习语言最好的就是你去用它。不断地去用,理解代码的魅力。我是很喜欢代码的感觉。很舒服。整个8月份会不断介绍python数据结构和python的基础语法...
2018-07-22 15:49:04
1125
原创 机器学习——吴恩达第4~5周总结(神经网路)
总结下自己这段时间看的神经网络结构,主要介绍的算法是FP/BP 算法的推导的过程和对课程的总结。 会涉及到,FP/BP算法,正则优化,基础推导。 一、神经网路(Neural Networks) 为什么要用NN:之前介绍的回归和逻辑回归,都有一个缺点,就是特征太多的时候计算负荷大。所以这个时候神经网络出现了。 什么是NN:找出大脑的学习算法,然后在计算机上执行大脑学习算法或与之相似的算法。 ...
2018-07-21 22:01:44
414
翻译 python 中的关键字———ruturn
对于return的作用不是很清楚,只知道在python中是返回一个值,理解的不够细致,然后在网上把这个详细了解了下。 总结:return 语句是Python语言中函数返回的一个值,每个函数都应该有一个返回值;其中,return返回值可以是一个数值,一个字符串,一个布尔值或者一个列表。 Python 函数返回值return ,函数中一定要有return 返回值才是完整的函数,如果你没有定义Pyt...
2018-07-21 15:11:10
636
原创 机器学习——吴恩达第1~3周总结(线性逻辑回归)
机器学习主要的目的是一种数学建模,利用已有的数据,去拟合一个规则的函数,从而来大概率的去预测未来的数据。 我主要把,如何利用建立这样的方程呢??代码的实现解释给简要的梳理。 1、监督学习(Supervised Learning) 定义:在已有的数据上进行训练。 分类:回归问题/////逻辑回归问题(例如:房间结果预测是回归的、判断邮件是否为垃圾邮件为逻辑回归) 这里补充一句:回归指...
2018-07-20 11:37:23
371
翻译 数据挖掘和机器学习
人们会对机器学习与数据挖掘这两个名词感到困惑。如果你翻开一本冠以机器学习之名的教科书,再同时翻开一本名叫数据挖掘的教材,你会发现二者之间有相当多重合的内容。 但如果细研究起来,二者也的确是各自不同的领域。 数据挖掘可以视为数据库、机器学习和统计学三者的交叉。数据挖掘可以视为数据库、机器学习和统计学三者的交叉。 当然,数据挖掘中肯定还有其他非机器学习范畴的技术存在。Apriori算法就属于一种...
2018-07-16 17:18:19
518
原创 杂谈1——20180716
从今年的4月初开始准备找工作的各种事情,计划的python等一步一步的再来。发现自己有一个很大的毛病。 1、看python的时候很着急。 2、很多内容没有理解细致和清楚。 3、容易放弃或者热情不够。 第一个想要告诉自己的是,坚持自己喜欢的一直做下去,当年享受的福和快乐该还回来了。把每一件事弄得细致一些,特别是在后期不断的细化某一个领域的时候。 第二个想和自己说的,相信自己可以,坚持...
2018-07-16 16:49:02
154
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅