- 博客(46)
- 资源 (2)
- 收藏
- 关注
原创 Spark RDD操作API -- Actions
reduce(func)对RDD进行聚合操作>>> rdd = sc.parallelize([1, 2, 3, 4, 5])>>> rdd.reduce(lambda x,y:x+y)15collect()获取RDD的数据>>> rdd = sc.parallelize([1, 2, 3, 4, 5])>>>...
2020-01-02 13:25:53
186
原创 Spark RDD操作API -- Transformations
wordcount例子from pyspark import SparkConf, SparkContextfrom pyspark import SparkContextfrom operator import addimport os'''1.txt 文件中的内容为:hello world hahah how are youtodo world world hello worl...
2020-01-02 11:39:36
288
原创 Hbase依赖情况
文档http://hbase.apache.org/book.html#basic.prerequisitesJDK依赖Hadoop依赖
2019-12-27 14:14:22
556
原创 Ubuntu18.04安装MySQL
安装MySQLsudo apt-get install mysql-serversudo apt-get install mysql-client查看MySQL状态service mysql status查看第一次登录的用户名密码sudo cat /etc/mysql/debian.cnf登录MySQL使用刚刚获取的debian-sys-maint的密码登录MySQLmy...
2019-12-27 12:22:35
174
1
原创 Ubuntu18.04更换国内源
前言Ubuntu18.04默认的软件更新源是国外的,在国内使用速度很慢,经常出现网络超时的情况,更换源可以有效解决改问题。备份文件为了防止原来的文件在配置后异常无法恢复,所以在配置之前最好备份一下。sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak编辑使用vim /etc/apt/sources.list命令,将文...
2019-12-27 09:16:38
238
原创 开发第一个Flink应用程序
下载mavenmaven3.3.9下载添加mvn到Path变量下载完成后解压,将 apache-maven-3.3.9\bin 添加到系统Path变量中,如下图所示:修改mvn的本地仓库路径编辑 apache-maven-3.3.9/conf/settings.xml 文件,填写自定义路径。创建工程在命令行中输入:mvn archetype:generate -Darchetyp...
2019-12-24 15:04:14
438
原创 Java Windows上安装
下载JDKJava8下载页面选择符合系统的java版本下载安装打开安装包,选择安装目录,点击安装完成。配置Java环境变量在系统属性中点击高级系统设置点击系还环境变量按钮在系统变量中点击新建添加JAVA_HOME环境变量,变量值填JDK安装目录,点击确定,如下图所示:找到Path变量,点击编辑,添加 %JAVA_HOME%\bin,点击确定在命令行窗口中输入java -...
2019-12-24 14:43:49
163
原创 Python爬虫100例(2) -- 有道翻译
有道翻译爬虫目录0.说明1.分析请求2.编写代码3.总结0.说明本篇将详细讲解破解有道翻译接口。如上图所示,输入hello到左方,右方将显示对应的翻译结果。我们将这一部分的功能用Python实现。1.分析请求打开Chrome,进入有道翻译页面。在有道翻译页面下按F12按钮,打开开发者工具栏。点击Network按钮,再点击XHR按钮。在有道翻译左方中输入he,在浏览器开发者窗口中可...
2019-02-25 19:58:27
1132
原创 Python爬虫100例(1) -- 猫眼top100
#!/usr/bin/env python#-*- coding:utf8 -*-# Author:Taoke# @Time:2019/2/23 23:28'''功能说明:将猫眼榜单top100的电影数据爬取下来保存到csv文件中'''import urllib.requestimport reimport csv# 创建maoyan_data.csv文件with open(...
2019-02-24 00:40:08
5872
原创 Python爬虫100例(0) -- 说明
准备写一篇Python爬虫的教学文章,从urllib,requests,selenium,Appium,scrapy,这些主要方面讲解。其中包括了re,xpath,bs4,javascript代码破解的一些心得。基本会涵盖Python爬虫的方方面面,如果大家有些什么意见可以欢迎加入QQ群:684530834 一、安装node.js1、到官网下载node.js:https://nodejs.org/en/download/2、获取到安装文件后,直接双击安装文件,根据程序的提示,完成nodejs的安装。3、安装完成后,运行cmd,输入node –v,如果安装成功,会输出如下版本信息:二、...
2018-12-03 20:47:00
386
原创 python操作MongoDB
python操作MongoDB 下载python中MongoDB的驱动程序pip install pymongo然后确保MongoDB已经安装且可以正常运行,去官网下载相应版本:https://www.mongodb.com/mkdir -p /home/toolscd/home/toolswget http...
2018-08-12 23:44:00
96
原创 MySQL性能调优
MySQL性能调优 1、选择合适的存储引擎 1、经常用来读的表使用myisam存储引擎 2、其余的表都用innodb存储引擎 2、SQL语句调优(尽量避免全表扫描) 1、在select where order by常涉及到的字段上建立索引 2、where子句中不使用 !=,否则将放弃使用索引进行全表扫描 3...
2018-08-01 11:22:00
183
原创 ubuntu16.04中启动anaconda图形化界面
$ source ~/anaconda3/bin/activate root$ anaconda-navigator
2018-07-25 17:07:00
895
原创 linux 在命令行中通过conda使用anaconda
在 ~/.bash_profile中添加export PATH="/home/taoke/anaconda/bin:$PATH"
2018-07-25 17:02:00
798
原创 python 天气爬虫
python3 爬取全国天气信息制作一个天气查询软件,能够查询全国范围内的天气数据。github:https://github.com/1052687889/weatherApp基于PyQt5编写,用urllib.request获取中央气象局的天气数据,用bs4解析。软件截图:基本原理:通过访问 http://2018.ip138.com/ic.asp获取...
2018-07-15 12:07:00
181
原创 机器学习-kNN-数据归一化
机器学习-kNN-数据归一化 一、为什么需要数据归一化 不同数据之间因为单位不同,导致数值差距十分大,容易导致预测结果被某项数据主导,所以需要进行数据的归一化。 解决方案:将所有数据映射到同一尺度二、最值归一化 normalization 最值归一化:把所有数据映射到0-1之间 适用于分布有明显边界的情况;受ou...
2018-06-07 14:37:00
3752
原创 机器学习-kNN-寻找最好的超参数
机器学习-kNN-寻找最好的超参数 一 、超参数和模型参数超参数:在算法运行前需要决定的参数模型参数:算法运行过程中学习的参数- kNN算法没有模型参数- kNN算法中的k是典型的超参数 寻找好的超参数领域知识经验数值实验搜索二、通过sklearn中的数据集进行测试 ...
2018-06-07 11:03:00
1114
原创 机器学习-kNN(1)
机器学习-kNN(1) 一 kNN算法简介 kNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后,将新数据中的每个特征与样本集中数据对应的特征进行比较,提取出样本集中特征最相似数据(最近邻)的分类标签...
2018-06-07 10:00:00
205
原创 MongoDB 数据库(2)
db.collectionName 集合对象获取集合对象db.getCollection('collection_name')e.g. db.getCollection("class0").insert({name:'悟空',age:1700})查找操作# select ... from tableName where .....db.collectionName...
2018-05-25 15:03:00
264
原创 MongoDB 数据库(1)
数据库 MongoDB (芒果数据库)数据存储阶段文件管理阶段 (.txt .doc .xls)优点 :数据可以长期保存可以存储大量的数据使用简单缺点 :数据一致性差数据查找修改不方便数据冗余度可能比较大数据库管理阶段优点 :数据组织结构化降低了冗余度提高了增删改查的效率容易扩展方便程序调用,做自动化处理缺点 :需要使用sql 或者 其他...
2018-05-25 10:05:00
118
原创 Python网络通信 (一)
Python网络通信 (一) ISO(国际标准化组织)---》网络体系结构标准 OSI模型OSI 七层模型应用层 :提供用户服务,具体内容由特定程序规定表示层 :提供数据的压缩解压和加密等会话层 :建立程序级的连接,决定使用什么样的传输服务传输层 :提供合适的通信服务,流量控制网络层 : 路由选择,网络互联,分组传输链路层 : 提供...
2018-05-16 20:30:00
463
原创 python socket模块
1、socket模块 建立网络通信连接至少要一对端口号(socket)。socket本质是编程接口(API),对TCP/IP的封装,TCP/IP也要提供可供程序员做网络开发所用的接口,这就是Socket编程接口;HTTP是轿车,提供了封装或者显示数据的具体形式;Socket是发动机,提供了网络通信的能力。socket函数Python 中,我们用 socket()函数来创建套...
2018-05-13 12:03:00
102
原创 将文件内容导入到MySQL中
1、作用把文件系统的内容导入到数据库中2、语法load data infile "文件名"into table 表名fields terminated by "分隔符"lines terminated by "\n"3、练习把/etc/passwd文件中的内容导入到库t1下的userinfo表中 tarena : x : 1000 : 1000 : ...
2018-05-07 14:41:00
455
原创 MySQL 表和库删不掉,并且表也打不开,不能导出的情况
MySQL 表和库删不掉,并且表也打不开,不能导出的情况 linux上的mysql中,最近遇到表和库删不掉,并且表也打不开,不能导出的情况。在删除数据库时,出现以下错误:ERROR 1010 (HY000): Error dropping database(can’t rmdir ‘./data’,errno:39)解决方法:直接删除mys...
2018-05-07 13:58:00
1007
原创 Python3玩转儿 机器学习(5)
Python3玩转儿 机器学习(5) numpy 的使用numpy.array基础import numpynumpy.__version__ #查询当前numpy的版本'1.14.0'import numpy as npnp.__version__'1.14.0'Python List 特点L = [i for i in ra...
2018-05-03 20:13:00
300
原创 MySQL学习记录
一、MYSQL概述1.1 什么是数据库数据库是一种存储数据的仓库1.2 哪些公司在使用数据库金融机构、游戏网站、购物网站、论坛网站1.3 提供数据库服务的软件1 软件分类 MySQL、SQL_Server、Qracle、Mariadb、DB2、MongoDB2 在生产环境中,如何选择使用哪个数据库 (1) 是否开源 开源软件:MySQL、Mar...
2018-05-03 20:07:00
84
原创 Python 运算符重载
构造函数与表达式: __init__, __sub__常见运算符重载方法methodoverloadcall__init__构造函数对象创建: X = Class(args)__del__析构函数X对象收回__add__云算法+如果没有_iadd_, X+Y...
2018-05-02 19:40:00
129
原创 Python3玩转儿 机器学习(4)
Python3玩转儿 机器学习(4) jupyternotebook 的使用方法¶ 最基本的使用¶In [1]:1+2Out[1]:3 菜单树...
2018-04-24 20:25:00
352
原创 Python3玩转儿 机器学习(3)
Python3玩转儿 机器学习(3) 机器学习算法可以分为:监督学习非监督学习半监督学习增强学习监督学习:给机器的训练数据拥有“标记”或者“答案”,例如:我们需要告诉机器左边的画面是一只狗,而右边的照片是一只猫。同理对于MNIST数据集,给机器图像信息后还应该附上标记信息,如图所示:运用监督学习的场景举例...
2018-04-22 10:20:00
344
原创 Python3玩转儿 机器学习(2)
机器学习的基本任务分类任务回归任务分类任务 手写输入数字识别分类任务: 二分类任务判断邮件是垃圾邮件或者不是垃圾邮件判断发放给客户信用卡有风险或者没有风险判断病患良性肿瘤还是恶性肿瘤判断某只股票是涨还是跌 多分类任务数字识别图像识别判断发放给...
2018-04-22 10:19:00
125
原创 Python3玩转儿 机器学习(1)
Python3玩转儿 机器学习(1) 机器学习的基础概念数据著名的鸢尾花数据 https://en.wikipedia.org/wiki/lris_flower_data_set lris setossa lris ver...
2018-04-22 10:17:00
451
原创 python re模块findall使用
今天练习re模块时候出现了一个很奇怪的问题,同样的正则表达式用re.search()与用re.compile().findall()匹配出来的结果不一致。很是奇怪,故此记录一下,防止以后碰到类似情况解决不了。1 #!/usr/bin/env python32 # Author:taoke3 import re4 str = '<link rel="icon"...
2018-03-18 21:47:00
183
原创 百度URL 部分参数
【Baidu URL的部分参数】1、Baidu Form表单如下: 2、部分参数解析wd 查询关键字,就是你要搜索的内容。bs 上一次搜索的词或者内容;rn 搜索结果页每页显示的数目,默认为10,最大可以设置为50pn 显示结果的页数,缺省为0,其它页面需要每页递增rn,如当rn为默认值时,第三页的pn应为20。ie...
2018-03-03 13:35:00
437
原创 python datetime模块
python datetime模块 python datetime处理时间(转)Python提供了多个内置模块用于操作日期时间,像calendar,time,datetime。time模块我在之前的文章已经有所介绍,它提供 的接口与C标准库time.h基本一致。相比于time模块,datetime模块的接口则更直观、更容易调用。今天...
2018-03-01 13:50:00
81
原创 Python中time模块详解
Python中time模块详解 Python中time模块详解在平常的代码中,我们常常需要与时间打交道。在Python中,与时间处理有关的模块就包括:time,datetime以及calendar。这篇文章,主要讲解time模块。在开始之前,首先要说明这几点:在Python中,通常有这几种方式来表示时间:1)时间...
2018-03-01 11:42:00
824
原创 Python传递参数的多种方式
Python传递参数的多种方式 Python中根据函数的输入参数以及是否有返回值可分为四种函数:1.无参数无返回值2.有参数无返回值3.无参数有返回值4.有参数无返回值Python 中参数传递有下列五种方式;1.位置传递 2.关键字传递3.默认值传递4.不定参数传递(包裹传递)5.解包裹传递一 位置传递...
2018-02-24 14:58:00
176
原创 Python super使用
一 基础使用 在类的继承中,如果重定义某个方法,该方法会覆盖父类的同名方法,但有时,我们希望能同时实现父类的功能,这时,我们就需要调用父类的方法了,可通过使用super来实现,比如: 1 #!/usr/bin/env python 2 # _*_ coding: UTF-8 _*_ 3 # Author:taoke 4 5 class baseClas...
2018-02-17 22:19:00
81
原创 python socket编程
一、什么是socket? Python 官方关于 Socket 的函数请看http://docs.python.org/library/socket.html socket通常也称作"套接字",用于描述IP地址和端口,是一个通信链的句柄,应用程序通常通过"套接字"向网络发出请求或者应答网络请求。 socket起源于Unix,而Unix/Linux基本哲学之一就是“一切...
2017-09-20 21:43:00
84
wordcount文件
2020-01-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人