- 博客(37)
- 资源 (5)
- 收藏
- 关注
原创 社区发现算法--GN算法
复杂网络发展1998年Watts和Strogtz提出了WS小世界模型(Small-world network)1999年Barabasi和Albert提出无标度网络模型(Scale-free network)人们发现复杂网络具有一定的社区结构。相同类型节点之间连接较多,构成一个一个的小社区,不同类型节点之间连接较少,但成为沟通不同社区的重要通道,这种连接的不均匀性表明,网络内部存在一定的自然分化社区定义:对于社区(community),目前没有明确的定义,常见的是Newman和Gievan提出的
2021-09-22 22:33:11
2650
2
原创 KeyValue对RDDs
KeyValue对RDDs的Transfomationsexample {(1,2), (3,4), (3,6)}conbineByKey()最常用的基于key的聚合函数, 返回类型可以跟数据类型不一样许多基于key的聚合函数都用到了它, 像groupByKey()遍历partion中的元素, 元素的key, 要么之前见过, 要么不是如果是新元素, 使用参数中提供的createCombiner()函数如果是这个partition中已经存在的key, 则会使用mergrValu
2020-12-01 22:00:37
214
原创 RDDs的特性
RDDs的血统关系图: Spark维护着RDDs之间的依赖关系和创建关系, 叫做 血统关系图 Spark使用血统关系来计算每个RDD的需求和恢复丢失的数据延迟计算(Lazy Evaluation) Spark第一次使用Action操作是才进行真正的计算, 以减少数据传输 Spark 内部记录metadata 表明 transformations操作已经响应 加载数据也是延时计算, 数据只有在必要的时候才会被加载进去RDD缓存 默认每...
2020-11-30 22:11:07
261
原创 RDD 操作算子Action
Action算子 在RDD上计算出来一个结果 把结果返回给driver program或保存在文件系统 count() savecollect() 遍历整个RDD, 向driver program 返回RDD的内容需要单机内存能够容纳下(因为数据会收归拷贝到driver)take(n) 返回RDD的n个元素(同时尝试访问最少的partitions)返回是随机无序的top() 排序(根据RDD中数据的比较器)foreach() 计算RDD中每个元素, 但不...
2020-11-30 21:58:58
228
原创 Shell读取文件, 转换整数相加
文件内容1、读取文件#!/bin/bashcat txt1.txt | while read linedoecho $linedone脚本文件 rd.sh包含上述内容, 上面的line 就是读取文件的每一行,如例子 分别每次line是1 2 3结果2、将文件的内容与整数相加#!/bin/bashcat txt1.txt | while read linedores=$[line+10]echo $resdone结果...
2020-11-27 23:45:16
1296
原创 Spark Transformation
Transformations——转换从之前的RDD构建一个新的RDD, 像map() 和filter()逐元素Transformationmap()map接收函数, 把函数应用到RDD的每一个元素,返回新的RDD例子:val lines = sc.parallelize(Array(1,2,3,4,5),5)lines.foreach(println)val lines2 = lines.map(x => x * 2)lines2.foreach(println.
2020-11-26 22:32:59
108
原创 Spark RDDs介绍
Driver ProgramSpark应用程序以独立进程集的方式在集群上运行,由主程序(driver program)中的SparkContext对象协调。driver program 包含程序的main()方法, RDDs的定义和操作SparkContext Driver programs 通过SparkContext对象访问Spark, SparkContext对象代表和一个集群的连接 在Shell 中SparkContext 自动创建好了, 也就是sc...
2020-11-25 22:56:25
205
原创 Spark第一个程序
spark中运行项目有两种方式 在spark-shell中导入依赖,编写代码,执行 和在idea中写好应用,使用spark-submit方式提交到spark运行 Spark-Shell打开spark-shell输入程序,读取文件data.txt里面的内容:val lines = sc.textFile("/Users/jeremy/Documents/data.txt")lines.first()lines.count()先看下文件里面的内容:结果.
2020-11-24 23:04:09
184
原创 Spark开发环境搭建
Scala安装IDea安装官网:https://www.jetbrains.com/idea/download/#section=mac根据自己的系统直接下载安装社区版打开Idea preferences ->Plugins 搜索安装scala和sbt新建一个 scala sbt项目, 这里我们选择spark 3.0.1; scala 2.12.10; sbt 1.3.11; jdk 1.8...
2020-11-23 23:51:19
180
原创 Spark安装
依赖 Spark是Scala语言写的, 运行在JVM上,所以运行环境需要JAVA7+ 如果使用的是python API, 需要安装Python2.6+ 或 Python3.4+下载官网地址:https://spark.apache.org/downloads.html注意,除了版本2.4.2是用Scala 2.12预构建的, Spark 2.x都是用Scala 2.11预构建的。Spark 3.0+是用Scala 2.12预构建的。Spark gu...
2020-11-22 18:11:43
100
原创 Spark的组件
组件Spark包括多个集成组件,结构图如下:Spark Corespark core 为其他组件提供底层服务包含Spark的基本功能, 包含任务调度、内存管理、容错机制等内部定义了RDD——弹性分布式数据集提供很多API来创建和操作RDDSpark SQLspark sql 是Spark处理结构化数据的库, 类似于Hive SQL, mySQL, 目前公司主要用于报表统计和数据查询Spark Streamingspark stream 是实时数据...
2020-11-22 17:43:17
687
原创 Spark简介
简介简单来讲,Spark是一个快速且通用的大规模数据处理分析引擎快速: Spark扩充了传统的Map Reduce计算模型 Spark基于内存计算通用: Spark容纳了分布式系统拥有的功能,批处理、流处理、迭代计算、交互查询等 Spark提供Python、JAVA、Scala和R等API和内置库,原生语言是Scala Spark与其他大数据工具整合较好 Hadoop、Kafka等 ...
2020-11-22 17:09:24
99
原创 ubuntu 安装kafka 基本测试
1、kafka官网下载安装包https://kafka.apache.org/downloads这里我选择 kafka_2.11-2.2.0.tgz2、解压tar vxf kafka_2.11-2.2.0.tgz3、启动zookeeper(kafka自带)在解压出来kafka_2.11-2.2.0目录下的bin打开终端,输入命令:./zookeeper-server...
2019-12-09 23:27:34
298
原创 ubuntu 安装jdk
1、下载jdk安装包官网:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html2、解压tar -zxvf jdk-8u231-linux-x64.tar.gz3、配置环境变量打开文件.bashrcgedit ~/.bashrc在文件.bashr...
2019-12-09 22:58:24
545
转载 Linux 安装git-all问题
在Linux下安装git-all出现错误:Errors were encountered while processing: git-daemon-runE: Sub-process /usr/bin/dpkg returned an error code (1)解决办法:sudo apt-get purge runitsudo apt-get purge git-all...
2019-04-23 20:52:14
673
2
原创 Linux下虚拟机VMware14安装MacOS10.13
最近想弄个MacOS玩下,贪图方便决定在虚拟机VM上安装,翻看下网上的教程都是在windows下进行unlock VMware和安装MacOS的,但本人的常用系统是linux,所以在这里记录下在Linux中unlock虚拟机VMware14以及安装MacOS10.13。先上效果图一、安装VMware14(VM15没尝试,但是应该都是可以的)Linux安装VMare网上很多教程,在此...
2019-04-21 13:43:48
9018
13
原创 Windows + Ubuntu双系统时间不一致
在Windows下进行如下修改:在注册表项:HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\TimeZoneInformation下中添加一项数据类型为REG_DWORD,名称为RealTimeIsUniversal,值设为1 的键值。 或者开 始->运行->CMD,在命令行中输入下面命令并回车Reg ...
2018-12-04 11:11:40
399
原创 ubuntu18.04 安装惠普打印机驱动&GUI界面
1、运行命令sudo apt-get install hplip hplip-gui2、安装完后应用启动项会出现三个应用, 点击启动HPLIP toolbox3、如果驱动没装,会提示你安装,按照提示一步步安装好之后,会显示如下界面,这个时候就可以使用打印机了 ...
2018-12-03 21:38:50
4293
原创 ubuntu18.04 安装CUDA9.0 + CUDNN7 deb安装
一 安装显卡驱动:直接在系统软件更新中选择安装:或者选择PPA源安装,参照:https://blog.youkuaiyun.com/new_delete_/article/details/81544438输入命令测试是否安装成功:nvidia-smi 二、安装CUDA1、安装gcc-6 g++-6(由于CUDA 9.0仅支持GCC 6.0及以下版本,而Ubuntu 18.04预装...
2018-11-30 19:33:42
3975
1
原创 ubuntu18.04 卸载CUDA10 CUDNN
卸载sudo apt-get --purge remove cuda-repo-ubuntu1804-10-0-local-10.0.130-410.48 sudo apt-get --purge remove cuda-*-10-0完成
2018-11-30 15:41:04
14713
4
原创 ubuntu18.04 安装texlive && texstudio
使用的是清华源1、安装texlivesudo apt install texlive-full2、安装texstudio sudo apt install texstudio 3、测试,新建tex文件,拷贝下面代码,运行\documentclass{article}\usepackage{CJKutf8}\begin{document} \begin{CJK...
2018-11-30 14:37:29
2925
1
原创 ubuntu 18.04 安装Goldendict(翻译软件)
apt使用清华源直接apt安装:sudo apt-get install goldendict
2018-11-30 13:24:17
7739
原创 ubuntu 18.04 apt 安装 pycharm
1、添加源sudo add-apt-repository ppa:mystic-mirage/pycharm2、报错, 因为目前pycharm没有18.04的源,所以会报错,修改其版本代号:cd /etc/apt/sources.list.d/sudo gedit mystic-mirage-ubuntu-pycharm-bionic.list 3、文件内容修改为:( ...
2018-11-30 10:40:14
1297
原创 ubuntu18.04 + CUDA10 + CUDNN7 deb安装
一 安装显卡驱动:直接在系统软件更新中选择安装:或者选择PPA源安装,参照:https://blog.youkuaiyun.com/new_delete_/article/details/81544438输入命令测试是否安装成功:nvidia-smi 二 安装CUDA10CUDA官网选择适合自己系统的版本下载。2、运行命令安装CUDA10sudo dpkg -i...
2018-11-30 10:11:59
18188
5
原创 ubuntu18.04安装miniconda3
1、在中科大源下载miniconda3http://mirrors.ustc.edu.cn/anaconda/miniconda/2、提权chmod +x Miniconda3-4.5.11-Linux-x86_64.sh 3、运行安装./Miniconda3-4.5.11-Linux-x86_64.sh ...
2018-11-29 21:32:02
4034
原创 ubuntu18.04 安装chrome
一 deb包安装直接去官方下载deb 安装:https://www.google.cn/chrome/安装:sudo dpkg -i google-chrome-stable_current_adm64.deb下载比较慢二 添加源安装sudo wget http://www.linuxidc.com/files/repo/google-chrome.list -P ...
2018-11-29 21:13:44
2836
原创 ubuntu18.04实时显示网速CPU温度等
网上很多使用GNOME Shell integration 插件,但是本人还是喜欢以前的sysmonitor来显示网速 CPU温度等1、添加源sudo add-apt-repository ppa:fossfreedom/indicator-sysmonitor 2、更新源sudo apt-get update3、安装sysmonitiorsudo apt-get i...
2018-11-29 20:43:52
14159
5
原创 ubuntu18.04 安装wps
1、下载wps安装包http://wps-community.org/download.html2、进入安装包所在的目录安装sudo dpkg -i wps-office_10.1.0.6757_amd64.deb 3、下载字体包国外下载地址:https://www.dropbox.com/s/lfy4hvq95ilwyw5/wps_symbol_fonts.zip...
2018-11-29 19:16:39
1185
原创 在一个二维数组中(每个一维数组的长度相同),
在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。 # -*- coding:utf-8 -*-class Solution: # array 二维列表 def Find(self, target, array): ...
2018-09-08 13:01:14
1807
原创 tensorflow中向量与矩阵相乘
我们只当使用tensorflow的tf.matmul()可以进行矩阵间的运算,但是要求矩阵的每一个维度的长度都要大于2,假如我们进行向量与矩阵的乘法时,使用该函数,则会报错。 具体地,我们使用一个2为的向量乘以一个2×2的矩阵:import tensorflow as tfa = tf.constant([2, 3])b = tf.constant([[0,...
2018-03-30 16:14:37
6170
2
原创 keras CNN端到端的MNIST训练数字识别
使用keras建立简单的CNN进行数字识别,代码如下,具体步骤带注释:import numpy as npfrom keras.datasets import mnist# 引入Keras的卷积模块, 包括Dropout, Conv2D 和 MaxPooling2Dfrom keras.models import Sequentialfrom keras.layers imp...
2018-03-29 18:05:00
625
原创 OpenCV2的基本使用
本文主要阐述OpenCV2一些基本函数的使用。在ubuntu下安装OpenCV2:pip install opencv-python读图像用cv2.imread()存图像用cv2.imwrite() 缩放使用cv2.resize()例子import cv2# 读取一张图像test_img = cv2.imread('test.jpg')print(test_img)# 缩...
2018-03-28 20:51:28
3851
原创 libcudnn.so.5 cannot open shared object file: No such file or directory
遇到了这个错误,然后参考了别人的解决办法 https://blog.youkuaiyun.com/u014696921/article/details/60140264按照该方法运行其提供的命令,然而每次不成功 解决办法,将每个命令中的动态链接库的命令去掉,即去掉 && sudo ldconfig即在终端键入:sudo cp /usr/local/cuda-8.0/lib64/lib...
2018-03-22 20:26:16
1619
原创 Ubunt16.04快速安装 Cuda8.0 + Cudnn5.1 (Cuda9.0 + Cudnn7.1 )
最近想在老笔记本电脑烂船(神舟,调侃一下~)上面安装深度学习的环境,包括conda、gpu版本的tensorflow和keras等,然后在看了许多网上的教程,感觉很复杂,引用大司马一句话来说就是:”别给我整这花里胡哨的东西“。因为印象中装这个东西似乎挺快的,出于快速安装然后跑程序的目的,自己按之前的记忆进行了安装,参考了这位博主的文章http://blog.youkuaiyun.com/ZWX2...
2018-03-22 20:13:49
1237
原创 Ubuntu 16.04 安装teamviewer
有时候我们需要远程操控ubuntu电脑,teamviewer 一直是不错的选项。本以为用dpkg命令应该很容易装上,中途却是出现了错误,特此记录下来:1、首先去官网https://www.teamviewer.com/zhcn/download/linux/下载了相应的安装包,我选择的是ubuntu16.04版本的安装包,附上已下载的安装包https://pan.baidu.com/s...
2018-03-22 17:06:25
33378
3
常用分布变量的生成(抽样)python源代码
2018-01-13
文件管理系统java源代码
2018-01-13
MFC 写的飞行棋C++源代码
2018-01-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人