- 博客(45)
- 资源 (1)
- 收藏
- 关注
原创 基于Spark的离线电影推荐
文章目录系统需求分析以及流程设计需求数据源流程图数据存储及表的设计实验环境搭建主要环境数据加载转换以及存储数据读取数据处理数据存储TopN基于模型的推荐算法结果处理及存储基于物品的推荐算法系统需求分析以及流程设计需求基于spark集群实现离线电影推荐推荐结果可以可视化(未实现)数据源包括两个数据文件,分别是ratings.dat和movies.dat。首先是ratings.dat,用户评分数据记录表。包含了用户对电影的评分信息。然后是movies.dat,电影信息表。包含了电影名电影类
2021-06-24 11:26:43
3950
4
原创 RDD常见转化算子和行动算子
/** * RDD被创建后是只读的,不允许被修改。spark提供了丰富的用于操作RDD的方法,这些方法被称为算子。 * 一个创建完成的RDD只支持两种算子:转化算子和行动算子。 * 转化算子: * 负责对RDD中的数据进行计算并转化为新的RDD。 * Spark中所有的转化算子都是惰性的,因为他们不会立即计算结果, * 而是记住对某个RDD的具体操作过程,直到遇到行动算子才会和行动算子一起执行。 */常见转化算子val sparkConf = new SparkConf().setM
2021-05-26 13:09:08
1062
原创 spark简单实例wordcount
计算流程:项目依赖pom.xml<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.1</version> </de
2021-05-23 23:18:50
424
原创 spark的Driver&Executor
通过serversocket的client-server模式简单模拟driver向executor提交计算任务的过程
2021-05-23 23:09:55
276
2
原创 sklearn-二手汽车交易价格预测
任务以二手车市场为背景,要求预测二手汽车的交易价格。题目地址https://tianchi.aliyun.com/competition/entrance/231784/information该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。数据描述字段表Field
2021-04-27 21:08:13
649
原创 sklearn-常见陷阱和推荐做法
以下内容出自sklearn官方文档https://scikit-learn.org/stable/common_pitfalls.html#inconsistent-preprocessing预处理不一致scikit-learn提供了一个数据集转换库,它可以清理(见数据预处理),减少(见无监督降维),扩展(见核近似)或生成(见特征提取)特征表示。如果在训练模型时使用了这些数据转换,那么它们也必须用于后续数据集,无论是测试数据还是生产系统中的数据。否则,特征空间将发生变化,模型将无法有效执行。
2021-04-26 23:05:07
286
原创 linux centos7.6配置Hadoop+Spark+Hbase+Zookeeper集群
在VMware上配置Hadoop+Spark+Hbase+Hive+Zookeeper集群,包含三个节点。
2021-04-08 22:23:15
852
原创 python正则表达式基础学习
只做简单整理,涉及知识点比较局限友情推荐详细教程:https://www.runoob.com/python/python-reg-expressions.htmlhttps://blog.youkuaiyun.com/storyfull/article/details/102710101代码实例:一以下例子中涉及(可直接看例子):’^’ :匹配开头字符串’$’:匹配结尾字符串’.’ : 匹配...
2019-12-30 23:36:24
231
原创 操作系统作业最近最少用置换算法LRU(C语言)
最近最少用置换算法:选择最近一段时间内最长时间没有被访问过得页面调出。还是采用单链表结构,用尾插法,需要记录head和tailLRU函数现实主要思想,代表存储页面的物理块结构,总是第一个结点为要被置换出的结点,按更新次序一次排序;实现思路:1.先将页号装入初始空白物理块,累加缺页中断次数;2.遍历单链表,确认是否命中,未命中则将第一个结点替换为当前要进入的页号,并且更新次序,即当前结点替...
2019-12-27 22:33:30
1096
2
原创 操作系统作业电梯调度算法C语言
获得用户输入数据,包括待访问的柱面号,移动臂运动方向,磁头当前所处位置。sort() :对柱面号序列进行从小到大的排序lift_dispatch(…):排序完成对序列采用电梯调度算法进行访问。总是优先考虑移动臂运动方向,然后结合考虑相距最近的柱面号,逐个访问,得出访问序列。输出访问序列。#include <stdio.h>#include <stdlib.h>...
2019-12-07 10:28:06
4533
原创 操作系统FIFO页面置换算法(C语言)
先进先出(FIFO)页面置换算法: 这是最早出现的置换算法。该算法总是淘汰最先进入内存的页面,即选择在内存中驻留时间最久的页面予以淘汰。该算法实现简单只需把一个进程已调入内存的页面,按先后次序存入一个时间数组,并将其中时间值最大的页面进行淘汰,并替换入新的页面就可以实现。用到了循环单链表结构,在替换时,确保指针h指向的总是将要被替换的,check用来遍历查找是否命中,否则替换,并且h=h->......
2019-11-22 23:42:17
10365
3
原创 操作系统可变式分区的分配和去配(最先适应分配算法c语言)
代码存在一个问题,就是在allocate和deallocate的函数体内,无法对原来就是空的链表进行插入,原来是因为只有一级指针,所以只能改变结点的值(包括一些值和指针指向)。例如假如我想要ftable=ftable->next;没有返回值ftable的话,修改是无效的;我想到解决方法可以是,采用二级指针(啊魔鬼),或者采用存在头结点的单链表,这样就不存在空链表了,或者把两张表合并成一张...
2019-11-17 17:00:33
2861
原创 操作系统非抢占式静态优先级调度算法(C语言)
**主要数据结构单链表(进程表,就绪进程表),结构体(结构化进程信息)**大致步骤:1.输入模块:接收进程信息,包括进程代号,进程创建时间,进程运行时间,进程优先级,得到进程表2.就绪进程判断模块:用Time记录系统当前运行的时间,得出就绪进程表**3.对就绪进程表按照优先序列排序注意点:state用来记录当前进程是否存在于就绪队列中;排序算法采用的是交换结点值的冒泡算法,而不是直...
2019-11-03 15:52:41
15633
4
原创 操作系统作业之银行家算法(c语言实现)
银行家算法分析:银行家算法数据结构:进程数 processNum资源类数 resourceNum系统剩余可利用资源Available,为一个含有m个元素的数组;最大需求矩阵Max,为一个processNumresourceNum数组进程当前已分配资源数Allocation,为一个processNumresourceNum数组进程尚需要的资源数Need,为一个processNum*re...
2019-10-21 18:00:58
6882
5
原创 java编程学习3
[编程题]旧键盘 (20)题目描述:旧键盘上坏了几个键,于是在敲一段文字的时候,对应的字符就不会出现。现在给出应该输入的一段文字、以及实际被输入的文字,请你列出肯定坏掉的那些键。java题解:import java.util.*;public class Main { public static void main(String []args) { Strin...
2019-08-31 09:37:58
88
原创 Wxpython图形界面
import wximport osfrom PIL import Imagefrom predict import predict #这是我的py文件#主框架class my_frame(wx.Frame): def __init__(self, parent, title): wx.Frame.__init__(self, parent, title=title, size=(500, 300)) self.Show(True) #
2019-08-29 17:34:26
3365
5
原创 java编程学习1
别人家写的:solution 1:(Best practices)这个主要就是可读性和可维护性比较高,更推荐这种class Diamond { public static String print(int n) { if (n % 2 == 0 || n < 0) { return null; } StringBuilder diamond =...
2019-08-23 10:08:06
147
原创 import torchvision error:ImportError: DLL load failed: 找不到指定的模块。
我是Windows 10; CUDA 10; python 3.6.5;之前是在官网下载,但是不知道为什么就一直有如下问题:import torchvisionTraceback (most recent call last):File "", line 1, in File "G:\Python36\lib\site-packages\torchvision_init_.py", li...
2019-07-19 20:20:13
4260
1
原创 吴恩达机器学习课后习题ex3
**多类分类**import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport scipy.io as scio #用来读取matlab格式的数据集from scipy.optimize import minimizescipy.io.loadmathttps://docs.scipy.org...
2019-07-15 20:52:21
1698
1
原创 吴恩达机器学习课后习题ex2(续)
ex2: Regularized logistic regressionimport numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn import linear_modelimport scipy.optimize as optfrom sklearn.metrics import cl...
2019-07-11 17:00:01
420
原创 吴恩达机器学习课后习题ex2
ex2:Logistic_regressionimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt import scipy.optimize as opt #优化算法from sklearn.metrics import classification_reportfrom sklearn import...
2019-07-08 21:00:08
1112
1
原创 吴恩达机器学习课后习题ex1(续)
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltpath = 'ex1data2.txt'data2 = pd.read_csv(path,names=['Size','Bedroom','Price'])#特征归一化(解决特征分布范围不接近的问题)#data2 = (data2 - data2...
2019-07-07 19:34:48
511
原创 pytorch版本安装和电脑cuda版本确认
1.进入官网,选择合适系统,python版本,安装平台https://pytorch.org/get-started/locally/2.确定电脑cuda 版本方法:https://blog.youkuaiyun.com/lanchunhui/article/details/62240333第一个命令会出现显卡信息,里面有一个CUDA versionOk,记录生活,祝各位好运!...
2019-07-07 11:44:10
8528
1
原创 吴恩达机器学习课后习题ex1
数据exdata.txt见最后:import numpy as npimport pandas as pdimport matplotlib.pyplot as pltpath = 'ex1data1.txt'data = pd.read_csv(path,header = 0,names = ['Population','Profit'])data.tail() ...
2019-07-06 23:43:53
2238
2
原创 python常用库快速入门教程
最近需要用到一些数据处理图像显示的库,所以就找了一些速成包(特别适合我这种时间紧迫,只需要了解大概功能方法而且马上就要用到的同学)第一个:numpy(英文版,不过每个所有详细代码实例)https://www.numpy.org/devdocs/user/quickstart.html#copies-and-views第二个:pandashttps://codingpy.com/articl...
2019-07-06 17:31:31
828
原创 二叉树(前序遍历下的最后一个结点地址,后序遍历下的第一个结点地址,中序遍历下的最后一个结点)
前序遍历下的最后一个结点地址:按照遍历顺序,根节点,左子树,右子树;所以最后一个节点优先考虑右子树bintree prelast(bintree t){ if(t->rchild) t = prelast(t->rchild); //考虑右子树 else if(t->lchild) t = prelast(t->lc...
2019-06-29 18:18:52
8586
3
原创 二叉树的相关操作(非递归前序遍历,中序遍历,判断是否有序,判断两棵二叉树是否等价)
二叉树的非递归前序遍历:先访问根节点,后访问左子树,后访问右子树访问过程需要回溯,用到栈此处seqstack为自定义栈typedef struct tree_node{ char data; struct tree_node* lchild; struct tree_node* rchild;}treenode;typedef treenode* bintree;typede...
2019-06-29 17:52:36
999
原创 判断单链表是否单调有序(c语言)
int isOrder(List *head){ List *p = head; int flagl = 0,flagr = 0;//记录方向变化,尽快判断是否有序 int nDirection = 0; //记录比较方向 int nTimer = 0; //记录比较次数 if (head == NULL) return 1; //为...
2019-06-28 16:04:17
1581
原创 树的建立和遍历
树的前序遍历顺序建立法(树的指针孩子表示法)/*数的定义*/#define m 3 //树的最大孩子个数typedef char datatype;typedef struct node{ datatype data; struct node* child[m];}node,*tree;tree root;tree createtree(){ int i;char ch;...
2019-06-23 13:55:29
902
原创 冒泡排序--递归实现
void bubbleSort(int a[],int n){ int temp; if(n) { bubbleSort(a,n-1);//递归最底层是a[0]和a[1]在比较,等同非递归内层for循环比较一遍 if(a[n] < a[n-1]) { temp = a[n]; ...
2019-06-23 13:27:44
4853
1
原创 顺序表奇偶顺序调整,单链表原地倒置,删除单链表中所有值为x的结点----数据结构(C语言版)
/*请编写一个算法函数partion(sequence_list *L),尽可能快地将顺序表L中的所有奇数调整到表的左边,所有偶数调整到表的右边,并分析算法的时间复杂度。*//请将本函数补充完整,并进行测试/顺序表的定义:#define maxsize 100typedef int datetype;typedef struct{ datatype a[maxsize]; in...
2019-06-23 13:17:20
1557
原创 python语言程序设计基础课后习题答案
第二章1获得用户输入的一个整数N,计算并输出N的32次方常见错误:n = input()print(n**32)2---------------------------------------------------------------------------TypeError Traceback (mos...
2019-06-21 18:36:39
69660
3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人