机器学习&大数据作业_Bernard5的博客-优快云博客

机器学习&大数据作业

文章数：17 文章阅读量：6440 文章收藏量：2

作者: Bernard5

这个作者很懒，什么都没留下…

展开

专栏收录文章

轻云的技术迭代

密码从明文存储，到两次md5加盐加密，再到bcrypt 前后交互文件：二进制传输参数json 先传文件再传参？文件上传先传本地再传HDFS？很不安全串联，把本地文件系统的问题带到如果要做真的分布式，会把问题变得更复杂直接流式写入跨域方案无限制跨域 @crossorigin axios 在传输表单的时候会带*，冲突限制前端IP和端口 ...

原创 2021-12-21 23:02:22 · 199 阅读 · 0 评论
HBase 的基本操作

创建表 hbase(main):002:0> create 'player','basic' Created table player Took 1.3727 seconds => Hbase::Table - player hbase(main):003:0> create 'player', {NAME => 'basic', VERSION => 5, BLOCKCACHE => true} NameError: uninitialized constant VE

原创 2021-10-09 22:07:16 · 428 阅读 · 0 评论
MongoDB 基础操作

from faker import Faker from random import choice, randint import json f = open('stuInfo.json', 'w') fk = Faker(locale='zh_CN') stuID = 201926701000 n = 20 # 姓名，年龄，工作室编号，学号，简历 for studioID in [6818, 6819, 6816, 68]: for i in range(n): stuID

原创 2021-10-27 20:00:39 · 245 阅读 · 0 评论
GraphX

scala> import org.apache.spark._ import org.apache.spark._ scala> import org.apache.spark.graphx._ import org.apache.spark.graphx._ scala> val pointPair = sc.textFile("/data/Download/web-Google.txt") pointPair: org.apache.spark.rdd.RDD[String] =

原创 2022-05-21 22:02:49 · 165 阅读 · 0 评论
sql设计

base CREATE TABLE `user` ( `id` int(11) NOT NULL AUTO_INCREMENT COMMENT 'ID', `email` varchar(255) NOT NULL COMMENT '邮箱', `password` varchar(255) NOT NULL COMMENT '密码', `username` varchar(255) NOT NULL COMMENT '姓名', PRIMARY KEY (`id`), UNIQUE KEY `em

原创 2021-11-29 19:15:45 · 294 阅读 · 0 评论
HBase综合练习

环境说明：HDP 3.1.5 使用了学院的服务器集群将 csv文件导入到hbase中 create 'emp_data',{NAME => 'info'} 采用org.apache.hadoop.hbase.mapreduce.ImportTsv完成导入，该包会自动将导入转化成mapreduce任务执行。 hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.columns

原创 2021-11-10 18:03:43 · 997 阅读 · 0 评论
实验四：MapReduce中级实践

实验四：MapReduce中级实践姓名学号江新宇 201926701070 一、实验目的通过实验掌握基本的MapReduce编程方法掌握用MapReduce解决一些常见的数据处理问题，包括数据去重计数、数据排序二、实验平台操作系统：KUbuntu 20.04 focal JDK：openjdk version “16.0.1” Hadoop：3.2.2 三、实验步骤对访问同一网站的用户去重计数 Unique package Unique; import java

原创 2021-10-31 23:49:05 · 922 阅读 · 0 评论
mapreduce

合并和去重对于两个输入文件，即文件A和文件B，请编写MapReduce程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新的输出文件C。下面是输入文件和输出文件的一个样例供参考。输入文件A的样例如下： 20170101 x 20170102 y 20170103 x 20170104 y 20170105 z 20170106 x 输入文件B的样例如下： 20170101 y 20170102 y 20170103

原创 2021-10-25 21:31:47 · 134 阅读 · 0 评论
HBASE操作实验

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apache.hadoop.hbase.client.*; import org.apache.hadoop.hbase.util.Bytes; import java.io.IOException; public class t { public static Admin admin; public stat

原创 2021-10-16 21:06:19 · 293 阅读 · 0 评论
第2章NoSQL的基本原理

什么是CAP原理？CAP原理是否适用于单机环境？指的是在一个分布式系统中：Consistency（一致性）、 Availability（可用性）、Partition tolerance（分区容错性），最多只能同时三个特性中的两个，三者不可兼得，最多满足其中的两个特性。不适用。CAP原理的应用场景主要在分布式情况下。 Paxos算法或类似机制是否可以用来监控分布式环境下各个节点的运行状态？如果可以，请简单描述该机制。可以。简单来说就是Proposer发出提议，Acceptor做出决策，Learn.

原创 2021-09-26 11:56:36 · 489 阅读 · 0 评论
机器学习问答作业 I

机器学习包括哪几类方法及哪些任务？主要有三类不同的学习方法：监督学习、非监督学习、半监督学习。主要有四种常见的分类任务：二分类、多类别分类、多标签分类、不平衡分类。 > 请简述使用scikit-learn实现机器学习任务过程？ Scikit-Learn实现机器学习步骤： (1) 通过从 Scikit-Learn 中导入适当的评估器类，选择模型类。 (ps:在 Scikit-Learn 中，每个模型类都是一个 Python 类，可以实例化) (2) 用合适的数值对模型类进行实例化，配置模型超参.

原创 2021-09-26 10:52:34 · 203 阅读 · 0 评论
Python常用库介绍练习

# 要添加一个新单元，输入 '# %%' # 要添加一个新的标记单元，输入 '# %% [markdown]' # %% from IPython import get_ipython # %% [markdown] # ## 2.2.1Numpy库的介绍和使用 # %% get_ipython().run_line_magic('matplotlib', 'inline') ## 显示的图片格式（mac中的高清格式），还可以设置为"bmp"等格式 get_ipython().run_line_magi

原创 2021-09-22 11:09:40 · 160 阅读 · 0 评论
实验四熟悉使用matplot工具绘图

函数图像画出公式f(x)=sin⁡6(x−2) e−x3f(x)=\sin^6(x-2) \ e^{-x^3}f(x)=sin6(x−2) e−x3在x∈[0,2]式的函数图像，并显示title、xlabel、ylabel。示例图： # Copyright (c) 2021 Bernard # All right reserved import numpy as np import matplotlib.pyplot as plt def f(x): return np.s

原创 2021-08-12 21:46:08 · 185 阅读 · 0 评论
实验三熟悉Dataframe和Series数据结构

数据说明 datas文件夹下有三个csv文件，分别是users.csv，movies.csv，ratings.csv users.csv是用户信息，有userId，name，phone，pwd字段，分别表示用户Id，用户姓名，电话号码，密码。 movies.csv是电影信息，有movieId，movieName，actors，movieAmount，content字段，分别表示电影id，电影名称，主演，播放量，电影简介 ratings.csv是评分信息，有userId，movieId，rating字段，分别

原创 2021-08-06 14:18:26 · 731 阅读 · 0 评论
实验二熟悉pandas库的应用

构建数据 import random f = open('lite.txt', 'w') stu = ['Bernard', 'Kluicer', 'Anton', 'Falcon', 'Zima'] def randTime(): t = str(random.randint(6, 19)).zfill(2) m = str(random.randint(0, 59)).zfill(2) s = str(random.randint(0, 59)).zfill(2) r

原创 2021-07-21 17:01:36 · 366 阅读 · 1 评论
Hadoop系列——HDFS文件系统的理解

1 观看10小时大数据入门第3章，回答以下问题。 a、不管文件file多大，都将其存放在一个节点上，是否实现了冗余备份？在视频中，“不管文件file多大，都将其存放在一个节点上”指的是没有对文件进行拆分/分散存储。而不是指将文件只存放在一个单独的节点上。单独把这句话拿出来，只将文件只存放在一个单独的节点上，显然没有实现冗余备份。 b、将文件file拷贝并存放在多个节点上，这样实现了冗余备份了吗？实现了冗余备份。比如现在很多大厂会采用磁带定期进行全盘备份，磁带便宜，但是不方便进行随机读写，所以

原创 2021-07-14 19:35:25 · 325 阅读 · 1 评论
实验一熟悉Python语言的数据结构

一、实验任务 1 给定一个长度不超过10的list，输出其所有的子集，如输入X=[1,2,3,4]，输出[],[1],[2],[3],[4],[1,2],[2,3],[3,4],[1,2,3],[2,3,4],[1,2,3,4]…（空集也是子集） # -*- coding:utf-8 -*- # Author: Bernard # Date: 2021-7-14 def printSubSet(arr): ans = [] sz = len(arr) print(sz) f

原创 2021-07-14 16:18:15 · 304 阅读 · 0 评论

机器学习&大数据作业

作者: Bernard5

轻云的技术迭代

HBase 的基本操作

MongoDB 基础操作

GraphX

sql设计

HBase综合练习

实验四：MapReduce中级实践

mapreduce

HBASE操作实验

第2章NoSQL的基本原理

机器学习问答作业 I

Python常用库介绍练习

实验四 熟悉使用matplot工具绘图

实验三 熟悉Dataframe和Series数据结构

实验二 熟悉pandas库的应用

Hadoop系列——HDFS文件系统的理解

实验一 熟悉Python语言的数据结构

实验四熟悉使用matplot工具绘图

实验三熟悉Dataframe和Series数据结构

实验二熟悉pandas库的应用

实验一熟悉Python语言的数据结构