Bernard5
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
轻云的技术迭代
密码 从明文存储,到两次md5加盐加密,再到bcrypt 前后交互 文件:二进制传输 参数json 先传文件再传参? 文件上传 先传本地再传HDFS? 很不安全 串联,把本地文件系统的问题带到 如果要做真的分布式,会把问题变得更复杂 直接流式写入 跨域方案 无限制跨域 @crossorigin axios 在传输表单的时候会带*,冲突 限制前端IP和端口 ...原创 2021-12-21 23:02:22 · 199 阅读 · 0 评论 -
HBase 的基本操作
创建表 hbase(main):002:0> create 'player','basic' Created table player Took 1.3727 seconds => Hbase::Table - player hbase(main):003:0> create 'player', {NAME => 'basic', VERSION => 5, BLOCKCACHE => true} NameError: uninitialized constant VE原创 2021-10-09 22:07:16 · 428 阅读 · 0 评论 -
MongoDB 基础操作
from faker import Faker from random import choice, randint import json f = open('stuInfo.json', 'w') fk = Faker(locale='zh_CN') stuID = 201926701000 n = 20 # 姓名,年龄,工作室编号,学号,简历 for studioID in [6818, 6819, 6816, 68]: for i in range(n): stuID原创 2021-10-27 20:00:39 · 245 阅读 · 0 评论 -
GraphX
scala> import org.apache.spark._ import org.apache.spark._ scala> import org.apache.spark.graphx._ import org.apache.spark.graphx._ scala> val pointPair = sc.textFile("/data/Download/web-Google.txt") pointPair: org.apache.spark.rdd.RDD[String] =原创 2022-05-21 22:02:49 · 165 阅读 · 0 评论 -
sql设计
base CREATE TABLE `user` ( `id` int(11) NOT NULL AUTO_INCREMENT COMMENT 'ID', `email` varchar(255) NOT NULL COMMENT '邮箱', `password` varchar(255) NOT NULL COMMENT '密码', `username` varchar(255) NOT NULL COMMENT '姓名', PRIMARY KEY (`id`), UNIQUE KEY `em原创 2021-11-29 19:15:45 · 294 阅读 · 0 评论 -
HBase综合练习
环境说明:HDP 3.1.5 使用了学院的服务器集群 将 csv文件导入到hbase中 create 'emp_data',{NAME => 'info'} 采用org.apache.hadoop.hbase.mapreduce.ImportTsv完成导入,该包会自动将导入转化成mapreduce任务执行。 hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.columns原创 2021-11-10 18:03:43 · 997 阅读 · 0 评论 -
实验四:MapReduce中级实践
实验四:MapReduce中级实践 姓名 学号 江新宇 201926701070 一、实验目的 通过实验掌握基本的MapReduce编程方法 掌握用MapReduce解决一些常见的数据处理问题,包括数据去重计数、数据排序 二、实验平台 操作系统:KUbuntu 20.04 focal JDK:openjdk version “16.0.1” Hadoop:3.2.2 三、实验步骤 对访问同一网站的用户去重计数 Unique package Unique; import java原创 2021-10-31 23:49:05 · 922 阅读 · 0 评论 -
mapreduce
合并和去重 对于两个输入文件,即文件A和文件B,请编写MapReduce程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。下面是输入文件和输出文件的一个样例供参考。 输入文件A的样例如下: 20170101 x 20170102 y 20170103 x 20170104 y 20170105 z 20170106 x 输入文件B的样例如下: 20170101 y 20170102 y 20170103原创 2021-10-25 21:31:47 · 134 阅读 · 0 评论 -
HBASE操作实验
import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apache.hadoop.hbase.client.*; import org.apache.hadoop.hbase.util.Bytes; import java.io.IOException; public class t { public static Admin admin; public stat原创 2021-10-16 21:06:19 · 293 阅读 · 0 评论 -
第2章NoSQL的基本原理
什么是CAP原理?CAP原理是否适用于单机环境? 指的是在一个分布式系统中:Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),最多只能同时三个特性中的两个,三者不可兼得,最多满足其中的两个特性。 不适用。CAP原理的应用场景主要在分布式情况下。 Paxos算法或类似机制是否可以用来监控分布式环境下各个节点的运行状态?如果可以,请简单描述该机制。 可以。简单来说就是Proposer发出提议,Acceptor做出决策,Learn.原创 2021-09-26 11:56:36 · 489 阅读 · 0 评论 -
机器学习问答作业 I
机器学习包括哪几类方法及哪些任务? 主要有三类不同的学习方法:监督学习、非监督学习、半监督学习。 主要有四种常见的分类任务:二分类、多类别分类、多标签分类、不平衡分类。 > 请简述使用scikit-learn实现机器学习任务过程? Scikit-Learn实现机器学习步骤: (1) 通过从 Scikit-Learn 中导入适当的评估器类,选择模型类。 (ps:在 Scikit-Learn 中,每个模型类都是一个 Python 类,可以实例化) (2) 用合适的数值对模型类进行实例化,配置模型超参.原创 2021-09-26 10:52:34 · 203 阅读 · 0 评论 -
Python常用库介绍练习
# 要添加一个新单元,输入 '# %%' # 要添加一个新的标记单元,输入 '# %% [markdown]' # %% from IPython import get_ipython # %% [markdown] # ## 2.2.1Numpy库的介绍和使用 # %% get_ipython().run_line_magic('matplotlib', 'inline') ## 显示的图片格式(mac中的高清格式),还可以设置为"bmp"等格式 get_ipython().run_line_magi原创 2021-09-22 11:09:40 · 160 阅读 · 0 评论 -
实验四 熟悉使用matplot工具绘图
函数图像 画出公式f(x)=sin6(x−2) e−x3f(x)=\sin^6(x-2) \ e^{-x^3}f(x)=sin6(x−2) e−x3在x∈[0,2]式的函数图像,并显示title、xlabel、ylabel。 示例图: # Copyright (c) 2021 Bernard # All right reserved import numpy as np import matplotlib.pyplot as plt def f(x): return np.s原创 2021-08-12 21:46:08 · 185 阅读 · 0 评论 -
实验三 熟悉Dataframe和Series数据结构
数据说明 datas文件夹下有三个csv文件,分别是users.csv,movies.csv,ratings.csv users.csv是用户信息,有userId,name,phone,pwd字段,分别表示用户Id,用户姓名,电话号码,密码。 movies.csv是电影信息,有movieId,movieName,actors,movieAmount,content字段,分别表示电影id,电影名称,主演,播放量,电影简介 ratings.csv是评分信息,有userId,movieId,rating字段,分别原创 2021-08-06 14:18:26 · 731 阅读 · 0 评论 -
实验二 熟悉pandas库的应用
构建数据 import random f = open('lite.txt', 'w') stu = ['Bernard', 'Kluicer', 'Anton', 'Falcon', 'Zima'] def randTime(): t = str(random.randint(6, 19)).zfill(2) m = str(random.randint(0, 59)).zfill(2) s = str(random.randint(0, 59)).zfill(2) r原创 2021-07-21 17:01:36 · 366 阅读 · 1 评论 -
Hadoop系列——HDFS文件系统的理解
1 观看10小时大数据入门第3章,回答以下问题。 a、不管文件file多大,都将其存放在一个节点上,是否实现了冗余备份? 在视频中,“不管文件file多大,都将其存放在一个节点上”指的是没有对文件进行拆分/分散存储。而不是指将文件只存放在一个单独的节点上。 单独把这句话拿出来,只将文件只存放在一个单独的节点上,显然没有实现冗余备份。 b、将文件file拷贝并存放在多个节点上,这样实现了冗余备份了吗? 实现了冗余备份。 比如现在很多大厂会采用磁带定期进行全盘备份,磁带便宜,但是不方便进行随机读写,所以原创 2021-07-14 19:35:25 · 325 阅读 · 1 评论 -
实验一 熟悉Python语言的数据结构
一、实验任务 1 给定一个长度不超过10的list,输出其所有的子集,如输入X=[1,2,3,4],输出[],[1],[2],[3],[4],[1,2],[2,3],[3,4],[1,2,3],[2,3,4],[1,2,3,4]…(空集也是子集) # -*- coding:utf-8 -*- # Author: Bernard # Date: 2021-7-14 def printSubSet(arr): ans = [] sz = len(arr) print(sz) f原创 2021-07-14 16:18:15 · 304 阅读 · 0 评论