m0_37914799-优快云博客

原创国产MoE模型发布开源免费，40B参数媲美Llama3-70B

就在最近，浪潮信息发布了一个开源的MoE模型，源2.0-M32，完全开源免费，40B的参数量可媲美Llama3-70B的模型，甚至在有些方面远超Llama3-70B

2024-05-31 09:50:49 821

原创 2024年国内最全面最前沿人工智能理论和实践资料

2024第11届全球互联网架构大会圆满结束。会议邀请了100余位行业内的领军人物和革新者，大会通过主题演讲、实践案例分享，以及前瞻性的技术讨论，探索AI技术的边界。

2024-05-28 21:33:09 729

原创 GPU显卡环境配置安装

最近公司购买了一台新机器和一张RTX3090的显卡，然后对环境进行了安装配置。详细配置操作系统：Centos7.8、显卡型号：RTX3090、Python版本：3.7.6、Tensorflow版本：2.5.0、内核：3.10.0 1127.el7.x86_64

2023-02-22 11:42:33 792

原创推荐系统—基于物品的协同过滤（一）

随着移动互联网的发展，我们进入了信息爆炸的时代，对用户来说面对海量的信息使得他们的选择变得困难，他们的需求也变得不明确。如何在用户需求不明确的情况下，从海量的用户历史数据寻找用户感兴趣的信息，成为了推荐系统需要解决的主要问题。推荐系统的本质是在用户需求不明确的情况下，通过机器学习、深度学习技术结合用户历史数据构建兴趣模型，为用户提供精准的个性化推荐帮助用户减少用户...

2022-07-12 14:14:50 1255

原创使用远程Python环境不显示matplotlib图

PyCharm连接远程Python环境，使用Matplotlib画图不显示，将backend改成Qt5Agg，同时安装PyQt5问题解决

2021-05-26 15:16:39 1220 2

转载简单的Linux安装mysql8.0的方法

rpm mysql8.0 yum 修改密码忘记密码远程连接 mysql centos linux

2021-05-17 11:49:37 240

原创 Scrapy爬取数据并存储到MySQL

Scrapy爬虫爬虫框架架构流程组件功能同步插入数据库异步插入数据库 mysql pipeline

2020-09-27 20:29:01 8761 2

原创已安装numpy还报numpy.core.multiarray failed to import

文章目录错误描述问题原因解决方案错误描述今天在用numpy时，明明已经安装了numpy模块竟然还报错，错误如下：ImportError: DLL load failed: 找不到指定的模块。ImportError: numpy.core.multiarray failed to importThe above exception was the direct cause of t...

2019-08-02 17:39:21 25615 3

[Err] 1418 - This function has none of DETERMINISTIC, NO SQL, or READS SQL DATA in its declaration and binary logging is enabled (you might want to use the less safe log_bin_trust_function_creators variable)

2019-01-08 21:09:23 1197

原创 Azkaban运行MapReduce报错：is running beyond virtual memory limits

is running beyond virtual memory limits. Current usage: 105.8 MB of 1 GB physical memory used; 2.8 GB of 2.1 GB virtual memory used. Killing container.

2019-01-05 21:44:22 560

原创 HBase的架构、数据模型及读写流程

文章目录Hbase简介Hbase与传统数据库的区别Hbase的特点Hbase的架构图Hbase数据模型HBase读数据流程HBase写数据流程Hbase简介 HBase是一个分布式的、面向列的开源数据库存储系统，是对Google论文Bigtable的实现，具有高可靠性、高性能和可伸缩性，它可以处理分布在数千台通用服务器上的PB级的海量数据。Bigtable是通过Google文件系统（GF...

2018-12-22 17:25:01 938 4

原创 Hive的架构及元数据三种存储模式

文章目录什么是Hive？Hive的特点Hive的架构元数据存储模式什么是Hive？ Hive最初是由FaceBook公司开发的一个基于Hadoop框架并且开源的一个数据仓库工具，后贡献给了Apache基金会由Apache来进行维护和更新。Hive可以将结构化的文件映射为一张数据表，但并不提供查询功能，而是将SQL转化为MapReduce任务进行运行。同时，Hive本身不存储数据，只是存储数据...

2018-12-19 22:07:09 10928

原创 Spark Lineage（血统）

Lineage简介宽依赖 Narrow Dependencies窄依赖 Wide Dependencies容错原理

2018-12-14 20:57:50 6763 3

原创 Java Spark代码报错：java.lang.NoSuchMethodError:net.jpountz.lz4.LZ4BlockInputStream

今天在做项目过程中，在使用java语言创建DataFrame在窗口打印数据是，编译时总是报错java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream

2018-12-13 17:36:37 6671 1

转载 IntelliJ IDEA 常用快捷键

IntelliJ IDEA 常用快捷键 Ctrl+/ 或 Ctrl+Shift+/ 注释（// 或者/…/ ） Ctrl+I 实现方法 Ctrl+D 复制行 Ctrl+X 删除行 Ctrl+N 查找类 Ctrl+Shift+N 查找文件 Ctrl+Alt+L 格式化代码 Ctrl+Alt+O 优化导入的类和包 Alt+Insert 生成代码(如get,set方法,构造函数等)

2018-12-12 21:35:35 274

原创 Spark源码分析（二）—Spark提交任务流程及运行流程（spark-submit）

文章目录Spark提交任务常用参数Spark提交任务总流程流程描述运行spark-submit脚本Spark提交任务流程（调用Spark-submit脚本）Spark提交任务常用参数 Spark提交任务，使用的是spark-submit脚本进行任务提交的，同时在任务提交的时候还可以指定一些参数，如设置本地模式、集群模式、指定每个executor大小，所有executor总共的核子数等。Sp...

2018-12-10 23:57:35 558

原创 Spark源码分析（一）—Spark集群启动流程

文章目录当我们在Linux服务器上输入start-all的时候，Spark集群就被我们启动，紧接着就看到屏幕上打印了一行行的信息。那么start-all是怎么启动Spark集群的呢？在启动集群时又做了哪些事情呢？接下来这篇文章将结合源码的分析向大家详细展示Spark集群的启动流程。首先来看看调用spark-all脚本时，集群启动的主要流程吧。spark集群启动流程图如下：##启动流程...

2018-12-09 23:46:11 572

原创数据仓库分层与架构

目录数据仓库的定义数据仓库的特点数据仓库的作用数据仓库的架构数据仓库的要求什么是数据仓库分层数据仓库分层的原因数据仓库具体的分层补充说明数据仓库的定义数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合，用于对管理决策过程的支持。数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部...

2018-12-08 16:58:18 15671

原创 Hive优化（二）—具体优化操作

引语上一篇介绍了关于Hive优化的一些基本概念，这一篇主要讲hive性能优化的一些具体事项，这篇主要将对数据倾斜问题的优化，以及其他的方面的一些优化。数据倾斜什么是数据倾斜在Hadoop当项目中，数据倾斜可以说是损害Hadoop性能的罪魁祸首。在运行Hadoop的任务过程当中，我们可能因为业务的需要，避免不了需要按照某个字段分组，去重，进行多表连接等操作，在这些操作当中一旦有些使用...

2018-12-07 23:51:53 321

原创 Hive优化（一）—概念介绍

介绍Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。Hive本身是不能存储数据的，它只是记录数据的一些路径信息，最终所有的操作都转换成MapReduce操作，所以Hive的优化其本质上是对Hadoop的优化。Hadoop的特点有经验的人知道，hadoop在处理数据的过...

2018-12-07 00:01:07 724

原创 Kafka Offset管理及语义概念的理解

引语消费者需要自己保留一个offset，从kafka 获取消息时，只拉去当前offset 以后的消息。 kafka offset的管理方式分为两种保存offset和不保存offset，一般保存offset采用的是外部存储保护，这都要根据具体的业务情况来定。使用外部存储保存,我们可把offset保存到Checkpoint， Hbase， Zookeeper， Kafka，接下来我们就来offs...

2018-12-04 23:53:00 2051

原创 Spark读取kafka数据的方式——Receiver和Direct

spark Streaming从kafka中读取数据的方式分为Receiver和Direct两种方式Receiver方式 Receiver是使用kafka的高层次Consumer API来实现的，Receiver从kafka中获取数据存储在Spark Executor的内存之中，当Spark Streaming启动job时，job会去处理那些数据。由于它是依靠底层来实现的，数据写在缓...

2018-12-03 23:59:57 1023

原创 Spark Streaming状态管理函数（三）—MapWithState的使用（scala版）

Spark Streaming状态管理函数MapWithState的实现（scala版）

2018-12-02 11:39:45 5109 7

原创 Spark Streaming状态管理函数（二）—updateStateByKey的使用（scala版）

Spark Streaming状态管理函数updateStateByKey的实现（scala版）

2018-12-02 11:39:16 2619

原创 Spark Streaming状态管理函数（一）—updateStateByKey和mapWithState

状态管理函数 Spark Streaming中状态管理函数包括updateStateByKey和mapWithState，都是用来统计全局key的状态的变化的。它们以DStream中的数据进行按key做reduce操作，然后对各个批次的数据进行累加，在有新的数据信息进入或更新时。能够让用户保持想要的不论什么状。updateStateByKey updateStateByKey会统计全局的...

2018-12-02 11:39:06 1109

原创 Spark SQL基本操作以及函数的使用

引语：本篇博客主要介绍了Spark SQL中的filter过滤数据、去重、集合等基本操作，以及一些常用日期函数，随机函数，字符串操作等函数的使用，并列编写了示例代码，同时还给出了代码当中用到的一些数据，放在最文章最后。SparkSQL简介 Spark SQL是Spark生态系统中非常重要的组件，其前身为Shark。Shark是Spark上的数据仓库，最初设计成与Hive兼容，但是该项目...

2018-12-01 00:58:10 2666

原创 kafka模拟生产者-消费者以及自定义分区

基本概念kafka中的重要角色 broker：一台kafka服务器就是一个broker，一个集群可有多个broker，一个broker可以容纳多个topic topic：可以理解为一个消息队列的名字 partition：分区，为了实现扩展性，一个topic可以分布到多个broker上，一个topic可以被分成多个partition，partition中的每条消息都会被分配一个有序的...

2018-11-29 00:02:33 1596

原创 Linux硬盘分区挂载与光盘挂载（三）—parted分区与光盘的挂载

引语本篇紧接上篇操作，主要讲使用parted分区工具进行分区和挂载以及光盘的挂载。前面我们已经进行了硬盘的添加、分区、格式化和挂载，这一篇将介绍使用parted来对硬盘进行分区。在第一篇的时候已经详细介绍过fdisk分区和parted分区的区别，parted它使用的是GPT格式的分区表，它能够适用于2TB以上的硬盘分区，而且取消了分区数量的限制，可以说是能够进行无限制的分区...

2018-09-02 14:55:50 1231

原创 Linux硬盘分区挂载与光盘挂载（二）—fdisk分区

Linux下硬盘的分区与挂载的详细操作步骤：在第一篇中我们介绍了分区与挂载的一些基本概念、分区工具区别、挂载和分区相关的一些命令格式和使用，这一篇我们将介绍使用Linux系统自带的分区工具fdisk来对硬盘进行分区，以虚拟机环境下的CentOS操作系统为例来介绍分区的详细步骤。1、添加一块硬盘首先，你要对硬盘进行分区，你必须要有一块硬盘你才能进行操作吧！不然你拿什么来分区呢？那第一...

2018-09-01 20:44:03 1301

原创 Linux硬盘分区挂载与光盘挂载（一）—概念及常用命令

内容概要：本篇主要涉及分区涉及到的分区和挂载的概念，目的，常用分区工具（parted和fdisk），MBR分区表和GPT的区别与涉及到的相关挂载、分区、格式化、激活/关闭分区，取消挂载的命令的格式及使用，依次分概念及常用命令介绍、fdisk分区、parted分区与光盘挂载三篇。什么是分区：分区是使用分区编辑器（partition editor）将一个硬盘驱动器分成若干个...

2018-09-01 20:41:51 3905

原创 Linux操作系统的密码的破解

很多人一听说破解操作系统的密码，立马就有兴趣了。好多人大脑里可能就已经浮现出科幻电影中的一些破解密码的场景，通常电影里的主人公，手里拿着一个看起来很高科技的东西，把另一端连在需要破解的电脑上，然后经过他们一顿骚操作，接下来在屏幕上翻动着一串串令人不解的数字，最后就把系统给攻破了。那么今天要讲的破解Linux操作系统可不是向电影里那样，显得那么复杂，当然也不是为了做黑客和破解别人的系统。只是有时候发...

2018-08-29 23:59:41 22678

原创 Linux系统忘记密码的解决办法

在日常开发或者学习过程当中，可能由于使用的Linux系统较多，或者由于做别的事情太久未使用亦或是记性不好忘记了设置的密码。那么这个时候，该怎么解决呢？一般会想到两个方法，第一是办法就是重装系统，简单粗暴，最容易实现，但是如果你的系统里面存了一些宝贵的资料，那就要忍痛丢弃了，所以在这种情况下是不可取的。那么第二种方法，相必大家都想到了，那就是破解密码，但是自己又没接触过并不知道从何下手。那么今天我就...

2018-08-28 21:57:22 23444 8

原创第三章 Notepad++配置java编译环境

目录为何使用Notepad++作为java编译器Notepad++的安装Notepad++配置java环境变量编辑和运行一个java程序为何使用Notepad++作为java编译器也许很多人会有疑问，为什么学习java不用常用的集成开发环境eclipse或者NetBeans等集成开发环境，又方便又快捷，而要采用没有任何提示而且完全要用手敲的Notepad++呢？笔者认为作为...

2018-08-18 15:27:29 12921 7

原创第二章 java常用开发工具以及程序的编写

第二章 java常用开发工具以及程序的编写第二章 java常用开发工具以及程序的编写程序的概念java程序的开发步骤反序列化克隆的作用程序的概念java程序的开发步骤序列化：将数据结构或对象转换成二进制串的过程反序列化反序列化：将在序列化过程中所生成的二进制串转换成数据结构或者对象的过程克隆的作用附语由于本人知识有限，...

2018-08-11 14:32:13 447

原创第一章 java简介以及环境搭建

第一章 java简介以及环境搭建第一章 java简介以及环境搭建1. java语言的发展1.1 java语言的简介1.2 java体系结构1.3 java的特点2 java的跨平台原理3 java的垃圾回收器4 Java JDK的安装5 JDK环境变量的配置5.1 JDK主要目录介绍6 eclipse软件的安装1. java语...

2018-08-10 22:09:22 294

原创对象的克隆

对象的克隆java当中的克隆跟生物上所说的克隆类似，就是复制出一个一模一样的个体，当然迁移到java当中，那就是复制出一个一模一样对象，别忘了java当中有句话叫做一切皆对象。通过克隆就能提高对象的独立性，使用起来更加方便，也更安全。克隆作用克隆的分类图片链接和图片上传LaTex数学公式克隆的作用对象克隆主要是为了解决引用类型在进行等号赋值时使得两个引用同时指向同一个...

2018-08-08 22:36:31 970 2

原创 Map集合

Map集合Map集合没有继承Collection接口，它提供了key-values的映射机制。一个key只能映射一个values，并且key不能相同。Map接口中常用的方法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键撤销 Ctrl + Z重做 Ctrl + YM...

2018-08-04 11:51:17 206

原创比较器Comparable和Comparator

目录作用区别 Comparable使用 Comparator的使用总结作用Java的Comparable和Comparator当需要排序的集合或数组不是单纯的数字型时，通常可以使用Comparator或Comparable，以简单的方式实现对象排序或自定义排序。区别一、Comparable 强行对实现它的每个类的对象进行整体排序，实现此接口的对象列...

2018-08-03 16:14:00 419

空空如也

推荐系统图数据库 - Neo4j