
大数据和数据库实战
文章平均质量分 81
数据库总结和案例
数据知道
IT技术博主,博主会持续更新专栏文章,欢迎关注和订阅文章博客,欢迎私信和博主交流技术,欢迎关注公众号:数据知道的成长之路。如有需要请站内私信或者联系VX名片(ID:data_know)
展开
-
【MinIO】一文掌握 MinIO 基础命令(MinIO 备忘清单)
列出文件夹中的所有文件,包括子文件夹。版本比较多,请去官网查找安装步骤。删除文件夹中的所有文件。列出文件夹中的所有文件。等是存储数据的路径。原创 2025-03-27 19:48:01 · 552 阅读 · 0 评论 -
数据库:一文掌握 GraphQL 的各种指令(GraphQL指令备忘)
RESTful API 的另一种方法GraphQL 是一种 API 查询语言使用清晰的共享术语轻松描述 GraphQL API 的形状。客户端发出查询/突变以读取和更新数据GraphQL 语法可以表达复杂的实体关系用不同语言实现 GraphQL 的库GraphQL:-scalar标量类型type对象类型interface接口类型union联合类型enum枚举类型input输入对象类型scalar Url。原创 2025-03-22 07:55:10 · 1366 阅读 · 0 评论 -
数据库:一文掌握 Neo4J 的各种指令(Neo4J指令备忘)
Neo4j是一个图形数据库,由节点通过关系连接在一起。如果您有一个高度相互连接的数据集或者有很多连接的查询,您可能会考虑使用图数据库。原创 2025-03-21 09:38:27 · 1504 阅读 · 0 评论 -
数据库:一文掌握 Elasticsearch 的各种指令(Elasticsearch指令备忘)
它提供了一个分布式、支持多租户的全文搜索引擎,具有HTTP Web接口和无模式JSON文档。需替换为指定版本,官方包有的功能只能试用,完整功能需要付费,请仔细阅读官网文档。: 需要注意的是字段映射只能增加,不能更改删除。类似数据库中的 delete 查询。类似数据库中的 delete 查询。类似数据库中的 limit 查询。类似数据库中的 limit 查询。类似数据库中的 and 查询。类似数据库中的 or 查询。类似修改数据库中列的操作。类似数据库中的模糊查询。类似数据库中的范围查询。原创 2025-03-20 09:08:08 · 1596 阅读 · 0 评论 -
数据库:一文掌握 Oracle 的各种指令(Oracle指令备忘)
如果您需要在索引首次创建后收集统计信息或者您想要更新统计信息,您总是可以使用 ALTER INDEX 命令来收集统计信息。(在字符串中)返回一个整数,该整数指定字符串中子字符串的位置。程序员可以指定他们想要检测的字符串的外观以及起始位置。这些函数可用于从字符串中过滤不需要的字符。默认情况下,它们会删除空格,但也可以指定要删除的字符集。中,您不仅限于在列上创建索引。您可以创建基于函数的索引。优化器在执行 SQL 语句时使用此索引,请确保。这是一个如何完成动态查询的非常简单的示例。的客户表上创建了一个索引。原创 2025-03-19 09:31:42 · 1340 阅读 · 0 评论 -
数据库:一文掌握 MongoDB 的各种指令(MongoDB指令备忘)
此备忘单包含一些方便的提示、命令和快速参考,可让您立即连接并进行 CRUD。原创 2025-03-18 08:58:42 · 1029 阅读 · 0 评论 -
数据库:MySQL 指令大全(备忘清单)
MySQL 为关系型数据库(Relational Database Management System),一个关系型数据库由一个或数个表格组成,如下所示的一个表格name ▼ 键 ▼ 列(col) ┌┈┈┈┈┬┈┈┈┈┈┈┈┈┬┈┈┈┈┈┈┬┈┈┈┈┈┈┈┐┆ id ┆ name ┆ uid ┆ level ┆ ◀ 表头header┆ 2 ┆ redis ┆ 12 ┆ 1 ┆ ◀ 行 rowredis ▲ 值表头(header)每一列的名称列(col)具有相同数据类型的数据的集合行(row)原创 2025-03-17 13:35:05 · 1643 阅读 · 0 评论 -
数据库:一文掌握 PostgreSQL 的各种指令(PostgreSQL指令备忘)
附加到 pg_hba.conf(与 postgresql.conf 相同的位置)备忘清单为您提供了常用的 PostgreSQL 命令和语句。获取 postgresql.conf 的位置。授予在所有表上选择、更新、插入、删除的权限。使用 pg_dumpall 备份所有数据库。连接到名为 postgres 的数据库。使用 pg_restore 恢复数据库。使用 pg_dump 备份数据库。使用 psql 恢复数据库。将表格导出为 CSV 文件。显示数据库中的所有表。列出当前数据库中的表。原创 2025-03-16 10:16:44 · 1683 阅读 · 6 评论 -
关于阿里云DataWorks的6个问题记录
阿里文档:大数据开发治理平台 DataWorks文档1. 什么是DataWorksDataWorks(大数据开发治理平台)是阿里云重要的PaaS(Platform-as-a-Service)平台产品,为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。DataWorks基于MaxCompute/EMR/MC-Hologres等大数据计算引擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中台与原创 2022-03-23 20:12:38 · 34798 阅读 · 0 评论 -
对数据驱动运营的理解
数据驱动运营当我们谈论大数据的时候,我们是谈论Hadoop, Spark这样的大数据技术产品?还是大数据分析,大数据算法与推荐系统这样的大数据应用?其实这些都是大数据的工具和手段,大数据的核心就是数据本身,数据就是一座矿山,大数据技术产品,大数据分析与算法是挖掘机,采矿车。学了大数据,每天开着矿车忙忙碌碌,那你只是一个旷工,可能每天面对一个金山却视而不见。数据的作用是无处不在的,不但能做统计分析,精准营销,智能推荐,还能做量化交易帮你自动赚钱,甚至能驱动公司运营,管理整个公司。中国互联网三巨头BAT的原创 2022-05-14 23:03:20 · 33023 阅读 · 0 评论 -
大数据概述、前世今生、处理流程、学习路线、开发工具详解
大数据是无法使用传统计算技术处理的大型数据集的集合。它不是单一的技术或工具,而是已成为一个完整的主题,涉及各种工具,技术和框架。全球数据的90%是在最近十年中产生的。原创 2022-08-27 21:50:53 · 31517 阅读 · 0 评论 -
Kafka常用命令大全及kafka-console-consumer.sh及参数说明
1、kafka-acls.sh #配置,查看kafka集群鉴权信息2、kafka-configs.sh #查看,修改kafka配置3、kafka-console-consumer.sh #消费命令4、kafka-console-producer.sh #生产命令5、kafka-consumer-groups.sh #查看消费者组,重置消费位点等6、kafka-consumer-perf-test.sh #kafka自带消费性能测试命令。原创 2024-05-14 10:36:34 · 15377 阅读 · 0 评论 -
Redis 指令备忘清单(超级详细!)
本备忘单旨在快速理解 redis 所涉及的主要概念,提供了最常用的SQL语句,供参考。Redis 是一个 存储系统类似 Memcached启动 Redis使用 CLI 登陆 redis使用 Telnet 的登陆 redis小试Ping 测试经典 Hello WorldRedis服务相关的命令设置COMMAND获取 Redis 命令详细信息的数组获取 Redis 命令总数给定完整的 Redis 命令提取密钥获取特定 Redis 命令详细信息的数组获取有关服务器的信息和原创 2025-03-04 20:10:54 · 1924 阅读 · 0 评论 -
MySQL如何排查和删除重复数据
MySQL多字段去重复实际上是单字段去重复的衍生,原理就是把多字段数据通过子查询合并为单字段的数据表,再通过单字段数据group by进行汇总,用 having把 count(字段) > 1的数据都显示出来,最后把查找到的重复数据用min方法或者max方法获取最小id或者最大id来选择删除。原创 2024-05-15 15:45:31 · 11216 阅读 · 0 评论 -
linux安装单机版redis详细步骤,及python连接redis案例
在 Python 中操作 Redis,可以使用 `redis-py` 库。`redis-py` 是 Redis 官方推荐的 Python 客户端,支持 Redis 的所有基本操作。以下是详细的使用方法和示例代码。原创 2024-02-12 19:58:56 · 14253 阅读 · 0 评论 -
常见SQL错误用法案例和总结
1、数据库编译器产生执行计划,决定着SQL的实际执行方式。但是编译器只是尽力服务,所有数据库的编译器都不是尽善尽美的。上述提到的多数场景,在其它数据库中也存在性能问题。了解数据库编译器的特性,才能避规其短处,写出高性能的SQL语句。2、程序员在设计数据模型以及编写SQL语句时,要把算法的思想或意识带进来。3、编写复杂SQL语句要养成使用WITH语句的习惯。简洁且思路清晰的SQL语句也能减小数据库的负担^-^。原创 2023-10-08 17:08:40 · 14606 阅读 · 0 评论 -
mongodb并发和锁的问题总结
MongoDB 允许多个客户端读写相同的数据。为了确保一致性,MongoDB 使用锁定和并发控制来防止客户端同时修改相同的数据。对单个文档的写入要么完整发生,要么根本不发生,并且客户端始终看到一致的数据。原创 2023-04-26 16:36:04 · 21022 阅读 · 0 评论 -
MySQL查看连接数和进程信息
2、连接线程参数(thread variabls and status)4、查看用户和当前实际登录的用户名。3、查看正在执行的连接进程信息。原创 2023-03-20 17:41:50 · 22918 阅读 · 0 评论 -
MySQL删除全局唯一索引unique
【代码】MySQL删除全局唯一索引unique。原创 2023-02-20 19:05:58 · 23071 阅读 · 0 评论 -
SQLAlchemy的同步和异步的代码对比
expunge方法,是用例释放这个实例,SQLAlchemy有个特点,当你的session会话结束以后,它会销毁你插入的这种临时数据,你再想访问这个data就访问不了了。所以我们可以释放这个数据。先说一下session.begin,这个你可以理解为一个事务操作,当采用session的begin方法后,你可以发现我们不需要调用commit方法也能把修改存入数据库。删除的话,软删除大家都是update,所以不需要多说,物理删除的话,也有两种方式:、这里开始就只讲异步的操作了。希望对大家有帮助~~~原创 2023-01-29 11:49:37 · 24508 阅读 · 1 评论 -
linux的centos系统安装MongoDB详细步骤(包括创建用户的各种操作及遇到的问题汇总)
数据存储目录(dbpath)的位置,该目录默认在/var/lib/mongo下,执行如下命令修改目录权限(-R-递归处理所有文件和文件夹)同样的方法,再解决/data/mongodb/data和/data/mongodb/run目录的问题。上面命令执行完毕后,就解决了/data/mongodb/log目录的文件权限问题。再修改日志目录的权限,该文件默认在/var/log/mongodb目录,命令如下。下载后先安装依赖,再安装Mongodb,如果遇到报错,请看下面的解决方案。是通配符),在/tmp路径下。..原创 2022-07-19 18:41:18 · 33941 阅读 · 1 评论 -
MongoDB内部的存储原理
本文介绍默认存储引擎WiredTigerWiredTiger的写操作会先写入Cache,并持久化到WAL(Write ahead log),每60s会做一次Checkpoint,将当前的数据持久化,每,产生一个新的快照。Wiredtiger连接初始化时,首先将数据恢复至最新的快照状态,然后根据Checkpoint恢复数据,以保证存储可靠性虽然遍历数据的查询是相对常见的,但是 MongoDB 认为查询单个数据记录远比遍历数据更加常见,由于 B 树的非叶结点也可以存储数据,所以 查询一条数据所需要的平均随机 I原创 2022-07-05 20:42:30 · 34383 阅读 · 1 评论 -
MongoDB命令汇总
看每个命令的详细用法,可以使用:数据库操作更详细的帮助命令:对指定数据库的集合进行操作、管理和监控:显示当前数据库服务器上的数据库:切换到指定数据库pagedb的:显示数据库中所有的集合: 或 查看数据库服务器的状态:查询指定数据库统计信息:了解 DML、DDL、DCL、DQL专业名称SQL语言共分为四大类:数据操纵语言DML,数据定义语言DDL,数据控制语言DCL,数据查询语言DQL。创建数据库 mydatabase: (只是切换,不是创建)创建集合 student试一下,max等于3或者size等原创 2022-07-05 20:33:26 · 32522 阅读 · 2 评论 -
MongoDB优化的几点原则
确认你的查询是否充分利用到了索引,用explain命令查看一下查询执行的情况,添加必要的索引,避免扫表操作。可能你的数据集非常大,但是这并不那么重要,重要的是你的热数据集有多大,你经常访问的数据有多大(包括经常访问的数据和所有索引数据)。使用MongoDB,你最好保证你的热数据在你机器的内存大小之下,保证内存能容纳所有热数据。MongoDB的数据文件是采用的预分配模式,并且在Replication里面,Master和Replica Sets的非Arbiter节点都是会预先创建足够的空文件用以存储操作日志。这原创 2022-07-05 20:31:51 · 32366 阅读 · 2 评论 -
MongoDB 遇见 spark(进行整合)
1、在存储方式上,HDFS以文件为单位,每个文件大小为 64M~128M, 而mongo则表现的更加细颗粒化;2、MongoDB支持HDFS没有的索引概念,所以在读取速度上更快;3、MongoDB更加容易进行修改数据;4、HDFS响应级别为分钟,而MongoDB响应类别为毫秒;5、可以利用MongoDB强大的 Aggregate功能进行数据筛选或预处理;6、如果使用MongoDB,就不用像传统模式那样,到Redis内存数据库计算后,再将其另存到HDFS上。MongoDB可以替换HDFS, 作为大数原创 2022-07-05 20:29:46 · 78314 阅读 · 2 评论 -
MongoDB 分片总结
是指:将数据拆分,将其分散在不同机器的过程,有时也用分区(partitioning)来表示这个概念。将数据分散在不同的机器上,不需要强大的大型计算机就能存储更多的数据,可以满足MongoDB数据量大量增长的需求。当MongoDB存储海量的数据时,一台机器可能不足以存储数据,也可能不足以提供可接受的读写吞吐量。这时,我们就可以通过在多台机器上分割数据,使得数据库系统能存储和处理更多的数据。注意:副本集:能解决自动故障转移,主从复制,集群。解决的问题:数据冗余备份,架构高可用;但不能解决单节点压力问题(硬件限原创 2022-07-05 20:26:45 · 32477 阅读 · 1 评论 -
MongoDB复制(副本集)总结
MongoDB副本集(Replica Set)是有自动故障恢复功能的主从集群,有一个主节点和一个或多个从节点组成。副本集没有固定的主节点,当主节点发生故障时,整个集群会选举一个主节点为系统提供服务以保证系统的高可用。MongoDB复制是将数据同步在多个服务器的过程。复制提供了数据的冗余备份,并在多个服务器上存储数据副本,提高了数据的可用性, 并可以保证数据的安全性。复制还允许您从硬件故障和服务中断中恢复数据。官网参考:MongoDB副本集保障数据的安全性数据高可用性 (24* 7 )灾难恢复无需停机维原创 2022-07-05 20:04:10 · 32699 阅读 · 1 评论 -
MongoDB的用户管理总结
要添加用户,可使用MongoDB提供的db.createUser()方法。 添加用户时,可以为用户分配角色以授予权限。注意:在数据库中创建的第一个用户应该是具有管理其他用户的权限的用户管理员。还可以更新现有用户,例如更改密码并授予或撤销角色。添加用户时,可以在特定数据库中创建用户。该数据库是用户的认证的数据库。用户可以跨不同数据库拥有权限; 即用户的权限不限于认证数据库。 通过分配给其他数据库中的用户角色,在一个数据库中创建的用户可以拥有对其他数据库的操作权限。用户名和认证数据库作为该用户的唯一标识符。 也原创 2022-07-05 19:57:30 · 32613 阅读 · 3 评论 -
MongoDB的导入导出、备份恢复总结
Mongodb中的mongoexport工具可以把一个collection导出成JSON格式或CSV格式的文件。可以通过参数指定导出的数据项,也可以根据指定的条件导出数据。mongoexport具体用法如下所示:参数说明:示例:导出集合articles,字段 _id,author,dave,score,views1.2 数据导入 mongoimportmongoimport具体用法如下所示:参数说明:示例:导入集合articles_import,字段 _id,author,dave,score,vi原创 2022-07-05 19:51:52 · 32760 阅读 · 1 评论 -
MongoDB聚合操作总结
MongoDB 中聚合(aggregate)主要用于处理数据(诸如统计平均值,求和等),并返回计算后的数据结果。有点类似 SQL 语句中的 , , 。MongoDB中聚合的方法使用aggregate()。语法格式:案例:计算每个作者所写的文章数,使用aggregate()计算结果如下在上面的例子中,通过字段 by_user 字段对数据进行分组,并计算 by_user 字段相同值的总和。1、$sum 计算总和。1、$avg 计算平均值1、$min 获取集合中所有文档对应值得最小值。1、$max 获取集原创 2022-07-04 20:38:12 · 33647 阅读 · 1 评论 -
MongoDB中的索引操作总结
索引通常能够极大的提高查询的效率,如果没有索引,MongoDB在读取数据时必须扫描集合中的每个文件并选取那些符合查询条件的记录。这种扫描全集合的查询效率是非常低的,特别在处理大量的数据时,查询可以要花费几十秒甚至几分钟,这对网站的性能是非常致命的。索引是特殊的数据结构,索引存储在一个易于遍历读取的数据集合中,索引是对数据库表中一列或多列的值进行排序的一种结构索引(Index)是帮助MySQL高效获取数据的数据结构。可以得到索引的本质:索引是数据结构。可以简单理解为“排好序的快速查找数据结构”。索引存储一原创 2022-07-03 22:20:12 · 33380 阅读 · 0 评论 -
05 MongoDB对列的各种操作总结
修改age为 31 的列的address列的名称修改为address2,只会修改一条记录。 name为张三的address列的名修改为address2,会修改所有满足条件的记录。二. 对列的增加或者删除操作更新特定字段:删除特定字段:案例1:增加列名为name的值是张三的列,只会增加一条。案例2:在集合中增加一列age, 默认为空, 该所有文档中都会增加该列:案例3:删除列名为name的值是张三的列,列名和列值都会删除,只会删除一条。案例4:删除列名为name的值是张三的列,列名和列值都会删原创 2022-06-24 18:29:27 · 33452 阅读 · 0 评论 -
04 MongoDB各种查询操作 以及聚合操作总结
语法格式: 说明: find()方法以非结构化的方式来显示所有文档, 可指定参数:案例1: 如向集合user_demo中查询名字为zhangsan的用户:案例2: 指定返回哪些键除了 find() 方法之外,还有一个 findOne() 方法,它只返回一个文档。AND查询语法格式: 案例1: 如向集合user_demo中查询名字为zhangsan的用户且age为20的数据:2.2 OR查询OR查询语法格式:案例2: 如向集合user_demo中查询名字为zhangsan的用户或age为20的数据:原创 2022-06-24 18:27:17 · 78738 阅读 · 1 评论 -
03 MongoDB文档的各种增加、更新、删除操作总结
注意: 在 MongoDB 中,直接插入内容会自动创建集合!语法格式: 说明: 若插入的数据主键已经存在,则会抛 org.springframework.dao.DuplicateKeyException 异常,提示主键重复,不保存当前数据。案例: 如向集合user_demo中插入一条数据:1.2 使用save()方法(新版本中已废弃)语法格式: 说明: 如果 _id 主键存在则更新数据,如果不存在就插入数据。该方法新版本中已废弃,可以使用 db.collection.insertOne() 或 db.原创 2022-06-24 18:23:10 · 33770 阅读 · 0 评论 -
02 MongoDB数据类型、重要概念以及shell常用指令
: 类似唯一主键,可以很快的去生成和排序,包含 12 bytes,含义是:: BSON 字符串都是 UTF-8 编码。: BSON 时间戳类型主要用于 MongoDB 内部使用。在大多数情况下的应用开发中,可以使用 BSON 日期类型。: 表示当前距离 Unix新纪元(1970年1月1日)的毫秒数。日期类型是有符号的, 负数表示 1970 年之前的日期。有一些数据库名是保留的,可以直接访问这些有特殊作用的数据库。文档是一组键值(key-value)对(即 BSON)。MongoDB 的文档不需要设置相同的字原创 2022-06-24 18:12:42 · 32728 阅读 · 0 评论 -
01 MongoDB的概述、应用场景、下载方式、连接方式和发展历史等
官网地址:https://www.mongodb.com/官方文档:https://docs.mongodb.com/manual/菜鸟教程: https://www.runoob.com/mongodb/mongodb-tutorial.htmlw3cschool: https://www.w3cschool.cn/mongodb/书栈网: https://www.bookstack.cn/books/piaosanlang-mongodbMongoDB 是一个可拓展、开源、表结构自由、用 C++ 语言编原创 2022-06-24 18:01:46 · 78877 阅读 · 0 评论 -
SQL: 巧妙使用CASE WHEN实现查询
案例案例:创建表并插入公司名,性别,人数,SQL如下。要求:统计不同公司,不同性别的员工人数。DROP TABLE IF EXISTS staff_situation; CREATE TABLE staff_situation( company VARCHAR(8), gender VARCHAR(8), num INT ) ENGINE = InnoDB DEFAULT CHARSET = utf8; INSERT INTO staff_situation (company,原创 2022-05-02 21:23:57 · 32734 阅读 · 0 评论 -
28个大数据的高级工具汇总
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。大数据的数据仓库技术主要包括:Hive,Hbase,Sqoop,Flume等。原创 2022-02-27 14:10:53 · 34171 阅读 · 0 评论 -
Elasticsearch的介绍 以及使用python操作es详细步骤
一. 什么是 Elasticsearch想查数据就免不了搜索,搜索就离不开搜索引擎,百度、谷歌都是一个非常庞大复杂的搜索引擎,他们几乎索引了互联网上开放的所有网页和数据。然而对于我们自己的业务数据来说,肯定就没必要用这么复杂的技术了,如果我们想实现自己的搜索引擎,方便存储和检索,Elasticsearch 就是不二选择,它是一个全文搜索引擎,可以快速地储存、搜索和分析海量数据。Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful w原创 2020-07-22 13:45:30 · 48515 阅读 · 5 评论 -
MySQL用户管理与PostgreSQL用户管理的对比
一. MySQL用户管理【例1.1】使用root用户登录到本地mysql服务器的test库中mysql -uroot -p -hlocalhost test【例1.2】使用root用户登录到本地mysql服务器的test库中,执行一条查询语句mysql -uroot -p -hlocalhost test -e "DESC person;"【例1.3】使用CREATE USER创建一个用户,用户名是jeffrey,密码是mypass,主机名是localhostCREATE USER 'jef原创 2020-07-13 12:42:34 · 34442 阅读 · 0 评论