数据库、MapReduce与数据伦理
1. 数据库查询与NoSQL
在数据库查询中,有这样一段代码:
(
user_interests
.join(users)
.where(lambda row: row["interest"] == "SQL")
.select(["name"])
)
这里有两种查询策略,一种是先连接再过滤,另一种是先过滤再连接。虽然两种方式最终结果相同,但先过滤再连接通常效率更高,因为这样连接操作处理的行数会少很多。不过在SQL中,一般不用太担心这个问题,只需“声明”想要的结果,查询引擎会负责执行并高效使用索引。
近年来,数据库领域出现了非关系型的“NoSQL”数据库趋势,它不以表格形式表示数据。例如,MongoDB是一种流行的无模式数据库,其元素是任意复杂的JSON文档而非行。此外,还有多种类型的NoSQL数据库:
| 数据库类型 | 特点 |
| ---- | ---- |
| 列数据库 | 按列存储数据,适用于数据列多但查询只需少数列的情况 |
| 键/值存储 | 针对通过键检索单个(复杂)值进行了优化 |
| 图数据库 | 用于存储和遍历图结构 |
| 多数据中心优化数据库 | 优化后可跨多个数据中心运行 |
| 内存数据库 | 设计为在内存中运行 |
| 时间序列数据库 | 用于存储时间序列数据 |
如果想下载关系型数据库进行实践,SQLite速度快且体积小,而MySQL和PostgreSQL功能更丰富。它们都是免费的
超级会员免费看
订阅专栏 解锁全文
1455

被折叠的 条评论
为什么被折叠?



