数据科学每日总结--Day3--数据库与模型应用

最新推荐文章于 2025-11-30 19:25:58 发布

原创最新推荐文章于 2025-11-30 19:25:58 发布 · 374 阅读

CC 4.0 BY-SA版权

文章标签：

概念：是对传统键对键，单一内容一般是原子值的SQL数据库的补充，能够填入多段文字或文档，强调灵活的数据结构、可扩展性和高性能。
特点：非结构化/半结构化数据、水平扩展、灵活的数据模型、弱一致性（NOSQL通常在一致性，通用性和分区容忍性三者之间作权衡，一般不会三者同时达到要求，通过用可用性来换取性能，比如更新操作完成后，不同节点可能存在短暂的数据延迟或差异，但系统会通过后台机制逐步同步数据）。
查询与索引：一般以键值、文档、列或者图的形式存储，能够支持多种形式的查询，使得查询更加灵活、高效。

1NF:表中的每一个字段（列）都是不可再分的原子值，即每个单元格只能存储一个值，不能存储集合、数组或记录，比如属性电话号码要符合1NF的话，就只能有一个。
2NF:在满足1NF的基础上，表中的每个非主属性都必须完全依赖于主键（而不是主键的一部分）。假设主键是（学号，课程号），成绩依赖于主键，但学生姓名只依赖于学号，不依赖于课程号，就不是2NF，如果要符合2NF，就要把表拆开，即学号和学生姓名一张表，主要就是消除对主键部分依赖的非主属性。
3NF:在满足2NF的基础上，表中的每个非主属性都必须直接依赖于主键，不能依赖于其他非主属性，也就是消除传递依赖（如果确实A的值，就能知道B，则称B函数依赖于A）。假如表里是学号，班级号，班主任，班主任依赖于班级号，班级号依赖于学号，班主任对学号是传递依赖，那就不符合3NF，拆分为学号和班级号，班级号和班主任，就符合3NF了，关键就在于消除非主属性的依赖关系。
BCNF:在满足3NF的基础上，任何非平凡的函数依赖X→Y中，X都必须是超键（即唯一标识一行的属性组）。假如有个表是课程编号，教室编号，教师电话，这里教师编号决定教师电话，但课程编号不是唯一决定教师电话的键，应该拆分为课程编号和教师编号，以及教师编号和教师电话

将音频做“切片”处理，变成一小段一小段
对每段都做特征提取处理（分析声音的高低，强弱，频率等的描述）
将提取到的特征输入到模型，输出为每一小段声音对应各种音素（可以简单理解为发音的最小单位，比如中文的拼音，“你好”被分为“n”，“i”，“h”，“a”，”o“）的概率
用语言模型来判断这些音素怎么组合成有意义的词和句子，比如“n-i-h-a-o”组合成“你好”
输出结果