- 博客(32)
- 收藏
- 关注

原创 数据导入与预处理
帮助从原有庞大数据集中获得精简的数据集合,使该精简的数据集保持原有数据集的完整性,这样精简的数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与原有数据集所获得的结果基本相同。脏数据:由于重复录入,并发处理等不规范的操作,导致产生不完整,不准确的,无效的数据(越早处理脏数据,数据清理操作越简单)造成不准确原因:数据收集设备故障,数据输入错误,数据传输过程出错,命名约定、数据代码、输入字段的格式不一致。小数据集的挖掘结果(精简数据集挖掘结果) 几乎等于 大数据集的挖掘结果(原有数据集挖掘结果)...
2022-08-30 16:53:10
2101
原创 python开发知识基础
在上面的示例中,perform_operation函数模拟了一个被调函数,当输入数据不为空时会返回数据的两倍,否则返回None。在调用该函数后,演示了未处理返回值和处理返回值两种情况,以及如何根据返回值进行适当处理来避免潜在问题的发生。在上面的示例中,calculate_sum函数用于计算列表中所有数字的和,并返回结果。在调用该函数后,展示了未对返回值进行准确处理和处理返回值的两种情况,以及如何通过类型检查等方式确保返回值的准确性,避免潜在问题的发生。
2024-03-28 15:26:51
1037
1
原创 商务智能期中--知识点
一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)
2023-04-26 13:55:21
505
原创 数据挖掘期中测验--简答题
数据挖掘一般是从大量数据中通过算法搜索出隐藏其中的信息的过程,从大量的、不完全的、有噪声的、模糊的、随机的应用数据中,提取出潜在且有用的信息的过程,并且这个过程是自动的,通常与计算机有关,通过统计、联机分析处理、情报检索、机器学习等诸多方法实现,这是狭义的定义,还有一种广义的定义,认为数据挖掘就是一个完整的知识发现,包括数据清理、建模、评估等过程。该步骤是数据挖掘的准备,达到改进数据质量,提高数据挖掘过程的准确率和效率,保证数据挖掘的正确性和有效性,通过对数据格式和内容的调整,是的数据更符合挖掘的需要。
2023-04-26 12:39:12
581
原创 算法设计—分支法与回溯法的不同
由于求解目标不同,导致分支限界法与回溯法对解空间的搜索方式也不同,回溯法采用深度优先方法搜索解空间,而分支限界法一般采用用广度优先或以最小耗费优先的方式搜索解空间。在回溯法中,如果当前的扩展结点不能够再向纵深方向移动,则当前扩展结点就成为死结点,此时应回溯到最近的一个活结点处并使此活结点成为扩展结点。回溯法的求解目标是找出解空间树中满足约束条件的所有解,而分支限界法的求解目标则是尽快地找出满足约束条件的一个解。分支限界法的存储空间比回溯法大得多,因此当内存容量有限时,回溯法成功的可能性更大。
2023-04-20 09:14:45
1302
2
原创 数据挖掘与机器学习 -- 实验一+实验二
随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的实验内容。
2023-04-20 09:13:08
708
原创 “强国杯”半决赛
MapReduce 采用“分而治之”思想,把对大规模数据集的操作,分发给一个主节点管理下的各个子节点共同完成,然后整合各个子节点的中间结果,得到最终的计算结果。①SecondaryNameNode 会定期与 NameNode 通信,请求其停止使用 edits 文件,暂时将新的更新操作写到一个新的文件 edits.new 上,这个操作是瞬间完成的。②伪分布式模式:Hadoop 运行在一台主机上,使用多个 Java 进程,模仿完全分布式的各类节点。伪分布式模式具备完全分布式的所有功能,常用于调试程序。
2023-04-18 08:42:45
101
原创 可视化——美国邮票价格
mark_point=['max','average',{'coord':['1996',0.32],'name':'这是自定义的标记点'}])yaxis_name = '价格',yaxis_name_pos='end',yaxis_formatter='元',line_type='solid',yaxis_max = 0.45, xaxis_name='年份',line = Line("美国邮票价格",title_pos='right')line.render(path='./1.阶梯图.html')
2023-03-30 09:30:49
188
原创 数据预处理综合练习1
6.所属省,所属市,所属地区,详细地址合并为家庭住址,并将所属省,所属市,所属地区,详细地址删除。10.预处理完成后输出student.xls。9.去除其中的完全重复数据和不完全重复数据。5.出生日期格式转为yyyy-MM-dd。7.手机号码 必须为1开头的全数字。1.将姓名的左右两端空格去除。3.性别为空的用“未知”替换。8.所修课程拆分为不同的列。2.姓名全拼转为大写。
2022-10-27 10:45:52
1455
原创 编写两个jsp文件,实现利用include动作完成参数传递计算1!+2!+...+n!
编写两个jsp文件,实现利用include动作完成参数传递计算1!+2!+...+n!
2022-09-28 10:51:12
908
原创 spark -chap01简介与运行原理2
数据可以从许多来源Kafka,Flume,Twitter,ZeroMQ, Kinesis,TCP sockets并且可以使用复杂的算法和高级功能表示处理Map,Reduce,Join和Window。MLlib中已经包含了一些通用的学习算法和工具,如:分类、回归、聚类、协同过滤、降维以及底层的优化原语等算法和工具。spark.ml包中提供的构建机器学习工作流的高层次的API。在Graphs和Graph-parallel并行计算中是一个新的部分,GraphX是Spark上的分布式图形处理架构,可用于图表计算。
2022-09-05 15:50:39
580
原创 数据变换--数据规范化
3)小数定标规范化:通过移动属性A的小数点位置进行规范化,小数点的移动依赖于A的最大绝对值。其中,meanA、 standard_devA分别为属性A取值的均值和标准差。常用于属性最大值与最小值未知,或使用最小最大规范化方法会出现异常数据的情况。:将属性数据按比例缩放,使之落入一个小的特定区间。将属性A的值根据其平均值和标准差进行规范化;
2022-09-03 08:58:05
2177
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人