- 博客(30)
- 问答 (2)
- 收藏
- 关注
原创 (BDCI-CCF)出租车发票识别
参考文章:百度AI攻略:出租车票识别_才能我浪费的博客-优快云博客附完整python源码)基于tensorflow、opencv的入门案例_发票识别一:关键区域定位_小白来搬家-优快云博客_python发票识别注:感谢一起完成项目的队友们大赛官网:出租车发票识别 Competitions - DataFountain一、赛题说明1.赛题背景出租车发票在日常财务发票报销中较为常见,由于这类发票样式丰富,区域性特点明显,并且包含大量模糊字迹和错位字迹,因此准确的定位发票
2022-02-12 18:32:33
3709
原创 大数据技术——MapReduce词频统计
注:参考林子雨老师教程,具体请见MapReduce编程实践(Hadoop3.1.3)_厦大数据库实验室博客一.实验目的1.理解Hadoop中MapReduce模块的处理逻辑。2.熟悉MapReduce编程。二.实验内容1.新建文件夹input,并在其中创建三个指定文件名的文本文件,并将特定内容存入三个文本。2.启动Hadoop伪分布/全分布模式式,将input文件夹上传到HDFS上。3.编写MapReduce程序,实现单词出现次数统计。统计结果保存到hdfs的output文件
2022-02-08 16:41:04
6727
原创 数据挖掘(四)甲状腺疾病检测
注:参考多篇文章与代码所得,在某些过程处可能存在一些理解错误,请大家批评指正。一、实验内容利用异常检测方法对甲状腺疾病进行检测。二、数据介绍数据集包含16个类别属性,5个数据属性和1个目标属性,共22个属性。1、类别属性:age: continuous.sex: categorical, M, F.on thyroxine: categorical, f, t.query on thyroxine: categorical, f, t.on antithyroi.
2022-02-06 21:04:11
6455
13
原创 数据挖掘(三)对国家聚类以用于国际精准援助
注:参考多篇文章与代码所得,可能在某些过程处存在理解错误,请大家批评指正。一、实验背景国际援助是国际人道主义非政府组织(NGO),它致力于消除贫困,并在发生灾害时为经济落后国家提供基本设施和救济。目前,国际援助组织已筹集约1000万美元。现在,NGO的CEO需要决定如何策略性地和有效地使用这笔资金。因此,首席执行官必须决定选择最迫切需要援助的国家。因此,您作为数据科学家的工作是利用一些社会经济和健康因素对国家进行归类,以确定国家的整体发展水平,据此建议首席执行官需要最关注的国家。二、
2022-02-06 20:42:10
1548
原创 数据挖掘(二)预测潜在贷款发放客户
注:参考多篇csdn及b站文章所得一、实验背景某机构想要预测哪些客户可能会产生贷款违约行为。他们搜集了历史客户行为的部分数据以及目标客户的信息,希望通过历史数据对目标客户进行预测哪些客户会是潜在的违约客户,从而缩小目标范围,实现低风险贷款发放。搜集到的数据以.CSV存储,分别包括历史客户和目标客户两个文件。数据描述如下: 字段名 字段描述 数据类型 income 客户收入 int
2022-02-04 18:21:55
4263
5
原创 数据挖掘(一)频繁模式挖掘算法的实现和对比
注:参考多篇优快云文章所得一、实验内容巩固频繁模式挖掘的基本算法原理及特点,设计程序,基于不同特征的数据集比较不同方法的优缺点,并基于算法原理和特点分析造成这种现象的原因。二、算法原理1 Apriori对于Apriori算法,通过限制候选产生发现频繁项集,使用支持度来作为判断频繁项集的标准。Apriori算法的目标是找到最大的K项频繁集。这里有两层意思,首先,我们要找到符合支持度标准的频繁集。但是这样的频繁集可能有很多。第二层意思就是我们要找到最大个数的频繁集。比如我们找到符合支持
2022-02-04 17:53:54
3880
1
空空如也
方面情感分析任务的一次融合任务
2022-06-07
mongodb中出现连接错误
2022-01-07
TA创建的收藏夹 TA关注的收藏夹
TA关注的人