
数据科学
文章平均质量分 90
风控大鱼
这个作者很懒,什么都没留下…
展开
-
百度OCR接口使用详细教程
如何把图片、PDF文件中的文字进行识别提取,这个问题仿佛困扰了我们很多年,直到现在,当急需OCR功能时也没有一个快速、高效且免费的在线工具或软件能马上拿来用。前阵子的工作中正好有这个需求,我要把一篇PDF格式论文中的表格内容提取出来,供数据可视化使用。这些表格包含少量文字和大量数字,说多不多,说少也不少,人工提取数字出错率比较高。这时候!我又想找个“在线OCR工具”了!一些号称在线快速OCR的网页,广告横飞且速度慢,上传文件后无反应,大都是标题党骗点击赚广告费的…… 个别看起来比较正经的OCR软件,原创 2020-10-21 18:36:12 · 25228 阅读 · 4 评论 -
异常检测算法分类及经典模型概览
最近工作涉及有关异常检测的内容,而且前几天在公司做了一次有关异常检测算法和应用场景的分享,在此总结记录一下。什么是异常检测?异常检测(Anomaly Detection 或 Outlier Detection)指的是通过数据挖掘手段识别数据中的“异常点”,常见的应用场景包括:金融领域:从金融数据中识别”欺诈案例“,如识别信用卡申请欺诈、虚假信贷等;网络安全:从流量数据中找出”入...原创 2020-02-23 13:12:09 · 5000 阅读 · 1 评论 -
数据工作者的福音:Google 发布正式版数据搜索工具啦!
作为数据工程师,平时在工作中一定少不了到处搜找测试数据,常用的网站包括:Kaggle、Freebase、Data.gov等等,有时候要挨个网站搜索关键字和主题,然后下载了又发现数据集可能并不适用,非常浪费时间。好消息是,上个月 Google 推出了正式版的数据搜索工具 ——Dataset Search:覆盖了 2500w 个公开数据集,而且用户可以使用过滤器进行搜索条件限定,筛选是...原创 2020-02-05 23:17:02 · 356 阅读 · 0 评论 -
用 Python 写一个 Kaggle 比赛排行榜的爬虫
长久以来,我和小伙伴们都被 Kaggle 网站的加载速度困扰着,比如最近在用 Kaggle 上的数据集测试模型效果时,遇到排行榜(Leaderboard)刷新困难的问题。于是我们开始探索解决方案。首先尝试直接使用页面链接进行数据爬取,很明显爬不到,因为 Kaggle 的数据是异步响应的。于是我打开 Leaderboard 页面的开发者工具,以著名的Titanic 竞赛的排行榜为例,打开 Ne...原创 2019-11-23 20:20:24 · 1007 阅读 · 0 评论 -
Kaggle 数据清洗挑战 Day 5 - 处理不一致数据
今天是 Kaggle 数据清洗挑战的第五天,转眼最后一天啦!这次任务是处理拼写不一致的数据,例如“康涅狄格州”可能被记录为 “Connecticut”、“Coon.” 或 “Conecticutt”,这些实际代表是同一个值,而机器会将他们识别为不同的对象。今天用一个简单的方法来整理这些拼写不一致的数据,具体包括三个部分:Get our environment set up Do some p...原创 2018-04-14 03:12:00 · 1092 阅读 · 0 评论 -
基于 XGBoost 对 Santander 银行用户购买行为进行预测
Santander Product Recommendation是我去年做的一个数据挖掘project,简单来说就是,给了一定量的数据,用合适的算法对这些数据进行建模分析,给出预测,从而挖掘出有价值的信息。这也是目前互联网金融公司重点关注的工作内容之一,由于最近在准备面试,回顾之前做过的项目,想重点总结一下这个项目。项目简介Santander 银行成立于西班牙,也称作西班牙国际银行,是...原创 2018-06-11 12:08:31 · 5170 阅读 · 4 评论 -
用 Python 检验数据正态分布的几种方法
什么是正态分布关于什么是正态分布,早在中学时老师就讲过了。通俗来讲,就是当我们把数据绘制成频率直方图,所构成曲线的波峰位于中间,两边对称,并且随着往两侧延伸逐渐呈下降趋势,这样的曲线就可以说是符合数学上的正态分布。由于任何特征的频率总和都为100%或1,所以该曲线和横轴之间部分的面积也为100%或1,这是正态分布的几何意义。如下图,是数据统计实例中出现的正态分布性数据:为什么要做正...原创 2018-07-27 14:02:14 · 36122 阅读 · 7 评论 -
我的 Hive 为什么跑不起来/跑得慢?看看是不是少了这几行代码?
《饮食男女》开头说:“人生不能像做菜,把所有的料都准备好了才下锅。”但做大数据挖掘不一样,MapReduce 不同于人生,一定要把准备工作做好了,才能顺利运行后面的步骤。如果你的 HiveQL 代码没毛病,却一运行就出现 Fail 提示,可以看看,是不是少了下面哪项准备工作?指定队列set mapred.job.queue.name=queue01; //自己指定一个队列在 H...原创 2018-11-30 22:26:54 · 5062 阅读 · 1 评论 -
Kaggle 数据清洗挑战 Day 4 - 字符编码(Character Encoding)处理
今天是 Kaggle 数据清洗挑战的第四天,任务是对字符进行编码处理~分为四个部分来学习:Get our environment set up What are encodings? Reading in files with encoding problems Saving your files with UTF-8 encoding1、搭建环境首先还是引入需要的 lib 包...原创 2018-04-14 03:10:30 · 628 阅读 · 0 评论 -
Kaggle 数据清洗挑战 Day 1 - 手把手教你五步处理缺失值
前些天报名参加了 Kaggle 的 Data Cleaning 5天挑战,5天的任务如下:Day 1: Handling missing values Day 2: Data scaling and normalization Day 3: Cleaning and parsing dates Day 4: Fixing encoding errors (no more messed u...原创 2018-03-28 04:35:12 · 3303 阅读 · 0 评论 -
Hadoop 的核心(2)—— MapReduce & YARN
MapReduce 简介MapReduce 是一种编程模型,是一种编程方法,是抽象的理论。YARN 概念YARN 是 Hadoop 2.0 版本以后的资源管理器,即 MapReduce 2.0,相比于 1.0 版本,架构中的各个模块分工明确,在性能和稳定性上都有所提升。YARN 负责整个集群资源的管理和调度,也就是说所有的 MapReduce 都需要通过它来进行调度,支持多种计算框架。...原创 2018-01-31 05:41:49 · 285 阅读 · 0 评论 -
Hadoop 的核心(1)—— HDFS
首先来看看Hadoop 是什么?Hadoop 是一个开源的大数据框架 Hadoop是一个分布式计算的解决方案 Hadoop = HDFS(分布式文件系统)+ MapReduce(分布式计算)Hadoop 的两个核心:HDFS 分布式文件系统:存储是大数据技术的基础 MapReduce 编程模型:分布式计算是大数据应用的解决方案先来介绍第一个核心 —— HDFS,它有三个特点:...原创 2018-01-18 02:12:51 · 1131 阅读 · 0 评论 -
数据预处理之将类别数据数字化的方法 —— LabelEncoder VS OneHotEncoder
LabelEncoder 和 OneHotEncoder 是什么在数据处理过程中,我们有时需要对不连续的数字或者文本进行数字化处理。 在使用 Python 进行数据处理时,用 encoder 来转化 dummy variable(虚拟数据)非常简便,encoder 可以将数据集中的文本转化成0或1的数值。 LabelEncoder 和 OneHotEncoder 是 scikit-lear...原创 2018-02-04 15:07:59 · 5750 阅读 · 0 评论 -
使用 Spark ML Pipeline 进行机器学习
Spark ML Pipeline 的引入,是受到scikit-learn的启发,虽然 MLlib 已经足够简单实用,但如果目标数据集结构复杂,需要多次处理,或是在学习过程中,要使用多个转化器 (Transformer) 和预测器 (Estimator),这种情况下使用 MLlib 将会让程序结构极其复杂。所以,一个可用于构建复杂机器学习工作流应用的新库已经出现了,它就是 Spark 1.2 ...原创 2018-02-06 13:20:49 · 6344 阅读 · 1 评论 -
Kaggle 数据清洗挑战 Day 2 - 数据缩放及标准化处理
今天是 Kaggle 数据清洗挑战的第二天,任务是进行数据缩放(scaling)及标准化处理(normalization),分为四个部分:Get our environment set up Scaling vs. Normalization: What's the difference? Practice scaling Practice normalization1、搭建环境第...原创 2018-03-30 06:15:31 · 913 阅读 · 0 评论 -
Kaggle 数据清洗挑战 Day 3 - 快速解析日期(date)数据
今天是 Kaggle 数据清洗挑战的第三天,任务是解析 date 型数据。相信我们都遇到过此类情况,拿到的数据集中有需要分析的日期数据,但它们的类型是 String,不便作图,也不适合作为一个 factor 帮助我们进行预测。也可能你拿到的是 Timestamp 类型的数据(如:2005-10-30 T 10:45 UTC),而你只需要年份和月份信息。遇到这些情况,我们都可以使用 python 对...原创 2018-03-30 06:16:20 · 1037 阅读 · 0 评论 -
机器学习:用正规方程法求解线性回归
求解线性回归最常用的两个方法是:梯度下降法和最小二乘法,之前在文章《机器学习:用梯度下降法实现线性回归》中介绍了梯度下降法的工作流程等,这篇文章着重介绍最小二乘法的使用。由于最小二乘法是基于正规方程的,所以也被称为正规方程法。什么是最小二乘法最小二乘法是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。方法的选择那么在求解线性回归时,对于这两种方法该如何选择呢?先看一下这两种方法的...原创 2018-03-25 01:38:04 · 2756 阅读 · 0 评论 -
Mac OS X 上搭建 Hadoop 开发环境指南
Hadoop 的配置有些麻烦,目前没有一键配置的功能,虽然当时我在安装过程中也参考了有关教程,但还是遇到了很多坑,一些老版本的安装过程已不适用于 hadoop2.x,下面就介绍一下具体步骤。安装 Java因为之后使用 Hadoop 需要运行 jar 包,所以 Java 环境是必须的,这里不作赘述,相信大多数学习 Hadoop 的小伙伴计算机上都早已经搭好 Java 环境。下载 H...原创 2018-01-20 10:52:09 · 4828 阅读 · 1 评论