树蛙民工-优快云博客

原创机器学习基础算法——Logistics Regression（逻辑回归）

机器学习基础算法——Logistics Regression文章目录机器学习基础算法——Logistics Regression前言从线性模型到逻辑回归线性分类模型逻辑回归模型问题定义优化问题总结前言In statistics, the logistic model (or logit model) is used to modelthe probability of a certain class or event existing. --Wikipedia根据维基百科的定义，逻辑回归用

2021-01-11 23:13:09 333

原创 HappyBase安装&Python操作HBase

本教程主要是实现用Python语言操作Hbase。主要通过HappyBase这个包来实现。

2017-10-07 21:23:56 4131

原创基于Selenium与图像识别的百度指数爬虫

在参与一个项目的时候，得到了这样一个需求，需要我用爬虫爬取某个关键词的百度指数，而当我打开网址后http://index.baidu.com/，简单登陆输入关键词后，发现事情并不那么简单。

2017-09-21 20:18:11 7852 1

原创 Scrapy爬虫（三）——简易动态网页爬虫

Scrapy爬虫（一）——你的第一个Scrapy爬虫Scrapy爬虫（二）——自定义Item和代理访问的爬虫如果理解清楚以上这两篇博客，运用scrapy框架爬取一般的网页基本不是什么难题了。可是有些时候我们会遇到动态网页，向下滚动加载的网页便是一种很常见的动态网页，要解决这种网页，我们需要采用phantomjs+scrapy的方法。

2017-08-02 16:21:38 1130

原创 Scrapy爬虫（二）——自定义Item和代理访问的爬虫

在Scrapy爬虫（一）——你的第一个Scrapy爬虫中我们写了一个最简易的爬虫，可是这个爬虫并没有实现保存页面内容的功能。本篇主要会通过pipLine实现页面内容保存以及代理访问的功能。

2017-08-02 15:44:51 1128

原创 Scrapy爬虫（一）——你的第一个Scrapy爬虫

Scrapy简介Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。Scrapy

2017-07-25 12:44:00 1294

原创基于Hadoop平台下运用PMI指标的组合词判断

关于Hadoop的介绍Hadoop是分布式文件系统（也就是HDFS），或者一个同类的分布式文件系统，管理着集群的数据。hadoop提供了一套基础设施来处理大多数困难的工作以保证任务能够执行成功。MapReduce是一种计算模型，该模型可将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务。这些任务的计算结果可以合并在一起来计算最终的结果。关于PMI的介绍

2017-07-16 15:55:04 1487

NonAmest的博客