
数据处理与机器学习
数据处理和机器学习相关,学习笔记
czl389
我的github ID:czl389.
展开
-
用spark统计50年美国最常见的20个名字
使用Spark统计从1950到2000年,美国有相同姓名的人出生数目,然后输出头20个最频繁出现的名字from pyspark import SparkContextsc = SparkContext('local', 'pyspark')import oscwd = os.getcwd()cwd'/home/ds/notebooks/CuiZhenlong/qqq'rdd=sc.paral原创 2017-08-16 20:04:55 · 2907 阅读 · 0 评论 -
Spark RDD 练习题(python)
from pyspark import SparkContextsc = SparkContext('local', 'pyspark')牛顿法求平方根我们知道牛顿法求 n√\sqrt{n} (达到eps准确度)的算法是这样的:** * 给定一个初始值 x=1.0x = 1.0. * 求xx和n/xn / x的平均(x+n/x)/2(x + n/x)/2 * 根据(x+n/x)/2(x +原创 2017-08-16 17:30:11 · 2812 阅读 · 0 评论 -
Python+Hadoop Streaming实现MapReduce任务
Hadoop StreamingHadoop streaming是Hadoop的一个工具, 它帮助用户创建和运行一类特殊的map/reduce作业。 这些特殊的map/reduce作业是由一些可执行文件或脚本文件充当mapper或者reducer。例如,我们可以用Python来编写脚本:mapper.py和reducer.py。$HADOOP_HOME/bin/hadoop jar原创 2017-08-16 16:08:03 · 9299 阅读 · 1 评论 -
Python可视化seaborn练习题
seaborn —— 课后练✋%matplotlib inlineimport numpy as npimport pandas as pdfrom scipy import stats, integrateimport matplotlib as mplfrom matplotlib import pyplot as pltimport seaborn as sns## 练习1:鸢原创 2017-08-10 23:18:35 · 8435 阅读 · 1 评论 -
Python matplotlib 练习题
matplotlib —— 课后练✋%matplotlib inlineimport matplotlib as mplfrom matplotlib import pyplot as pltimport seaborn as snsimport numpy as npimport pandas as pd练习1:航班乘客变化分析分析年度乘客总量变化情况(折线图)分析乘客在一年中各月原创 2017-08-08 21:51:06 · 18464 阅读 · 3 评论 -
数据分析:pandas分析链家网二手房信息
分析链家网南京市二手房信息链家网二手房数据的采集方法参见之前的博客:数据采集(四):用XPath爬取链家网房价数据总共获取30000条数据记录。import pandas as pdimport numpy as npimport matplotlib.pyplot as plt house=pd.read_csv('house.csv',sep=' ')house.head()原创 2017-08-03 20:10:02 · 12293 阅读 · 0 评论 -
数据采集(六):scrapy爬取搜狗微信新闻+selenium模拟鼠标点击
scrapy是一个流行的爬虫框架,为什么要用它呢?前面我们已经通过xpath或beautifulsoup实现了爬虫,scrapy又有什么不同?我在理解了这个框架之后,感觉它很灵活,很强大。 使用beautifulsoup库我们可以很方便的实现单个爬虫,最后的结果写进了一个字典。但是当考虑一个项目中有多个爬虫,或者需要将最后的结果保存进json、csv文件,mysql数据库、mogodb数据库,或者原创 2017-08-01 10:41:28 · 11266 阅读 · 7 评论 -
数据采集(五):用requests模拟登陆豆瓣
导入需要的库# -*- encoding:utf-8 -*- import urllib2 import urllib import re import cookielib import requests import cStringIOfrom PIL import Image定义登录url 表单信息 HTTP头在登录页面上输入你的豆瓣账号,点击登录。这个过程会以post的原创 2017-07-20 16:35:07 · 1348 阅读 · 0 评论 -
数据采集(四):用XPath爬取链家网房价数据
1.准备工作编写爬虫前的准备工作,我们需要导入用到的库,这里主要使用的是requests和lxml两个。还有一个Time库,负责设置每次抓取的休息时间。import requestsimport requestsimport timefrom lxml import etree2.抓取列表页开始抓取前当然应该了解一下目标网站URL结构咯。链家网的二手房列表页面共有100个,URL结构为 ht原创 2017-07-20 15:58:36 · 5379 阅读 · 2 评论 -
数据采集(三):用XPath爬取腾讯新闻
用XPath 爬取腾讯新闻import requestsfrom lxml import etree先用requests.get()方法请求页面result=requests.get("http://news.qq.com/")encode=result.encodingcontent=result.contentencode'GB2312'注意指定解析器的编码格式selector=et原创 2017-07-20 15:51:59 · 3621 阅读 · 0 评论 -
数据采集(二):腾讯新闻网,新闻标题和内容爬取
比如我对“科技”版块感兴趣,科技版块的链接是“http://tech.qq.com/” 。 首先使用requests请求网页内容。status_code为200表示请求成功。headers是将请求伪装成浏览器行为。timeout设置不能太小,考虑到人的访问手速。import requestsheaders={ 'User-Agent':'Mozilla/5.0 (Windows NT 10原创 2017-07-20 10:02:47 · 8970 阅读 · 2 评论 -
数据采集(一):requests爬取图片(3种方式)
requests爬取图片(3种方式)举例爬取百度贴吧上一张http://tieba.baidu.com/p/4468445702‘>网页上的图片,首先…打开网页# -*- coding: utf-8 -*-import requestsurl = 'http://tieba.baidu.com/p/4468445702'html = requests.get(url)#指定编码html.en原创 2017-07-19 00:21:59 · 21071 阅读 · 2 评论 -
Python:练习题(列表推导式、词频统计、异常处理、正则表达式等)
题目涉及到的知识点表达式与函数:题目1、2列表切片、推导式:题目3.1、3.2、5函数:题目4、5词频统计:题目6、7、8类与对象:题目8异常处理:题目9、10正则表达式:题目7、8、11、12文件读写:题目10、11、121. 任意定义三个数(有整型和浮点型),通过比较判断,输出其最大者。a=5b=6c=4.0if a>b: if a>c: prin原创 2017-07-19 11:57:40 · 4467 阅读 · 1 评论 -
Python:基础知识提要
基本数据类型intfloat字符串boola=2b=2.0c='xiniulab'd=Truea,b,c,d(2, 2.0, 'xiniulab', True)表达式y=a+by4.0字符串连接字符串可以用“+”\n 代表换行str1="xiniu\nhello"print str1xiniuhellostr2='\nI am coming'str3=str1+原创 2017-07-15 16:01:58 · 1005 阅读 · 0 评论 -
中国有嘻哈:网易云、虾米音乐歌词爬虫项目分享
《中国有嘻哈》这款综艺带火了中国的嘻哈音乐,大家问好也都变成了:你有freestyle吗?相信大家都是因为这篇高大上的微信推送文章来的。没看到也不要紧,传送带在这里–>爱票子也爱妹子:300万字歌词分析看中国rapper到底在唱什么。真心觉得寒小阳老师的数据分析技术很厉害~还有小编的文笔也很赞~我主要负责了数据采集的部分。通俗点就是编写一个爬虫,把大量歌曲歌词爬下来。点击右侧链原创 2017-08-16 22:01:31 · 4646 阅读 · 6 评论 -
一个案例看机器学习建模基本过程
machine learning for credit scoringBanks play a crucial role in market economies. They decide who can get finance and on what terms and can make or break investment decisions. For markets and society t原创 2017-08-28 23:11:58 · 16847 阅读 · 3 评论