
python
cat__hadoop
0.0
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python基础
# coding=gbk from pip._vendor.pyparsing import Each movies = ["The Holy Grail","The Life of Brain","The Meaning of Life"] print(movies[0])print(movies) movies.pop() print(movies) movies.append("The app原创 2017-08-11 23:16:37 · 315 阅读 · 0 评论 -
Python高阶函数
#coding: gbk ''' Created on 2017年8月13日@author: Administrator ''' from builtins import str from _functools import reduce from _ast import Str from _sre import getlower from _overlapped import NULL from原创 2017-08-13 12:50:05 · 417 阅读 · 0 评论 -
Python爬取虎扑步行街,爆照区中的照片
使用的是Python3+reqeusts 源码如下 #encoding:gbk import requests import re import time def get_pages(url):#拼凑每一页的url pages = [] for i in range(1,50,1):#爬取第1到50页的帖子 new_url=url+'-'+str(i)原创 2017-08-19 17:59:59 · 1930 阅读 · 1 评论 -
python爬取拉勾网数据保存到mysql数据库
环境:python3 相关包:requests , json , pymysql 思路:1.通过chrome F12找到拉钩请求接口,分析request的各项参数 2.模拟浏览器请求拉钩接口 3.默认返回的json不是标准格式 , 对返回的json数据进行处理转换为标准格式 4.利用pymysql模块进行db操作 #coding:utf-8 import random原创 2017-10-05 10:47:32 · 2115 阅读 · 1 评论 -
Spark中DataFrame与Pandas中DataFrame的区别
出处:http://www.lining0806.com/spark与pandas中dataframe对比/ Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism 不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并...转载 2018-04-20 15:36:26 · 2370 阅读 · 1 评论