竞biubiubiu-优快云博客

原创 Python3与Highcharts互动展示数据

Highcharts官网的例子都是用JS写的，这里主要学会怎么用官网的样式展示自己的数据，参考github：https://github.com/kyper-data/python-highcharts/tree/developer

2018-01-09 19:58:31 2677 1

原创 Python3 wordcloud使用+csdn引用NoteBook

1、wordcloud，github地址：https://github.com/amueller/word_cloud，直接用pip安装报错，error: Microsoft Visual C++ 14.0 is required. 解决方案：进入https://www.lfd.uci.edu/~gohlke/pythonlibs/中，搜索wordcloud，找wordcloud‑1.3.2‑cp

2018-01-06 18:50:05 324

原创 python学习之词云wordcloud+jieba

1、wordcloud，github地址：https://github.com/amueller/word_cloud，直接用pip安装报错，error: Microsoft Visual C++ 14.0 is required.解决方案：进入https://www.lfd.uci.edu/~gohlke/pythonlibs/中，搜索wordcloud，找wordcloud‑1.3.2‑c

2018-01-05 20:16:48 302

原创 Python Notebook添加多版本内核

背景：在学习Python自然语言处理时，很多github上的代码都是Python2版本，因为之前安装的anconada是3，Python3版本，所以想在notebook上添加Python2内核方法：1、去官网下载Python2.7，不要下载2.5，,2.5后面会下载不了notebook内核（ipykernel），坑了我半天，下载好后，设置环境变量，将Python.exe所在目录和Scr

2018-01-03 17:12:20 596

原创爬虫豆瓣完整版

from bs4 import BeautifulSoupimport requests, time, pymongofrom multiprocessing import Pooluser_agent = 'Mozilla/5.0 (Windows NT 6.2; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0

2017-11-01 18:14:06 541

原创 Python 爬取豆瓣电影Top250（一）

from bs4 import BeautifulSoupimport requestsimport timeimport pymongo#创建数据库client = pymongo.MongoClient('localhost', 27017) #激活客户端douban = client['douban']url_list = douban['url_list']item

2017-10-28 17:14:48 559

原创 Python爬虫学习_多进程爬取58同城

思路：有多个频道（类别），每个频道下有多个商品链接，每个商品都有详情页。先将频道链接中的多个商品链接爬下来放入数据库中，再从数据库中取出来每一个商品详情页链接，进行详情页中的信息爬取首先是channel_extact.py,爬取不同频道的链接from bs4 import BeautifulSoupimport requestsstart_url = 'http://bj.58

2017-03-09 20:59:08 1378

原创 Python 爬虫学习6数据库使用

import pymongoclient = pymongo.MongoClient('localhost',27017) #激活客户端，在本地创建数据库walden = client['walden'] #左侧是Python中的对象，右边括号中是数据库中的名称sheet_tab = walden['sheet_tab'] #创建了表单名称# path =

2017-03-08 19:35:42 283

原创 Python爬虫学习5

爬取梅梅图片保存至本地，连续页中有页

2017-03-08 08:30:32 449

原创 Python 爬虫学习4

任务：爬取58页面中的正常商品，每个商品详情页中的类目、标题、发帖时间、价格、成色、区域、浏览量信息注意：多开反爬取、看是个人还是商家（url中的0和1）详情页中的标题待改进，'http://bj.58.com/pingbandiannao/{}/pn2，这是第二页的，第一页的爬不了，浏览量还没成功 from bs4 import BeautifulSoupimport re

2017-03-06 19:31:23 292

原创 Python 爬虫学习3

任务：异步数据动态数据：Network-XHR-Response（链接、图片链接），在Request中寻找URL异步加载网站：新浪微博评论、豆瓣电影难点：要知道每一次加载的元素个数（这个网站是12个） from bs4 import BeautifulSoupimport requests, timeurl = 'https://knewone.com/discover?p

2017-03-05 14:22:44 406

原创 Python 爬虫学习2爬取租房网站信息

任务：爬取租房网站信息，300个房源信息（详情页中的价格、位置、户主名字、性别等）注意：超链接的获取、性别获取from bs4 import BeautifulSoupimport requests, timepage_link = [] # <- 每个详情页的链接都存在这里，解析详情的时候就遍历这个列表然后访问就好啦~def get_page_link(page_number):#

2017-03-05 14:02:48 736

原创 Python 爬虫学习1

新手学习Python，了解网页元素，难点：元素定位

2017-03-04 21:27:53 294

weixin_36650342的博客