- 博客(13)
- 收藏
- 关注
原创 Python3与Highcharts互动展示数据
Highcharts官网的例子都是用JS写的,这里主要学会怎么用官网的样式展示自己的数据,参考github:https://github.com/kyper-data/python-highcharts/tree/developer
2018-01-09 19:58:31
2677
1
原创 Python3 wordcloud使用+csdn引用NoteBook
1、wordcloud,github地址:https://github.com/amueller/word_cloud,直接用pip安装报错,error: Microsoft Visual C++ 14.0 is required. 解决方案:进入https://www.lfd.uci.edu/~gohlke/pythonlibs/中,搜索wordcloud,找wordcloud‑1.3.2‑cp
2018-01-06 18:50:05
324
原创 python学习之词云wordcloud+jieba
1、wordcloud,github地址:https://github.com/amueller/word_cloud,直接用pip安装报错,error: Microsoft Visual C++ 14.0 is required.解决方案:进入https://www.lfd.uci.edu/~gohlke/pythonlibs/中,搜索wordcloud,找wordcloud‑1.3.2‑c
2018-01-05 20:16:48
302
原创 Python Notebook添加多版本内核
背景:在学习Python自然语言处理时,很多github上的代码都是Python2版本,因为之前安装的anconada是3,Python3版本,所以想在notebook上添加Python2内核方法:1、去官网下载Python2.7,不要下载2.5,,2.5后面会下载不了notebook内核(ipykernel),坑了我半天,下载好后,设置环境变量,将Python.exe所在目录和Scr
2018-01-03 17:12:20
596
原创 爬虫豆瓣完整版
from bs4 import BeautifulSoupimport requests, time, pymongofrom multiprocessing import Pooluser_agent = 'Mozilla/5.0 (Windows NT 6.2; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0
2017-11-01 18:14:06
541
原创 Python 爬取豆瓣电影Top250(一)
from bs4 import BeautifulSoupimport requestsimport timeimport pymongo#创建数据库client = pymongo.MongoClient('localhost', 27017) #激活客户端douban = client['douban']url_list = douban['url_list']item
2017-10-28 17:14:48
559
原创 Python爬虫学习_多进程爬取58同城
思路:有多个频道(类别),每个频道下有多个商品链接,每个商品都有详情页。先将频道链接中的多个商品链接爬下来放入数据库中,再从数据库中取出来每一个商品详情页链接,进行详情页中的信息爬取 首先是channel_extact.py,爬取不同频道的链接from bs4 import BeautifulSoupimport requestsstart_url = 'http://bj.58
2017-03-09 20:59:08
1378
原创 Python 爬虫学习6数据库使用
import pymongoclient = pymongo.MongoClient('localhost',27017) #激活客户端,在本地创建数据库walden = client['walden'] #左侧是Python中的对象,右边括号中是数据库中的名称sheet_tab = walden['sheet_tab'] #创建了表单名称# path =
2017-03-08 19:35:42
283
原创 Python 爬虫学习4
任务:爬取58页面中的正常商品,每个商品详情页中的类目、标题、发帖时间、价格、成色、区域、浏览量信息注意:多开反爬取、看是个人还是商家(url中的0和1)详情页中的标题待改进,'http://bj.58.com/pingbandiannao/{}/pn2,这是第二页的,第一页的爬不了,浏览量还没成功 from bs4 import BeautifulSoupimport re
2017-03-06 19:31:23
292
原创 Python 爬虫学习3
任务:异步数据动态数据:Network-XHR-Response(链接、图片链接),在Request中寻找URL异步加载网站:新浪微博评论、豆瓣电影难点:要知道每一次加载的元素个数(这个网站是12个) from bs4 import BeautifulSoupimport requests, timeurl = 'https://knewone.com/discover?p
2017-03-05 14:22:44
406
原创 Python 爬虫学习2爬取租房网站信息
任务:爬取租房网站信息,300个房源信息(详情页中的价格、位置、户主名字、性别等)注意:超链接的获取、性别获取from bs4 import BeautifulSoupimport requests, timepage_link = [] # <- 每个详情页的链接都存在这里,解析详情的时候就遍历这个列表然后访问就好啦~def get_page_link(page_number):#
2017-03-05 14:02:48
736
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人