- 博客(6)
- 资源 (2)
- 收藏
- 关注
原创 简单的利用爬虫下载图片——万方期刊杂志封面爬虫
import jsonimport requestsfrom bs4 import BeautifulSoupfrom lxml import etreefrom pymongo import MongoClientfrom gridfs import *base_dir = 'images_cntk/'base_url = 'https://t.cnki.net/knavi/journals/searchbaseinfo'headers = { 'X-Requested-With
2021-12-31 14:04:58
293
原创 Python爬取万方全部期刊信息数据,并以字典的格式存储在MongoDB
这里写自定义目录标题import requestsimport jsonimport simplejsonimport mathfrom pymongo import MongoClientfrom tqdm import tqdmbase_dir = 'images_wanfang/'headers = { 'host': 'c.wanfangdata.com.cn', 'Accept': 'application/json, text/javascript, */*;
2021-12-31 14:01:05
1044
原创 使用Python+xpath爬取Latex常用特殊符号小图标
import osimport requestsimport randomfrom bs4 import BeautifulSoupfrom lxml import etreefrom cn_journal_user_agent import ua_listdir_list = os.listdir('latex_symbol')# 请求头headers = { 'User-Agent': random.choice(ua_list)}for di in dir_list
2021-11-23 13:43:53
603
原创 使用Python+xpath爬取知网所有中英文期刊的封面背景图片
使用Python+xpath+beautifulsoup爬取知网所有中英文期刊的封面背景图片`import jsonimport requestsfrom bs4 import BeautifulSoupfrom lxml import etreefrom pymongo import MongoClientfrom gridfs import *# ajax请求参数太多太复杂,这里省掉了for index in range(1, 107): # ajax请求参数 pay
2021-11-23 13:40:22
817
原创 使用Python+BeautifulSoup+Xpath+Mongodb爬取知网所有期刊信息
使用Python+BeautifulSoup+Xpath+Mongodb爬取知网所有期刊信息import jsonimport requestsfrom lxml import etreefrom bs4 import BeautifulSoupfrom pymongo import MongoClientbase_url = 'https://t.cnki.net/knavi/journals/searchbaseinfo'# 初始化mongodb实体类,存储数据库class mon
2021-11-17 14:03:37
1627
原创 django2.2 pyhdfs hadoop文件上传web应用
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
2019-08-20 16:22:59
1619
4
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人