
web
皮皮哈哈明
这个作者很懒,什么都没留下…
展开
-
简单的利用爬虫下载图片——万方期刊杂志封面爬虫
import jsonimport requestsfrom bs4 import BeautifulSoupfrom lxml import etreefrom pymongo import MongoClientfrom gridfs import *base_dir = 'images_cntk/'base_url = 'https://t.cnki.net/knavi/journals/searchbaseinfo'headers = { 'X-Requested-With原创 2021-12-31 14:04:58 · 299 阅读 · 0 评论 -
Python爬取万方全部期刊信息数据,并以字典的格式存储在MongoDB
这里写自定义目录标题import requestsimport jsonimport simplejsonimport mathfrom pymongo import MongoClientfrom tqdm import tqdmbase_dir = 'images_wanfang/'headers = { 'host': 'c.wanfangdata.com.cn', 'Accept': 'application/json, text/javascript, */*;原创 2021-12-31 14:01:05 · 1050 阅读 · 0 评论 -
使用Python+xpath爬取Latex常用特殊符号小图标
import osimport requestsimport randomfrom bs4 import BeautifulSoupfrom lxml import etreefrom cn_journal_user_agent import ua_listdir_list = os.listdir('latex_symbol')# 请求头headers = { 'User-Agent': random.choice(ua_list)}for di in dir_list原创 2021-11-23 13:43:53 · 605 阅读 · 0 评论 -
使用Python+xpath爬取知网所有中英文期刊的封面背景图片
使用Python+xpath+beautifulsoup爬取知网所有中英文期刊的封面背景图片`import jsonimport requestsfrom bs4 import BeautifulSoupfrom lxml import etreefrom pymongo import MongoClientfrom gridfs import *# ajax请求参数太多太复杂,这里省掉了for index in range(1, 107): # ajax请求参数 pay原创 2021-11-23 13:40:22 · 819 阅读 · 0 评论 -
django2.2 pyhdfs hadoop文件上传web应用
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...原创 2019-08-20 16:22:59 · 1627 阅读 · 4 评论