
数据挖掘
国科大网安二班
中国科学院大学网安学院二班,会分享密码学、编程、数学相关知识和学习心得,欢迎大家一起讨论。想看什么帖子也可以给我留言。
展开
-
爬虫的初步进阶||正则表达式+BeautifulSoup处理特殊标签实现多级网页跳转的信息爬取
爬虫的初步进阶|正则表达式+BeautifulSoup处理特殊标签实现多级网页跳转的信息爬取继续上一篇帖子:一个简单的百度爬虫实例,上篇主要是在百度的青春有你词条界面爬取了选手的信息(包括姓名、个人主页网址,国家地区,星座,花语,经纪公司),并存在本地的json文件中。本次主要工作是从上次爬到的个人主页网址下载选手的照片到本地。主要用到的技术有:利用json.dumps()和json.loads()函数将数据存进json文件并从json文件取出。利用正则表达式结合BeautifulSoup技术分析原创 2021-01-19 23:02:46 · 623 阅读 · 6 评论 -
json.loads()加载的结果是字符串str类型
json.loads()加载的结果是字符串str类型今天爬虫时,发现从.json文件中用json.loads(file.read())返回的结果是str类型,并不是dict处理方法:再用一遍json.loads(),json_array = json.loads(json.loads(file.read())),这个结果是dict,可以调用字典的相关方法了。...原创 2021-01-16 22:49:06 · 2734 阅读 · 0 评论 -
一个简单的百度爬虫实例
一个简单的百度爬虫实例最近在百度aistdio自学课程,看到一个基础课程的作业是爬取百度上《青春有你》选手信息,索性就跟着爬了一下,复习一下自己去年自学的已经忘得差不多的爬虫。直接上代码,适合刚学习的朋友一起交流,大神请忽略。import requestsfrom bs4 import BeautifulSoupimport jsonimport datetimedef getHTML(url): headers = { 'User-Agent': 'Mozilla/原创 2021-01-14 16:51:48 · 14426 阅读 · 0 评论