
爬虫及文本分析
解析爬虫原理、使用多种方法进行爬取财经数据,对数据清洗、数据可视化、文本分析等。
优惠券已抵扣
余额抵扣
还需支付
¥79.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
计量小虫
爬虫,数据分析,可视化,文本分析,多属性决策与matlab应用
展开
-
文本分析1:Numpy基础知识
精通数组思维,掌握数组操作一、一维数组数组的性质数组是同类的,即数组的所有元素必须具有相同的类型。数组的创建1.列表转换为数组import numpy as npa = [1, 2, 3, 4] # 创建简单的列表b = np.array(a) # 将列表转换为数组2.创建零数组np.zeros(5,dtype=float)输出结果:array([0.,0.,0.,0.,0.])如果括号内省略dtype,则缺省是浮点型。3.创建单位数组np.ones(5,dtype=int32原创 2020-06-19 21:01:04 · 989 阅读 · 0 评论 -
python爬虫8:动态网页爬虫(今日头条区块链新闻)
一、动态网页概念与表现静态网页是指一次性加载所有内容的网页,随着html代码的生成,页面的内容和显示效果基本上不发生变化-除非修改页面代码。直接从HTML源码中就能找到看到的数据和内容,然而并不是所有的网页都是这样的。动态网页代码虽然没有变,但显示的内容却是可以随着时间、环境或数据库的操作的结果而发生改变。如今日头条财经-股票页面首先,没有翻页的页码,向下翻滚鼠标就可以了。其次,网页上的内容是由JS生成而来,我们能够在浏览器上看得到,但是在HTML源码中却发现不了。网页的新闻在HTML源码中一条原创 2020-05-22 17:08:23 · 1179 阅读 · 0 评论 -
python爬虫7:多线程中商官网关于上市公司信息的爬取
一、多线程功能与库1.多线程功能一个线程、一个进程,称为单线程爬虫,单线程爬虫每次只能访问一个页面。多线程爬虫可以同时访问10个页面,或者更多,相当于爬取速度提高了10倍。2.多进程库多进程库:multiprocessingmultiprocessing的dummy模块,可以让python使用multiprocessing。Dummy下面有一个Pool类,用来实现多线程。from multiprocessing import Pool pool=Pool(processes=4) #创建进原创 2020-05-22 16:55:22 · 598 阅读 · 0 评论 -
Python 3.X:爬虫库urllib的几个问题
Python 3.X:爬虫库urllib几个问题处理1、安装问题urllib在Python 3.X是urllib3,可以在pycharm里安装,或用pip install安装。2、urllib模块问题urllib包里面有四个模块urllib.requesturllib.errorurllib.parseurllib.robotparserurllib.request模块最重要,它...原创 2020-04-12 15:08:20 · 818 阅读 · 0 评论 -
Python爬虫6:使用API及实例
**使用API及实例**1.API的使用2.解析JSON数据3.百度地图开放平台API调用实现热力图1.API的使用当决定去完成一个爬虫操作时,读者的第一反应可能就是用Requests 库请求网页,然后从正则表达式、BeautifulSoup 或Lxml 中选择一个自己最熟悉的库来解析数据, 进而提取数据。但有时我们并不需要这么“卖命”地写代码,因为应用编程接口( Applicati...原创 2020-04-09 10:37:25 · 1438 阅读 · 0 评论 -
Python爬虫5:Lxml库、Xpath语法与爬虫
Lxml库、Xpath语法与爬虫1.认识HTML结构2.XPath3.实例:爬取起点中文网的全部作品信息1.认识HTML结构html标签组成是html文档的最基本元素,一般是成对出现,由开始标签和与其对应的结束标签构成. 如,,,,等,不加斜杠表示标签开始,加斜杠表明结束。它们中间的部分就是标签里的元素。标签可以是并列、嵌套关系。由于html语言是一门弱类型语言,对格式的要求不是非常严...原创 2020-04-07 14:53:41 · 446 阅读 · 1 评论 -
Python爬虫4:利用正则表达式+requests爬取某浪财经一张网页的文字,并写入txt文件
某浪财经有反爬虫限制,最好选择其他网站。方法:利用正则表达式+requests爬取某浪财经重庆啤酒(600132)的研究报告,写入txt文件。1.爬虫思路分析• (1)爬取的内容为重庆啤酒(600132)的研究报告,如图所示。(2)爬取该研究报告的信息,通过手动浏览,网址:http://stock.finance.sina.com.cn/stock/go.php/vReport_Sho...原创 2020-04-03 19:08:52 · 1361 阅读 · 0 评论 -
Python爬虫3:读写txt文件
一、先看如何读取txt文件由于中文文档是‘gbk’的编码方式,我们需要将‘gbk’转化为utf-8。编码方式可以查看我前面的“爬虫乱码问题“链接。方法一:用with open函数用法:with open(路径,操作方式,encoding=‘utf-8’) as f:操作方式可以省略,也可以写成‘r’返回一个字符串返回一个列表返回一个数组等实例:选取一段文字存入txt,命名beer....原创 2020-04-03 16:53:17 · 649 阅读 · 0 评论 -
Python爬虫2:正则表达式
1.基本符号(1)点号点号“.”:一个点号代表除了换行符以外的任何一个字符。如:I love beijing;I love nanjing;前面都有I love,后面都是7个字母,因此可以用点号,代替后面的7个字母,如I love …….中间有多少字就用多少点。(2)星号星号“”:表示它前面的一个子表达式0次到无限次。如:如果快乐你就笑哈哈哈哈哈哈哈哈哈,“哈”字重复,可以用星号代...原创 2020-04-03 14:25:30 · 194 阅读 · 0 评论 -
爬取新浪财经:公司简介—平安银行(000001)下所有数据,解决乱码问题
爬取新浪财经:公司简介—平安银行(000001)下所有数据,解决乱码问题。代码如下from bs4 import BeautifulSoupimport requestsimport timeheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like ...原创 2020-04-02 20:20:12 · 532 阅读 · 0 评论 -
Python爬虫1:爬虫原理、网页构造与第一个爬虫程序
Python爬虫1:爬虫原理、网页构造与第一个爬虫程序本部分介绍15篇爬虫及文本分析的相关文章,基本上学完就可以处理部分爬虫和文本。第一讲有三个内容,包括1 爬虫原理、2 网页构造、3 第一个爬虫程序。1.爬虫原理(1)网络连接网络连接像是在自助饮料售货机上购买饮料一样:购买者只需选择所需饮料,投入硬币(或纸币),自助饮料售货机就会弹出相应的商品。网络连接也正是如此,如下图所示,本...原创 2020-04-02 20:08:00 · 574 阅读 · 0 评论