阎_松-优快云博客

原创 linux内核list

linux list详解1 链表结构定义首先看链表的定义，位于：include\linux\types.htruct list_head { struct list_head *next, *prev; };一般将该数据结构嵌入到其他的数据结构中，从而使得内核可以通过链表的方式管理新的数据结构，比如struct device中：struct device { struct device *parent; struct device_pr

2021-07-24 21:37:32 529

原创 Python中BeautifulSoup库的用法

BeautifulSoup简介Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换...

2018-07-23 18:28:45 246830 12

原创 Python操作MongoDB -- pymongo的基本用法

MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持...

2018-07-20 18:25:01 2099

原创 Python实时抓取最新的代理IP

有时候同一个IP去爬取同一网站上的内容，久了之后就会被该网站服务器屏蔽。解决方法就是更换IP。这个时候，在对方网站上，显示的不是我们真实地IP地址，而是代理服务器的IP地址。西刺代理http://www.xicidaili.com/nn/ 提供了很多可用的国内IP，云代理http://www.ip3366.net/提供了许多国外IP可以直接拿来使用。但是这些代理有的短时间内可能就会失效，为了高...

2018-07-18 18:34:04 1297

原创 python网络爬虫--爬取淘宝联盟

互联网是由一个个站点和网络设备组成的大网，我们通过浏览器访问站点，站点把HTML、JS、CSS代码返回给浏览器，这些代码经过浏览器解析、渲染，将丰富多彩的网页呈现我们眼前。网络爬虫，也叫网络蜘蛛(Web Spider)，如果把互联网比喻成一个蜘蛛网，Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的，也就是全球统一资源定位符URL，用来定义互联网上一个唯一的资源 ...

2018-07-17 23:29:52 11514 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人