
爬虫
文章平均质量分 51
.NET跨平台
比较认真。编程就是算法和数据结构,算法和数据结构是编程的灵魂。
展开
-
ChromeDriver中CssSelector和ClassName区别
略有不同,需要引入不同的命名空间并使用不同的方法名。但是,它们的基本思路和用法是一致的。找到元素后,可以使用元素的。属性来获取元素的文本内容。需要注意的是,C# 的。与 Python 的。原创 2023-02-28 18:42:51 · 737 阅读 · 0 评论 -
BeautifulSoup模块
BeautifulSoup库以来解析数据及提取数据,读懂html文件并且从中提取需要的数据bs对象 = BeautifulSoup(要解析的文本[must be string],'解析器'[例如html.parser,python内置])# 解析数据:from bs4 import BeautifulSoup...html = res.text # html返回string类的值soup = BeautifulSoup(html,'html.parser')# soup的数据类型是<c.转载 2020-09-19 22:58:59 · 208 阅读 · 0 评论 -
Beautiful Soup用法
IntroductionBeautiful Soup是一个解析网页和构造结构化数据表达形式的优秀函数库。它允许我们利用类型(type)、ID,或者任何其他的属性来访问网页内的任何元素,并获取到代表其内容的字符串。Beautiful Soup还可以很好地处理包含不规范HTML标记的Web页面,当我们根据站点的内容来构造数据集时,这一点是非常有用的。Download我们可以从 http://crummy.com/software/BeautifulSoup 下载到Beautiful Soup。这是一个单独转载 2020-09-19 22:57:43 · 718 阅读 · 0 评论 -
Python网络爬虫与信息提取【提取,规则】
网络爬虫之规则常用的ide工具Requests库入门网站:http://www.python-requests.orgRequests库安装方法(windows下)安装python以管理员权限打开Windows PowerShell,输入命令pip install requests安装打开idle,输入命令import requests引入requests库访问百度测试r = requests.get("http://www.baidu.com")r.status_转载 2020-09-19 22:51:25 · 595 阅读 · 0 评论 -
Python实现获取(且慢)基金夏普比率爬虫
# -*- coding:utf-8 -*-import osimport sysimport timeimport tracebackimport jsonimport bs4import pandas as pdfrom selenium import webdriver'''https://www.jianshu.com/p/4b89c92ff9b4https://cuiqingcai.com/2577.html'''print(sys.getdefaultencodi转载 2020-09-19 22:50:17 · 2718 阅读 · 0 评论 -
Python爬取晨星网的基金数据
# -*- coding: utf-8 -*-import sysfrom lxml import etreeimport timeimport randomimport requestsimport jsonimport csvfrom selenium import webdriver # 导入webdriver模块from bs4 import BeautifulSoupfrom time import sleepclass ChengxingspiderItem:转载 2020-09-16 09:46:00 · 2767 阅读 · 1 评论 -
Jsoup官方教程(五)【HTML清理】
消除不受信任的HTML (来防止XSS攻击)问题在做网站的时候,经常会提供用户评论的功能。有些不怀好意的用户,会搞一些脚本到评论内容中,而这些脚本可能会破坏整个页面的行为,更严重的是获取一些机要信息,此时需要清理该HTML,以避免跨站脚本cross-site scripting攻击(XSS)。方法使用jsoup HTML Cleaner 方法进行清除,但需要指定一个可配置的 Whitelist。St转载 2017-12-06 15:56:16 · 727 阅读 · 0 评论 -
Jsoup官方教程(四)【数据修改】
设置属性的值问题在你解析一个Document之后可能想修改其中的某些属性值,然后再保存到磁盘或都输出到前台页面。方法可以使用属性设置方法 Element.attr(String key, String value), 和 Elements.attr(String key, String value).假如你需要修改一个元素的 class 属性,可以使用 Element.addClass(String转载 2017-12-06 15:49:13 · 571 阅读 · 0 评论 -
Jsoup官方教程(一)【入门】
解析和遍历一个html文档如何解析一个HTML文档:String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>";Document doc = Jsoup.parse(html);其解析器能够尽最大可能从你提供的HTML文档来转载 2017-12-06 11:22:38 · 2439 阅读 · 0 评论 -
Jsoup官方教程(二)【输入】
解析一个HTML字符串存在问题来自用户输入,一个文件或一个网站的HTML字符串,你可能需要对它进行解析并取其内容,或校验其格式是否完整,或想修改它。怎么办?jsonu能够帮你轻松解决这些问题解决方法使用静态Jsoup.parse(String html) 方法或 Jsoup.parse(String html, String baseUri)示例代码:String html = "<html><he转载 2017-12-06 11:41:54 · 672 阅读 · 0 评论 -
Jsoup官方教程(三)【数据抽取】
使用DOM方法来遍历一个文档问题你有一个HTML文档要从中提取数据,并了解这个HTML文档的结构。方法将HTML解析成一个Document之后,就可以使用类似于DOM的方法进行操作。示例代码:File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/转载 2017-12-06 15:00:40 · 679 阅读 · 0 评论 -
豆瓣相册图片爬虫
FrmMain.csusing System;using System.Collections.Generic;using System.ComponentModel;using System.Data;using System.Drawing;using System.Linq;using System.Text;using System.Windows.Forms;using S转载 2017-08-02 10:41:19 · 1276 阅读 · 0 评论 -
抓取拉勾上的招聘信息
Program.csusing System;using System.Collections.Generic;using System.IO;using System.Linq;using System.Net;using System.Net.Security;using System.Security.Cryptography.X509Certificates;using Sys转载 2017-04-20 22:03:51 · 1395 阅读 · 0 评论 -
爬拉勾网数据,存Elasticsearch进行归类分析
main.py代码如下:import requestsimport jsonfrom elasticsearch import Elasticsearchfrom datetime import datetimefrom queue import Queuefrom threading import Threadimport timeimport randomclass转载 2017-05-03 13:13:00 · 1760 阅读 · 0 评论 -
超简单BeautifulSoup版Csdn博客(摘要视图)爬虫
csdnSpider.py代码import bs4import requestsorigin = 'http://blog.youkuaiyun.com'user_agent = ('Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36')he原创 2017-05-03 14:26:46 · 4073 阅读 · 0 评论 -
C#实现爬取淘宝商品
Program.cs代码: class Program { static void Main(string[] args) { string URL = @"https://s.taobao.com/search?q={0}&s={1}"; Console.WriteLine("请输入你要查找的商品:");原创 2017-06-15 23:21:43 · 7729 阅读 · 2 评论 -
豆瓣电影排行榜爬虫
Model层DBModel.cs代码: public class DBModel { public int r { get; set; } public Res res { get; set; } public Status status { get; set; } } public class Res {转载 2017-06-18 11:11:05 · 4194 阅读 · 0 评论 -
网易新闻排行榜爬虫
一些说明:使用urllib或requests包来爬取页面。使用正则表达式分析一级页面,使用Xpath来分析二级页面。将得到的标题和链接,保存为本地文件。NewsSpider.py代码:import osimport sysimport urllibimport requestsimport refrom lxml import etreedef StringListSave(sa转载 2017-06-21 16:12:10 · 2279 阅读 · 0 评论 -
超简单Nsoup版Csdn博客爬虫
自己摸索,.NET程序员也有春天using System;using System.Collections.Generic;using System.IO;using System.Linq;using System.Net;using System.Text;using Microsoft.SqlServer.Management.Common;using Microsoft.原创 2016-04-12 16:40:16 · 3146 阅读 · 0 评论 -
Python3实现豆瓣读书爬虫
doubanSpider.py# -*- coding: UTF-8 -*-import sysimport timeimport urllibimport requestsimport numpy as npfrom bs4 import BeautifulSoupfrom openpyxl import Workbook# Some User Agentshds = [{'User原创 2017-07-06 21:00:37 · 4379 阅读 · 0 评论 -
豆瓣API查询和显示图书的信息
第一步:GetDataSource.cs类,用来通过HTTP协议从网络获取json文件,并通过文件流操作将json转化为string类型返回第二步:通过c#语言在visual studio上画图形界面第三步:引用”using Newtonsoft.Json.Linq;”,使用JObject来解析返回的string类型的json文件,获取符合关键字”q”的所有图书 遍历文件获取图书信息,将内容添加带转载 2017-07-06 23:00:45 · 4099 阅读 · 1 评论 -
爬取美女图片
import urllib, re, sys, os,requestspath=r"D:\360Downloads\beautify\MM"url = 'http://huaban.com/favorite/beauty'i_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KH原创 2016-06-29 23:28:29 · 2718 阅读 · 0 评论