POWERSHELL写爬虫
读取网页:invoke-webrequest命令
命令别名:wget
1. 命令格式与参数
(1) 命令格式
$html = wget http-address
(2) 命令参数
a. -outfile 将网页输出到文件
b. -method 指定HTTP method
c. -credential 指定用户验证信息
d.-useragent 指定使用的浏览器特征
2. 命令返回值结构
a. Forms 所有表单,Array,可能为空
b. innerHTML/TEXT,链接本身的名字/文字
c. outerHTML/TEXT,链接显示的名字/文字
d. href,链接地址
e. Class, 标签里class=的内容
f. allelements,Property,所有的属性
举例:
$elements = $html.allelements | where class -eq "seedtable"
筛选所有class==seedtable的内容