标题Python的下载、安装、运行
- 官方下载地址:https://www.python.org/downloads/
如果操作系统为Windows,可以直接点黄色按钮下载最新版的Python。如果是其它操作系统,或者想要下载旧版本,点击白色框框里的链接,找到想要的版本下载即可。
- 双击安装包,进入安装界面。可以选择直接安装或自定义安装。记得勾选安装界面底下两个选项,方便日后安装第三方库
- 安装第三方库
【开始】菜单——运行——输入CMD——确定
在打开的窗口中输入【pip install lxml】,回车,等待第三方库安装成功
恭喜,你已经成功安装了Python,并且安装了接下来要用到的第三方库lxml,还学会了安装第三方库的方法。下面我们开始搜索并提取信息吧
搜索与信息提取
- 在谷歌上搜索一个关键词。为了一次性获取更多结果,我把搜索结果数量设置为100个
- 结果页空白处右击——查看源文件——复制全文【Ctrl+A】——粘贴到txt文件,保存为【html.txt】
- 在【开始】菜单找到IDLE,单击打开
- 新建一个py文件。在菜单栏依次点击File——New File,或者使用快捷键【Ctrl+N】
- 把以下代码粘贴到新文件里,然后按快捷键【Ctrl+S】保存,文件名为【test.py】
from lxml import etree
def collect_domains():
html = open("html.txt", 'rb').read()
html = etree.HTML(html)
path = '//*[@id="rso"]/div[*]/div/div/div[1]/a/div/cite'
elements = html.xpath(path)
urls = [element.text for element in elements]
rows = ""
for url in urls:
domain = url.split("/")[-1]
if domain.startswith("www."): domain = domain[4:]
rows = rows + f"{
url}