上代码:
# coding: UTF-8
import requests
//使用百度搜索
url = "http://www.baidu.com/s?wd="
wd = "joyful"
url = url + wd
#获取链接到的页面(html,就跟你右键浏览器查看源代码差不多)
r = requests.get(url)
#转字符串
string=r.text
def FIND(string):
#定义两个变量:分别表示开始的字符串,结束的字符串,用于提取
begin = "http"
end = ".com"
#使用find找到开始和结束截取的位置
start = string.find(begin)
stop = string.find(end)
sub_str = string[start:stop + len(end)]
print(sub_str)
count = string.count(begin)
for x in range(0,count):
start = string.find(begin,stop)
stop = string.find(end,start)
sub_str = string[start:stop + len(end)]
print(sub_str)
FIND(string)
可以说爬虫的基础就是这样了,更厉害的爬虫也是这种思路,在爬取到的页面上采集信息,就是爬虫。
如有错误请大佬指教,万分感谢