爬取目标网页内容并保存在word

import os
import re
import docx
from docx.shared import RGBColor#设置字体
from docx import Document
from docx.shared import Pt#设置字体
from docx.oxml.ns import qn#设置中文字体
import urllib
import urllib.parse
import urllib.request
import sys
import time
from bs4 import BeautifulSoup

def getHtlm(url):
	page=urllib.request.urlopen(url)
	soup=BeautifulSoup(page)
	e=soup.select('title')
	ee=e[0]
	if ee.string[0:3]!='404':
		return soup
	else :
		return 0

def getHtlmcode(url1):
	htlm=getHtlm(url1)
	if htlm!=0:
		#soup=BeautifulSoup(htlm)
		e=htlm.select('div[class=titArea]')
		ee=e[0]
		eee=ee.select('h2')
		eeee=eee[0]
		#print(eeee.string,end='/n')

		a=htlm.select('div[class=detArea]')
		aa=a[0]
		aaa=aa.select('dd')
		bb=aaa[1].string+':'#.sring
		cc=aaa[3].string #.sring
		gen=eeee.string+':'
		#print(bb.string,end='
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值