python 爬取网页内容并保存到数据库_python爬取数据并保存到数据库中(第一次练手完整代码)...

本文介绍了如何使用Python进行网页内容爬取并将其存储到数据库中。通过创建`conn_db.py`文件实现数据库的连接、增删改查等操作,再结合`requests`和`BeautifulSoup`库解析网页内容,抓取标题、时间等信息,最后将这些信息插入到数据库的`cms`表中。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2. 创建conndb py,包括数据库连接断开,添加、删除、修改、和其他操作:# !\/usr\/bin\/env python # - * -编码:utf - 8 - *进口pymysqldef conn_db(): #连接到数据库函数康涅狄格州=(主机=\u201Clocalhost\u201D,用户=数据库用户名,密码=数据库密码,db =数据库名称,charset = use utf8) cur =()返回康涅狄格州,curdef exe_update (cur, sql): # Update语句,执行更新、插入语句sta = (sql)返回stadef exe_delete (cur, ids): # Delete语句,批量删除eachID (\u201D): sta =(\u201C删除从cms id = % d ' % int (eachID))返回stadef exe_query (cur, sql): #查询语句(sql)返回curdef exe_commit(坏蛋):()#执行提交操作,insert语句将def conn_close生效(康涅狄格州,cur): #关闭所有连接()()3。

\/usr\/bin\/env python # - * -编码:utf - 8 - * -进口requestsfrom bs4进口BeautifulSoupimport datetimeimport conndbdef get_html_text (url):试题:r = (url,超时= 30)# = _encoding =\u201Cutf - 8\u201D# #打印编码方法()returnexcept BaseException e:打印(BaseException:, e)返回\时间=(\u201C跨度\u201D)。字符串#新闻创建日期time1 =\u201C20\u201D+时间(0(\字符串#打印(标题+时间+ url) get_new_content (url、标题、时间)def get_new_content (url、标题、tim1): html = get_html_text (url) #打印(html)汤\u201D= BeautifulSoup (html、) #打印项p (p) #: #: # print() #调用更新记录函数p_str = str (p) # p是一个标签,可以转换成一个字符串,并去除前后的[]符号长度= len (p_str) utf8_length = len (p_ (utf - 8))长度= (utf8_length长度)\/ 2 + lengthp_str = p_str [1: int(长度)]tim2 = (20 + tim1,\u201CY % - % - % d % H: % m ') #转换日期以字符串格式Datetimesta所需数据库= _update(坏蛋,\u201D插入cms(标题、内容、gmt_create)\u201D\u201C值(' % s ', ' % s ', ' % s ')\u201D%(标题、p_str tim2))如果sta = = 1:打印(\u201C插入成功\u201D)其他:打印(\u201C插入失败\u201D)def主要():url =\u201C抓住页面url\u201Dget_content (url) #调用该函数连接到数据库康涅狄格州,坏蛋= _db主要()()_commit(坏蛋)#关注!

你必须记住提交,否则操作成功,但它不是添加到数据库_close(康涅狄格州,cur)这样,捕获的数据可以保存在数据库中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值