爬取新浪滚动新闻--每个详情页标题以及内容

本文介绍了如何爬取新浪滚动新闻的详细步骤,包括新闻标题和内容。通过提供的网址,可以获取每天实时更新的新闻数据。建议在doc、js、xhr路径下查找适合的接口进行抓取。

1、爬取地址:新浪滚动新闻网址为
https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1
2、这个滚动新闻是新浪每天实时更新的新闻,有需要的,可以参考下
在这里插入图片描述可能每个人的都不一样,自己在doc/js/xhr,这三个地方找找看
废话不多说,看代码吧

from lxml import etree
import MySQLdb
import requests
conn = MySQLdb.connect(host='localhost', user='root', password='123456', port=3306, db='pap', charset='utf8')
cursor = conn.cursor()
headers={
   
   
    'cookie': 'SINAGLOBAL=219.143.103.186_1574762579.560816; SUB=_2AkMqu5Muf8NxqwJRmPoWxGPlZYt2zgvEieKc52L1JRMyHRl-yD9jqlI5tRB6ATu9wbi9kLo8OxoHjeZApvuLo5C-313s; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9WF-3HVKvVX-Q5jxCyV-czu2; UOR=news.hao123.com,news.sina.com.cn,; lxlrttp=1572512346; SGUID=1576150846061_21239829; UM_distinctid=16ef9e965c42b-086800c19d1649-32365f08-100200-16ef9e965c52e6; U_TRS1=000000ba.defc709d.5df245d9.4120fff8; rotatecount=2; Apache=220.202.152.119_1576653423.258154; FEED-MIX-SINA-COM-CN=; ULV=1576653263608:18:18:10:220.202.152.119_1576653423.258154:1576653218143; co=10.13.64.57_1576653.469',
    'referer': 'https://news.sina.com.cn/roll/'<
新浪新闻采集程序天宇版 更新日志: v1.2 1、修复首页及文章页错误! 新浪滚动新闻采集程序天宇版简介 新浪新闻采集程序天宇版采用php进行开发,能自动对新浪新闻进行采集。 占用空间小,建站成本低,无需等待,马上就可以拥有海量网站数据; 免更新免维护,管理方便,操作简单,实现全站后台管理的全自动采集; 实现内容页URL路径伪静态功能,让各大搜索引擎收录更加友好; 新浪滚动新闻采集程序天宇版功能介绍: 1.关键词内链 VIP 2.内容过滤 VIP 3.伪原创词汇 VIP 4.模板独立化(支持自己编写模板) 5.支持自定义路径伪静态(更好的搜索引擎亲和力)【无组件支持伪静态】 6.增加强大的缓存功能(极大降低UPU资源占用率) 7.增加蜘蛛访问记录(实时查看各大搜素引擎蜘蛛对网站爬行动态) 8.增加畅言评论功能 9.增加手机版VIP(自动识别手机与PC机访问切换) 10.自动采集百度搜索相关关键词(非常利于SEO) 后台登录admin/ 账号密码都为admin 上传后请及时更改后台登录路径(给admin文件夹重命名) 后续更新敬请期待。。。 广告不是一成不变的客户也可以自主在模板里直接添加广告代码 模板位置:/templets/default/ 带m的为手机版模板 新浪滚动新闻采集程序天宇版前台页面 新浪滚动新闻采集程序天宇版后台管理 后台登录admin/ 账号密码都为admin 后台页面 相关阅读 同类推荐:站长常用源码
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值