1、爬取地址:新浪滚动新闻网址为:
https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1
2、这个滚动新闻是新浪每天实时更新的新闻,有需要的,可以参考下
可能每个人的都不一样,自己在doc/js/xhr,这三个地方找找看
废话不多说,看代码吧
from lxml import etree
import MySQLdb
import requests
conn = MySQLdb.connect(host='localhost', user='root', password='123456', port=3306, db='pap', charset='utf8')
cursor = conn.cursor()
headers={
'cookie': 'SINAGLOBAL=219.143.103.186_1574762579.560816; SUB=_2AkMqu5Muf8NxqwJRmPoWxGPlZYt2zgvEieKc52L1JRMyHRl-yD9jqlI5tRB6ATu9wbi9kLo8OxoHjeZApvuLo5C-313s; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9WF-3HVKvVX-Q5jxCyV-czu2; UOR=news.hao123.com,news.sina.com.cn,; lxlrttp=1572512346; SGUID=1576150846061_21239829; UM_distinctid=16ef9e965c42b-086800c19d1649-32365f08-100200-16ef9e965c52e6; U_TRS1=000000ba.defc709d.5df245d9.4120fff8; rotatecount=2; Apache=220.202.152.119_1576653423.258154; FEED-MIX-SINA-COM-CN=; ULV=1576653263608:18:18:10:220.202.152.119_1576653423.258154:1576653218143; co=10.13.64.57_1576653.469',
'referer': 'https://news.sina.com.cn/roll/'<

本文介绍了如何爬取新浪滚动新闻的详细步骤,包括新闻标题和内容。通过提供的网址,可以获取每天实时更新的新闻数据。建议在doc、js、xhr路径下查找适合的接口进行抓取。
最低0.47元/天 解锁文章
1193

被折叠的 条评论
为什么被折叠?



