《流浪地球》豆瓣热门影评爬虫

了解更多关注微信公众号“木下学Python”吧~

 

链接:https://pan.baidu.com/s/1yD4ODBCieZwWB-qJaLocsg 
提取码:beer 
 

这个爬取了热门影评,所有评论,约17000条,

没有用多进程,用了多进程,全是乱码,要是有哪位大哥,可以改成多进程,可以发我一份吗

import requests
import time
import random
import re


#请求头
headers = [{'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36'},
           {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'},
           {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134'},
           {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134'}
           ]


#获取网页源码
def get_text(url):
    try:
        response = requests.get(url,headers = random.choice(headers))
        response.raise_for_status()
        response.encoding = 'utf-8'
        return response.text
    except:
        return ''


#爬取评论
def crawl_comments(urls,n):
    print('现在正在爬 {} 星评论:'.format(str(n)))
    page = 1
    for url in urls:
        txt = get_text(url)
        if txt == '':
            print('第 {} 页请求失败!'.format(str(page)))
            page += 1
            continue
        print('正在爬取第 {} 页---------------------'.format(str(page)))

        #获取这一页所有评论用户的 id
        ids = re.findall('<div class="main review-item" id="(.*?)">',txt)

        #访问评论的每一个网页,并爬取信息
        full_comment_url = 'https://movie.douban.com/j/review/{}/full'
        count = 1 #记录爬取到了当前这一页的第几条评论
        for id in ids:
            full_url = full_comment_url.format(id)
            html = get_text(full_url)
            if html == '':
                continue

            content_pattern = re.compile('data-original(.*?)main-author', re.S)
            content = re.findall(content_pattern, html)
            text_pattern = re.compile('[\u4e00-\u9fa5|。]+', re.S)
            text = re.findall(text_pattern, content[0])
            text = ''.join(text)
            text = text.replace('所有任何形式转载请联系作者','').replace('本文版权归作者','')

            print('正在写入第 {} 条'.format(str(count)))
            count += 1

            #写入文件
            write_txt(text)

        page += 1
        time.sleep(random.randint(1,3))


#写入 txt 文本
def write_txt(comment):

    #将文本分成多行写入
    comment = comment.split('。')
    with open('liulangdiqiu.txt','a',encoding='utf-8') as f:
        for c in comment:
            f.write(c + '\n')


#主函数
def main():

    # 1-5 星的 urls 的构造
    urls_star_1 = ['https://movie.douban.com/subject/26266893/reviews?rating=1&start={}'.format(str(page))\
            for page in range(0,981,20)]
    urls_star_2 = ['https://movie.douban.com/subject/26266893/reviews?rating=2&start={}'.format(str(page))\
            for page in range(0,761,20)]
    urls_star_3 = ['https://movie.douban.com/subject/26266893/reviews?rating=3&start={}'.format(str(page))\
            for page in range(0,2081,20)]
    urls_star_4 = ['https://movie.douban.com/subject/26266893/reviews?rating=4&start={}'.format(str(page))\
            for page in range(0,3961,20)]
    urls_star_5 = ['https://movie.douban.com/subject/26266893/reviews?rating=3&start={}'.format(str(page))\
            for page in range(0,9001,20)]

    #爬取一星评价
    #crawl_comments(urls_star_1,n = 1)

    #爬取二星评价
    #crawl_comments(urls_star_1, n=2)

    #爬取三星评价
    #crawl_comments(urls_star_1, n=3)

    #抓取四星评价
    #crawl_comments(urls_star_1, n=4)

    #抓取五星评价
    crawl_comments(urls_star_1, n=5)


#主接口
if __name__ == '__main__':
    start_time = time.time()
    main()
    end_time = time.time()
    print(end_time-start_time)

 

### 机器学习在豆瓣影评情感分析中的应用 为了实现对《流浪地球》的豆瓣影评进行情感挖掘和趋势分析,可以按照以下方法构建数据处理和机器学习流程。 #### 数据收集 首先需要获取《流浪地球》的豆瓣影评数据。这可以通过网络爬虫技术完成。例如,使用 Python 的 `requests` 和 `BeautifulSoup` 库来抓取影评内容[^1]。需要注意的是,在爬取数据时应遵守相关网站的爬虫协议(robots.txt),并确保合法合规地使用数据。 ```python import requests from bs4 import BeautifulSoup url = "https://movie.douban.com/subject/3016021/comments" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36" } response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') comments = soup.find_all('span', class_='short') for comment in comments: print(comment.text) ``` #### 数据预处理 在获取影评数据后,需要对其进行预处理以适配机器学习模型的需求。常见的预处理步骤包括文本清洗、分词、去除停用词等[^2]。可以使用 `jieba` 分词库来处理中文文本,并结合自定义的停用词表过滤无意义词汇。 ```python import jieba import re def preprocess_text(text): # 去除特殊字符 text = re.sub(r'[^\u4e00-\u9fa5]', '', text) # 分词 words = jieba.lcut(text) # 去除停用词 with open('stopwords.txt', 'r', encoding='utf-8') as f: stopwords = set(f.read().splitlines()) filtered_words = [word for word in words if word not in stopwords] return ' '.join(filtered_words) # 示例 text = "这部电影真的太棒了!我非常喜欢。" print(preprocess_text(text)) ``` #### 特征提取 对于文本数据,常用的特征提取方法包括词袋模型(Bag of Words)、TF-IDF 和词向量表示(如 Word2Vec 或 BERT)。这里可以选择基于 `sklearn` 的 TF-IDF 向量化工具将文本转换为数值特征[^2]。 ```python from sklearn.feature_extraction.text import TfidfVectorizer texts = ["这部电影非常好看", "我觉得还可以改进"] vectorizer = TfidfVectorizer() X = vectorizer.fit_transform(texts) print(X.toarray()) ``` #### 模型选择与训练 情感分析任务通常采用分类模型,如逻辑回归、支持向量机(SVM)或深度学习模型(如 LSTM、BERT)。以下是一个简单的逻辑回归示例: ```python from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score # 假设 X 是特征矩阵,y 是标签 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) model = LogisticRegression() model.fit(X_train, y_train) y_pred = model.predict(X_test) print("Accuracy:", accuracy_score(y_test, y_pred)) ``` #### 趋势分析 除了情感分类,还可以通过时间序列分析探索影评的情感趋势。例如,按时间维度统计正面和负面评论的比例变化,绘制折线图展示情感波动。 ```python import matplotlib.pyplot as plt import pandas as pd # 假设 df 是包含影评时间和情感标签的数据框 df['date'] = pd.to_datetime(df['date']) df.set_index('date', inplace=True) positive_counts = df[df['sentiment'] == 'positive'].resample('D').size() negative_counts = df[df['sentiment'] == 'negative'].resample('D').size() plt.plot(positive_counts, label='Positive') plt.plot(negative_counts, label='Negative') plt.legend() plt.show() ```
评论 5
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值