- 博客(3)
- 收藏
- 关注
原创 文章数据分析与自动分类
一、相关说明 文章难免有不足的地方,欢迎讨论和斧正,文章可以对文本类数据分析有所启发; 文章数据获取参见我的另一篇文章,https://blog.youkuaiyun.com/weixin_51749229/article/details/115558292 数据可以自己替换或者去相关网站查找; 预测分类处理思路:由于sklearn 学习的时候需要的是数值型的数据,而文本是类别型的,所以需要将文本向量化,然后找出合适的特征来拟合,最后利用特征结合逻辑回归算法求出模型,就可以利用训练好的模型预测未知文章的分类了。 由于
2021-04-12 12:00:28
853
原创 技校新闻爬虫
食用方法 代码直接从正文部分开始,想看实现的可以直接跳到后面,前面是思路测试部分; 抓取网站主页http://www.gdnjsxy.com/; 本文章仅供学习和教学使用,请误滥用技术,滥用导致的其他法律问题本人概不负责; 文章使用了python的bs4、requests、re、pandas库,请自行安装和准备运行环境; 本文实现了新闻文章标题、日期、文章内容的批量抓取和新闻分类标签的获取,为后一步的新闻分析提供数据,网站的其他信息可以举一反三; 如有不足欢迎讨论和斧正。 抓取思路分析 找出需要抓取新闻
2021-04-09 20:22:38
294
4
原创 python连接Mysql共享汽车行业案例分析
学习记录——共享汽车分析 前言 本文仅记录个人学习过程写的代码供自己复盘使用,如果对你有帮助和启发那就更好了, 新人作品,欢迎讨论和斧正,大神轻喷。 纯代码实现,无结论。 一些相似的维度举一反三就行。 需要数据集练习的可以留言 目标 python, mysql, matplotlib 代码练习 常用数据指标的实现 数据导入 python 连接数据库 Mysql #获取数据方法 import pymysql import pandas as pd from matplotlib import py
2021-03-04 23:53:02
1378
14
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人