庄周周周周-优快云博客

原创深度学习模型bert中文多分类准备工作

1、得到语料之后，初步决定使用bert模型来完成文本分类。有Google和哈工大两种，Google是字粒度，哈工大是词粒度，哈工大的好像没有开源代码https://github.com/ymcui/Chinese-BERT-wwmhttps://github.com/ymcui/Chinese-BERT-wwmGitHub - renxingkai/BERT_Chinese_Classification: 本实验，是用BERT进行中文情感分类，记录了详细操作及完整程序https://github.com

2022-01-11 19:13:19 1096

原创数据预处理（中文论文PDF）

思路：1、PDF转txt，Python库包pdfminer，效果挺差的，很多字母都识别不出来；2、PDF2TXT软件，效果没那么差，字母在，但是格式很不好处理；3、PDF2doc，网站好用，转出来的doc格式几乎一致，不过感觉人工转有些费劲，Python库包PDF2docx效果不大好，会乱；4、试着解析doc，若效果好则再进行后续...

2022-01-04 11:08:08 1326

原创配置代理池

GitHub - jhao104/proxy_pool: Python爬虫代理IP池(proxy pool)https://github.com/jhao104/proxy_pool要安装redis(19条消息) GitHub上关于ProxyPool的安装【胎教级教学】_FLIF的博客-优快云博客_proxy_poolhttps://blog.youkuaiyun.com/weixin_48584917/article/details/121710521然后安装docker...

2021-12-24 13:53:47 781

原创深度学习链接

(19条消息) 数据挖掘数据集汇总_机器之我心的博客-优快云博客_数据挖掘数据集https://blog.youkuaiyun.com/weixin_42039090/article/details/80612650(19条消息) Python报错pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool解决方法_给我一点温度-优快云博客https://blog.youkuaiyun.com/sinat_26811377/article/detail

2021-12-22 20:25:14 138

原创幸福感做题

1、42个变量，感觉需要删掉一些1.1查看采访时间to_datetime、日期.date、年份.month1.2 绘制计数柱状图，seaborn系列的countplot（）data = pd.concat([y, x], axis=1).sample(500)sns.countplot(x='survey_type', hue='happiness',data=data)1.3绘制百分比柱状图import plotly.graph_objs as gos=data[data['sur

2021-12-06 20:24:31 175

原创 2021-05-16各类关键词抽取

各类关键词抽取：tf-idf、textrank4zh（英文）RAKE（中文）import codecsimport osimport jieba.analyseimport numpy as npimport pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizer#要提取关键词的文本所在文件夹base_path = "D:\小周\论文\知乎数据\tfidf-article\\base"#分词后的文本

2021-12-02 14:33:55 225

ztttttz的博客

原创深度学习模型bert中文多分类准备工作

原创数据预处理（中文论文PDF）

原创配置代理池

原创深度学习链接

原创幸福感做题

原创 2021-05-16各类关键词抽取

空空如也

空空如也

原创 深度学习模型bert中文多分类准备工作

原创 数据预处理（中文论文PDF）

原创 配置代理池

原创 深度学习链接

原创 幸福感做题

原创 2021-05-16各类关键词抽取

空空如也

空空如也

原创深度学习模型bert中文多分类准备工作

原创数据预处理（中文论文PDF）

原创配置代理池

原创深度学习链接

原创幸福感做题