- 博客(6)
- 收藏
- 关注
原创 深度学习模型bert中文多分类准备工作
1、得到语料之后,初步决定使用bert模型来完成文本分类。有Google和哈工大两种,Google是字粒度,哈工大是词粒度,哈工大的好像没有开源代码https://github.com/ymcui/Chinese-BERT-wwmhttps://github.com/ymcui/Chinese-BERT-wwmGitHub - renxingkai/BERT_Chinese_Classification: 本实验,是用BERT进行中文情感分类,记录了详细操作及完整程序https://github.com
2022-01-11 19:13:19
1050
原创 数据预处理(中文论文PDF)
思路:1、PDF转txt,Python库包pdfminer,效果挺差的,很多字母都识别不出来;2、PDF2TXT软件,效果没那么差,字母在,但是格式很不好处理;3、PDF2doc,网站好用,转出来的doc格式几乎一致,不过感觉人工转有些费劲,Python库包PDF2docx效果不大好,会乱;4、试着解析doc,若效果好则再进行后续...
2022-01-04 11:08:08
1153
原创 配置代理池
GitHub - jhao104/proxy_pool: Python爬虫代理IP池(proxy pool)https://github.com/jhao104/proxy_pool要安装redis(19条消息) GitHub上关于ProxyPool的安装【胎教级教学】_FLIF的博客-优快云博客_proxy_poolhttps://blog.youkuaiyun.com/weixin_48584917/article/details/121710521然后安装docker...
2021-12-24 13:53:47
751
原创 深度学习链接
(19条消息) 数据挖掘数据集汇总_机器之我心的博客-优快云博客_数据挖掘数据集https://blog.youkuaiyun.com/weixin_42039090/article/details/80612650(19条消息) Python报错pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool解决方法_给我一点温度-优快云博客https://blog.youkuaiyun.com/sinat_26811377/article/detail
2021-12-22 20:25:14
117
原创 幸福感做题
1、42个变量,感觉需要删掉一些1.1查看采访时间to_datetime、日期.date、年份.month1.2 绘制计数柱状图,seaborn系列的countplot()data = pd.concat([y, x], axis=1).sample(500)sns.countplot(x='survey_type', hue='happiness',data=data)1.3绘制百分比柱状图import plotly.graph_objs as gos=data[data['sur
2021-12-06 20:24:31
153
原创 2021-05-16各类关键词抽取
各类关键词抽取:tf-idf、textrank4zh(英文)RAKE(中文)import codecsimport osimport jieba.analyseimport numpy as npimport pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizer#要提取关键词的文本所在文件夹base_path = "D:\小周\论文\知乎数据\tfidf-article\\base"#分词后的文本
2021-12-02 14:33:55
192
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人