#faker酱-优快云博客

原创爬虫报错记录

安装nodejs并配置环境变量（比较麻烦，网上很多教程都不对，建议直接闲鱼，几块钱直接解决，时间更有价值）2.ProgramError:SyntaxError:缺少')解决方法：更换cookie。原因：账号访问太频繁。

2024-09-02 18:52:32 713

原创多个excel合并

目的：将同一个文件下的多个 “京东差评.xlsx” 合并为一个：“京东汇总.xlsx"

2023-10-04 13:02:55 506

原创 python爬虫

有问题的可以评论区留言~ 希望能帮助到有需要的人~主要利用requests来实现的。只要找到对应的url即可，

2022-10-04 23:41:02 397

原创线性回归的多种实现方式

在统计学中，回归分析（regressionanalysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少，分为一元回归和多元回归分析；按照因变量的多少，可分为简单回归分析和多重回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。今天分享的是最基本的一元线性回归，也相当于记录自己暑期访学项目的笔记~......

2022-07-25 22:49:13 1420

1.中介效应即迂回地影响、间接地影响。case1:一个中介的简单模型在estimates-indirect effect查看结果：（1）估计值（2）信赖区间与显著性判断方法是lower和upper是否跨过了0，如果跨过了就是不显著，比如上图为显著，P值为0.03case2:两个中介总中介效应=中介1+中介2；一般也是通过各单个中介在总中介效应中的占比来评估其强度结果：这里值得注意的是amos只能检验单个中介效应，和case1的方法一致，检测...

2022-05-12 17:17:44 19118 16

原创去除值为0的行

在文本细粒度分析时，往往一句话中提及的实体并不相同，一旦指标多了以后，就会存在很多0行，如果不加以处理则会影响分析结果，因此尽量地保留信息量较多的短文本。情形一：即每个指标都不能为0，即任何一个为0都不行（类似于and，要求较高）这种情形一般适用于对因变量的处理，比如满意度、忠诚度为0的较多，那么被解释变量就没有信息量了。y_data=y_data[(y_data!=0).all(axis=1)]情形二：去除全部为0的行，保留不全为零的行（类似于or，要求较宽）all_data=y[

2022-04-25 22:13:15 3520

原创变量的离散化——自然断点法

在数据的离散化中有很多方法，如聚类分析、均值划分等等。自然断点法也是一种常用方法，在空间计量中可能都是现成的软体如Arcgis、geoda等点一下就出来了，但对于一般数据的划分应该怎么办呢？今天基于python的jenkspy库记录一下~step1:自然断点import pandas as pdimport jenkspyimport numpy as npdf = pd.read_excel('amos数据.xlsx')ret={}for col_name in df......

2022-04-24 16:44:43 8993 11

原创基于词典的细粒度情感分析

1 细粒度情感分析传统的情感分析大多是针对句子级的，即某条评论或某句话为积极或消极的概率。而往往一句话中包含着多个描述点，即方面级的述评，这时用一个模糊的概率或数字去评价整段文字或整句话势必是不准确和不公允的。如“我的男朋友性格很好，很专一，但有一些社恐”、“酒店很不错，视野一绝，早餐很棒，但就有一些贵”等。基于此，需要对文本内容进行细粒度的情感分析，以达到更好的分析效果。目前，能够实现细粒度情感分析的途径大致有以下几种：...

2022-04-16 22:44:11 2959 8

原创遍历筛选核心关键词与文档

在文本处理的过程中，有时我们并不是需要所有的数据，而实需要包含某些关键词的文本，因此可以通过for循环进行遍历筛选。具体流程：读取数据 — 分词 — 遍历筛选 — 拼接还原step1:导入所需要的包和数据集import pandas as pdimport jieba#数据分割data = pd.read_excel('不止武汉.xlsx')['内容']#读取需要筛选的内容列other = pd.read_excel('不止武汉.xlsx').iloc[:,1]#读取其他列keys=

2022-04-06 11:03:11 1804

原创 python合并多个txt文件

如题：将文件夹c_b下的多个txt文件合并为1个：代码如下：import osfilepath=r'c:\Users\64884\Desktop\combine\c_b'filenames=[file for file in os.walk(filepath)]ds=[]lis=[]for each in filenames[0][-1]: with open(filenames[0][0]+'\\'+each,mode='r',encoding='utf-8') as.

2022-03-16 22:05:47 2951 2

原创分类变量编码python处理

当变量为分类变量，又可称定性变量时，文字时无法进行数学运算的，需要将其转化。分类变量可以分为有序分类与无序分类，如奖学金的等级、疫情的风险区等属于有序分类，而省份、国家、地区等是没有优劣之分的，属于无序变量。此外，分类变量还可以分为为二分类与多分类，如性别、是否为“XX”等为二分类，可以直接转化为0-1变量，其余即为多分类。在处理上，二分类可以转化为0-1变量或虚拟变量直接用于数学运算，而多分类变量如果是等距有序的同样可以直接运算，若是无序的或非等距的...

2022-03-16 15:32:47 3974

原创解决“excel复制到txt行数增多问题”

1 问题描述很多时候我们从一个excel中赋值内容到txt中时行数会无缘无故的增多，如图xlsx文件中共14823行，按理复制到txt里行数应该保持不变才对。但事实却是无故地增加了数行：2 原因及对应解决2.1 excel单元格被隐藏解决方式为让隐藏的单元格显示出来即可，可以参考以下链接：隐藏起来的单元格如何全部再显示出来_百度知道https://zhidao.baidu.com/question/383637798.html2.2 每行中存在空格当第...

2022-03-16 15:09:56 2790

原创对指定关键词进行词频统计

过往的词频统计都是针对整个文档进行的，而如果研究中需要知道单条评论或某个研究单元内某些词的词频，那么就需要进行额外的处理。原理非常的简单，就是遍历筛选，具体做法为去除停用词的逆运算。Step1:分词最基本的处理的就不做多余的赘述，直接上码：def seg_word(data): seg_result=[] stop_list = open('哈工大停用词表.txt','r',encoding='utf-8').read() for sentence in data:

2022-03-11 19:23:35 2605

原创去除list of list中的引号与括号

a = [['我要发','SCI'],['然后','去','四川大学'],['读博士']]result=[]for i in a: result.append(' '.join(i))

2022-03-09 13:27:01 1122

原创 pandas 文本分类聚合

在NLP的情感分析过程中，往往是对评论逐条处理分析，但有时也会进行分组分析，如以商家、省份、某个场景为研究单元。这时能最直接的方法就是逐个进行计算，如果场景比较多，那么肯定是不能逐个挨着挨着算的，但由于每个场景他的样本量都是不同的，因此数据集是一个非平衡的，即在10000条数据中，第一个场景的数据是[1,100]，第二个场景的范围是[101,230]....以此类推因此若我们要使用for循环则需要将其进行处理，即以场景数为循环单位。这里可以分为几种处理情况：case1:基于词典的情感分析 ..

2022-03-08 14:30:56 1713

原创 pandas 按日期对数据进行分组归类及其问题

在处理分析数据时经常会进行分组分类，如样本有很多条，每一条样本都是具体到每一天多少时分，但我们可能只想获得每个月的情况，这就需要进行一个归类与分组。演示数据：代码段：import pandas as pddata = pd.read_excel('data.xlsx')#读取数据data['time']=data['时间'].dt.strftime('%y%m')#将数据中的时间列按照“年-月”的格式输出但这样会报错，报错提示为：AttributeError: Can onl

2022-03-08 14:02:20 5407

原创基于TF-IDF与k-means的情感聚类

目前很多情感聚类都是细分到逐词分析，而对于逐句的情感分析可以通过将文本转化为数字矩阵从而采用传统的聚类方法来实现，这里以K均值为例进行演示：import pandas as pd import codecsimport matplotlib.pyplot as pltfrom sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text impor...

2022-03-06 18:32:09 3216 2

原创基于文本挖掘的情人节微信聊天记录情感分析

铁子们，明天就是情人节啦，不知道各位是否已经开学和对象见面了呀哈哈，可惜我还是个没有对象的可怜鬼，但没有不要紧，咱可以假装拥有哈哈，所以今天准备实践一下基于文本挖掘的微信聊天记录分析，为以后做准备嘛不是。。。这里就用和大学本科好基友的聊天记录作为语料库啦。整个分析流程分为以下几个部分：目录1.微信聊天记录获取2.数据清洗2.1 分词、去停、去重2.2 外部词典调用3.数据分析3.1 词频分析与词云展示3.2 LDA主题概率模型及pyLDAvis可视化3....

2022-02-13 14:46:34 4712 13

原创 python 去除文本空行

在读取数据或者进行去除停用词后常常短句会没有剩下，这时就需要去除空行，直接放代码data = open('2022情人节.txt', 'r', encoding='utf-8').readlines()result=[]for line in data: line = line.strip() if len(line)!=0: result.append(line)...

2022-02-12 23:24:09 2340

原创结构方程模型amos软件一些常见的处理问题

首先我也是一个初学者，毕业论文也没有涉及到，只是课程论文中要使用这个方法以及amos，在学习的过程中也遇到了一些问题，现总结一下，也为今后复习留个方便，希望对大家有用。1.about潜变量1.1 潜变量分为内生变量和外生变量。其中内生变量也是需要添加残差的。1.2 外生变量之间需要连接，且要用双向箭头2 about路径系数2.1 各变量的Regression weight需要设置为1，否则运行模型后，无法输出结果，Output按钮是灰色的：2.2 运行的时候发现潜变量之间的路径.

2021-09-20 15:33:40 42003 14

m0_52488320的博客