虚拟变量的方法介绍及python实现方式

虚拟变量的定义作用

计量经济学中对虚拟变量给出了定义、作用及使用场景,进一步的深入了解可以系统性学习。

定义:虚拟变量 ( Dummy Variables) ,用以反映无法定量度量的因素,譬如性别对收入的影响,是量化了的质变量,通常取值为0或1。

另外一些名字:又称哑变量、虚设变量、名义变量、属性变量、双值变量、定性变量、二院型变量等

作用:引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实

简单点说,如果有一个数据字段“性别”,里面只有两个元素“男”、“女”,那么转换成为0(男)、1(女)的量化方式,并将每个元素形成一列,便是虚拟变量。譬如:

image

虚拟变量模型

模型定义

image

引入到模型有两种基本方式:

image
image
image

虚拟变量的设置原则

若定性因素有m个相互排斥的类型或属性,只能引入(m-1)个虚拟变量,否则会陷入"虚拟变量陷阱",产生完全共线性。(如果f(x)没有截距项,应引入m个虚拟变量)

一般情况,虚拟变量取“0”值代表比较的基准

虚拟变量在单一方程中,可以作为解释变量,也可以作为被解释变量

image
image
image
image
image

python的几种实现方式

准备工作,载入相关的包,准备数据集

import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder,LabelEncoder
oenc=OneHotEncoder(sparse=False)
lenc=LabelEncoder()
store=pd.DataFrame({'gender':[0.0,11.0,'unknow']})

image

方式1:通过pandas中的get_dummies生成,

dummies = pd.get_dummies(store['gender'], prefix='gender' )
df=pd.concat([store,dummies],axis=1)
print(df)

image


# 通过apply自己构建
df1=store.copy()
for col_feat in df1.gender.unique():
    add_col='gender_{}'.format(col_feat)
    df1[add_col]=df1['gender'].apply(lambda x:1 if x==col_feat else 0)
print(df1)

image

# one-hot 先序列化,然后再做独热编码
arr=np.array(store[['gender']].astype(str)).ravel()
lenc_code=lenc.fit_transform(arr)
oenc_code=oenc.fit_transform(lenc_code.reshape(-1,1))
add_col=list(map(lambda x:'gender_{}'.format(x),np.unique(arr)))
df_onehot=pd.concat([store,pd.DataFrame(oenc_code,columns=add_col)],axis=1)
print(df_onehot)

image

参考《计量经济学:虚拟变量模型》

### Python虚拟变量的理解 在提及“虚拟变量”的概念时,在编程领域尤其是Python中并没有直接定义名为“虚拟变量”的特定术语。然而,如果考虑上下文中提到的`pyenv`和`virtualenv`工具[^1],可以推测询问者可能是指与虚拟环境有关的内容或者是对于某些编程模式下模拟出来的具有临时性质或作用域限定的变量。 #### 虚拟环境中管理包依赖关系 当谈论到类似于“虚拟变量”,更贴近的是通过创建独立的工作空间来隔离不同目之间的依赖。这可以通过使用 `virtualenv` 实现: ```bash pip install virtualenv virtualenv my_project_env source my_project_env/bin/activate # On Windows use `my_project_env\Scripts\activate` ``` 一旦激活了这个环境,则在这个环境下安装的所有库都将被限制在此环境中而不会影响全局Python设置或其他目的配置。 #### 上下文管理器中的临时状态 另一种可能是指代那些仅存在于某个操作期间有效但在完成后即消失不见的状态——比如文件处理过程中的句柄或是网络连接对象等。这类资源通常会借助于上下文管理协议(`with`语句)自动释放: ```python with open('example.txt', 'r') as file: content = file.read() # 文件在这里已经关闭并且回收相关资源 ``` 上述例子展示了如何利用上下文管理器安全有效地控制外部资源生命周期内的行为变化,从而达到类似“虚拟化”这些资源的效果。 #### 变量的作用范围 还有一种情况涉及到函数内部声明局部变量的情况,它们只在其所属代码块内可见并且随着该区块结束而销毁。这种特性也能够看作是一种形式上的“虚拟”。 ```python def function_example(): temp_var = "I exist only inside this function" print(temp_var) function_example() print(temp_var) # 这里将会抛出 NameError 错误因为temp_var不存在于此处 ``` 尽管这里讨论了几种不同的场景,但严格来说,“虚拟变量”并不是标准Python语法的一部分;相反,它更多地反映了开发者为了实现某种逻辑抽象所采取的设计思路和技术手段。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

郑小柒是西索啊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值