10、基于模型的披露保护方法解析

基于模型的披露保护方法解析

1. 数据识别风险与变量分类

在处理企业数据时,某些信息可能会带来极高的风险,因为它们能为识别大型且特征明显的企业提供线索。一般认为,企业数据越偏离整体,其被识别的风险就越高。在评估保护方法的效果时,异常值是重要的参考依据。不过,目前这种基于异常值的评估方法存在一定局限性,它更偏向于定性分析,实际上可以采用基于记录链接的定量披露度量方法。

数据中的变量可分为两类。第一类变量包含企业的识别信息,如经济活动、地理区域、员工数量、营业额、出口额以及研发创新总支出等。这些变量可能使企业被轻易识别,因此需要采取保护措施。第二类变量则包含与创新相关的一系列机密信息,由于其性质,通常不会导致企业被识别。

2. 保护模型概述

2.1 基本思路

保护模型的核心思想是通过降低所有识别变量的信息含量,使企业识别变得困难。对于CIS数据中的识别变量,采取了不同的处理方式:
- 经济活动和地理区域 :对于主要经济活动,按照NACE rev. 1分类的前两位数字进行聚合;对于地理区域,基于主成分分析划分出两个更宽泛的类别。
- 定量变量 :对于员工数量、营业额、出口额和研发创新总支出等定量变量,为每个变量构建回归模型,并发布拟合值。为了进一步保护极端值,即异常企业,会将部分企业的数据向中心收缩。

2.2 具体操作步骤

  1. 在数据矩阵X中加入单位向量1,以允许回归中存在截距。
  2. 对于要保护的变量Xl(l ∈K′ ⊆K),将Xl对XK\l进行回归,并发布修正后的值:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值