专注【中高档】餐饮家具定制
当前位置: 主页 > 企业动态
GPT时代如何研究社会科学? 研究
来源: 网络 / 发布时间:2024-11-28 05:56:42 / 浏览次数:

  

GPT时代如何研究社会科学? 研究

  倾向性评分匹配法(PSM)是最常用的匹配方法,研究表明不论是在真实数据中还是为满足PSM理论要求生成的数据中■◆★■◆,PSM方法都在某一点上增加了不平衡、低效率★■★◆、模型依赖性、研究的随意性和统计偏差。事实上,数据越平衡,或者通过匹配剔除一些数据使之变得越平衡,PSM就越可能降低推断的准确性——我们称之为PSM悖论◆■★。我们将PSM悖论归因于倾向性得分处理匹配的特殊方式。因此我们的结论并不一定牵涉到倾向性得分的许多其他有效用途◆★■。

  识别(identification)是在理论假定基础上将实证信息与研究对象进行 独一无二的映射◆★★■,是社会科学实证研究的基本任务和核心工作。社会科学正经历着两大变革,即数据革命(the Data Revolution)和识别革命 (the Identification Revolution)。在数据革命似乎变一切 “不可能”为 ■★■★■“可能”时,识别革命却怀疑这些“可能性”的信度(credibility)★◆■◆,诘问研究 “变为可能”的代价★■★◆■★,强调理论假定的清晰度(cleanness)和透明度(transparency),要求建立严格信度标准下的◆★★★■★“设计驱动型”实证研究范式。在识别革命尚待推进的一些领域,大数据带来机遇的同时也伴随着研究缺乏信度◆■★★、理论与实证脱节、过度量化等问题的凸显。强化识别意识和 识别策略设计★■◆◆■,提高实证研究的信度、连接理论和实证并恰当适度地使用数据及技术■◆★■■★,对于大数据时代的社会科学发展具有迫切而深远的意义。

  当PSM完成近似完全随机化后★★★■,其他匹配方法在减少X的不平衡上会比PSM更有效★■◆。同样在PSM达到这一点后,继续随意剪枝会造成损害,增加不平衡性、模型依赖性和偏差■★★■★。这被称为PSM悖论◆★◆★。

  匹配是一种日益流行的预处理数据方法,来改进观测数据的因果推断。匹配是为了减少处理组和对照组之间预处理干扰因子的经验分布的不平衡。降低不平衡可以减少因果推断统计估计中模型依赖的程度以及由此带来的限制,从而减少低效和偏差。这个过程就像是在寻找一个数据集,该数据集可能来自于随机试验■◆,但是隐藏在观测数据中。当匹配能够揭示这个隐藏的实验时,许多观测数据的分析问题都会得到解决。

  我们通过几种方法证明,PSM如何以低于必要的标准来近似实验设计,从而未能利用所有可用信息,并产生更高程度的不平衡◆★★、模型依赖性和偏差。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问■◆★◆■。

  在实际应用中★★■■◆,PSM悖论是普遍存在的◆■★■★。对于经常使用PSM的研究者,我们认为■■,首先使用任何匹配方法的研究者都需要对变量进行明确标度以表示其重要性,因为重要性会与不平衡相互结合影响偏差◆★◆◆★■。其次◆◆★◆★,使用PSM方法的研究者应该提供应用PSM之后模型中还存在多少不平衡的信息,并且说明没有因为PSM悖论而使不平衡问题变得更糟■◆■◆。第三◆◆■★■◆,研究者应该意识到★★,PSM在最不可能进行有效因果推断的数据(即不平衡程度较高)和匹配后的样本量非常大时应用效果较好,而在非常适合因果推断的数据(即不平衡程度较低)中PSM的损害可能最大。最后★◆,研究者应当了解PSM方法与其他方法结合会发生什么,并适当使用★★。

  作为观察研究中最常用的匹配方法和发展最多的、最流行的因果分析策略,PSM具有其自身的优势★■■★★◆,但其方法也存在不少争议。本文从理论以及应用的角度论述PSM如何在匹配的过程中增加了数据的不平衡从而使结果发生偏差,值得我们对PSM方法进一步反思。

  对应用研究者来说,匹配的目标是创造出一个情境★■,在这个情境中处理效应可以被估计而不需要夸张的参数假设。这里的“情境”指的是通过匹配方法选择的数据子集,该匹配方法的假设是站得住脚的,也能够大大降低模型的依赖性。

  我们首先给出因果推断中模型依赖性的定义★■◆■◆,并指出次优的匹配会导致不必要的不平衡进而产生模型依赖性、研究随意性和统计偏差★■◆■◆。其次证明成功的匹配方法如何减少模型依赖性。然后,我们证明PSM忽略了观测研究中一个重要的信息来源,因为它近似的是完全随机实验而不是更有效的完全区组实验。接着我们用三种方法阐述PSM悖论◆■,最后给出使用建议和指导。