计算扎根:定量研究的理论生产方法.docx
《计算扎根:定量研究的理论生产方法.docx》由会员分享,可在线阅读,更多相关《计算扎根:定量研究的理论生产方法.docx(9页珍藏版)》请在课桌文档上搜索。
1、计算扎根:定量研究的理论生产方法引言依托于客观数据和模型的社会学定量研究对长期根植于逻辑思辨和历史情境的社会学传统研究方法形成了极为重要的补充,伴随着大型社会调查的开展和数据模型的普及,已成为社会学研究的重要范式。定量研究原本只是对数字数据进行分析研究的统称,但伴随着范式的固化,特别是定性和定量研究的二元分立,学术界逐渐将量化研究自我限定在以演绎法为逻辑、以理论验证为目的、以统计推论为手段的单一面向,不觉中忽视了数据和模型对于直接启发理论的价值、归纳逻辑对于定量研究的应用可能性。有没有一种新的逻辑路径和模型,能让定量学者不仅能进行“后置”的科学检验,也能利用数据资料直接助产理论假说?随着大规模
2、社会调查数据的日益丰富和机器学习等方法在社会学中的应用,我们已经发现了这种可能。在本文里,我们将提出一种基于大量数据和机器学习模型的量化理论生产方法:对于既定的Y和大量的解释变量X,通过监督学习方法对一系列X对于Y的预测能力进行量化分析。利用因果关系和可预测性之间的逻辑关联,我们可以对具有强大预测力的诸多X进行挖掘和筛选,从而直接助产理论假说,为Y寻找到潜在的具有理论价值的新X,进而帮助社会学家生成、发展和修正理论。这一方法虽然是典型的计算社会科学方法,但其逻辑起点和扎根理论的核心原则有异曲同工之妙:打破理论的先入为主,在不做任何理论假说前提的条件下扎根于数据本身,从而打破“演绎一验证”的逻辑
3、,打通经验研究到理论研究的生成路径。因此,我们将其命名为“计算扎根二证伪的限度:传统定量研究的理论生产瓶颈近四十年来,定量社会学研究的基本模式是基于调查问卷数据,采用多元模型回归的方法,对解释变量是否和被解释变量存在关联或因果进行统计推断。彭玉生曾形象地把定量研究比作“洋八股文”,也即国内外主流社会科学刊物,都采用了比较标准化的“模板式”格式,按照问题、文献、假设、测量、数据、方法、分析、结论八个部分各司其职,环环相扣。尽管相关的环节可以合并或细化,但其基本思路就是对所提出的零假说进行证伪。但检验理论并非科学研究的全部工作。华莱士在社会学中的科学逻辑中提出“科学环”概念,指出社会学研究是包括理
4、论建构和理论检验的循环往复、螺旋上升、永无止境的过程。很明显,假设检验的定量范式都集中在科学环的右半部分。从理论建构到理论检验本是一项科学研究的完整路径,但伴随着定量和定性的分野,理论建构似乎成了定性研究的专属使命,而定量研究日益将理论验证奉为圭臬。这导致了定量研究在科学发现之旅中的后置化甚至缺席:量化研究使得现有理论更为精致化了,但却很少产生新的理论建构。不得不承认,量化学者在实际的研究过程中都曾经得到过数据本身带来的启发,只不过很多研究者在从数据中得到新发现后并不会按照真实的研究过程来表述自己的研究,而是通过文献梳理的方式把自己的发现“装扮”成已有的理论假设,然后再按照假设检验的逻辑来证明
5、它。实际上,正如默顿所说,经验研究远远超出检验理论的被动功能,它不仅仅是证实或反驳假设,在塑造理论的发展上至少执行着四个功能:创立、修订、转变和澄清理论。计算扎根:用机器学习助产理论计算扎根的思路是打通从数据到理论的“逆向”路径,借助机器学习的预测能力和可解释的归因算法,基于因果是可预测性的充分不必要条件这一规律,实现用数据来直接生成关于既定因变量的机制理论。计算扎根的基本步骤可以由以下六个环节组成:第一步,制定研究问题。根据社会调查问卷数据指标,结合研究兴趣和需要来确定研究对象Yo第二步,准备高维数据。社会调查数据往往是高维的,变量有上百个甚至更多。这些大量的指标,每一个都可能是潜在的Y的因
6、,也即蕴含了扎根结果的可能性。第三步,开展社会预测。使用监督学习的方法训练Y的预测模型。只要能达到相对较好的预测效果,不必拘泥于算法是否复杂以及是否可解释。第四步,比较预测能力。依赖机器学习模型的可解释性算法,对预测生成的黑盒模型进行归因分析,根据X对Y的预测力排序寻找可能的因。其基本思路是:打乱某些特征X是否影响模型预测的准确率,改变特征将如何影响预测结果。第五步,寻找潜在理论。根据一组按照预测力排序的X,寻找以往研究未曾涉及的社会关联。可以依据潜在关系模式将它们与既有研究比照,验证或澄清理论;亦可以对相似的解释项进行归类,抽象出概念或归纳理论命题。第六步,补充交叉验证。验证计算扎根结果的稳
7、健性和理论假说的适用性。尝试使用不同数据、其他机器学习和归因算法对同一个因变量进行计算扎根,也可以对生成理论推导出的其他假说进行再检验,相互验证完成科学环闭环。计算扎根的逻辑基础作为理论生产方法的计算扎根理论,有着清晰的逻辑基础。对于计算扎根理论而言,其逻辑前提主要是两个方面:1.扎根理论的归纳逻辑。扎根理论主张以逐级归纳的方法从经验材料中直接创造出理论,再将其与现有理论和研究相比照。避免在研究开始前就有先入为主的观念或猜想是确保“扎根”有效的重要原则。值得一提的是,创立者格拉泽强调扎根理论是一种普适的方法论,既适用于质性资料,也适用于定量数据,两者对理论的产生和验证都是有帮助的。但随着扎根理
8、论的实际发展,人们发现它似乎还是更适合做质性研究。其原因不难理解:质性资料的深度和可解读性往往更有利于运用社会学想象力直接提出理论假说,而定量数据作为一种数值指标具有高度简化的抽象特征,其内在的数理统计关联难以通过直观的方式加以发现。2.因果关系的可预测逻辑。社会现象之间的可预测性和因果机制是两个不同但又高度关联的范畴。计算扎根方法的逻辑基础之一就是充分地运用预测和因果之间的重要关系,也即因果是预测的充分而非必要条件。这意味着,如果一个X可以很好地预测Y,那么X的确可能构成Y的原因。虽然这一关系只是可能而非必然,但其构成因果的概率总比不具备预测性的关联要高得多。在社会学家逐渐把学科旨趣压缩到两
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算 扎根 定量 研究 理论 生产 方法
链接地址:https://www.desk33.com/p-1307516.html