因此从社会科学角度来

Learn, share, and connect around europe dataset solutions.
Post Reply
Bappy11
Posts: 450
Joined: Sun Dec 22, 2024 9:27 am

因此从社会科学角度来

Post by Bappy11 »

2. 大型文本集和电子身份项目 的内容分析研究
通过广泛的电子文本档案可以越来越广泛、越来越多样化和方便地获取大量数字化文本,这为广义上的社会科学研究提供了许多新的机会。此类文本材料通过网络提供,也使得跨国比较方法成为可能,满足了全球化世界中现代社会科学问题的需求。不断收集的报纸内容、议会辩论、官方文件、法律文本、文学全集、历史档案(仅举几例)以越来越多的语言全面而精心地提供。此外,还有各种各样日益用户友好的文本分析软件[3] ,其中商业产品更适合定性解释性内容分析,虽然仍然相对昂贵,但大多价格合理,还有许多较小的应用程序和综合平台(例如CLARIN、DARIAH)使得广泛的学术用户能够使用计算或语料库语言学方法进行文本分析。

但是,为什么社会科学仍然很少利用现有的计算机或语料库语言学文本分析方法的新可能性呢?为什么定性解释性、小 n 研究设计仍然比那些至少利用计算和语料库语言学方法进行大规模、大 n、长期社会科学研究设计的设计占主导地位?是因为缺乏用户友好性吗?还是糟糕的广告?我们认为,由于存在相当大的障碍,现有的潜力无法得到充分发挥。只有消除这些障碍,提高用户友好度和对数字人文新方法的认识的必要步骤才能取得预期的成功。

根据我们的经验,数字人文学科的跨学科合作经常会因为两个典型的痛点而失败:

由于需要付出极大的努力来创建针对单个研究问题的语料库答案、准备相关材料以及管理来自未来无法标准化的异构来源的大量文本的数据,这常常导致社会科学家在实际应用计算和语料库语言学方法之前就失败。
社会科学家有兴趣通过分析显性的文本内容来重建复杂的意义背景。他们通常会寻找日常语言中很少直接表达的抽象概念。常见的应用程序和基于字典的工具不能很好地适应需求的多样性以及在研究项目之间对复杂科学术语进行新的操作化的需要。
(广告 1):数字文本档案的可用性(尤其是通过 LexisNexis 或 Factiva 获得的报纸文本,以及例如通过 EU-Lex 获得的政治文件和法律文本)导致了社会科学领域文本分析研究项目的繁荣——通常具有跨国比较兴趣。然而,小型语料库通常采用定性方法进行深入分析。语料库和计算语言学方法是罕见的例外,因为它们可以处理大量的案例。迄今为止,很少有社会科学家利用这些机会。[4]他们这样做也是希望生成具有代表性的数据,并能使用与定量社会研究的“硬”数据同样复杂的统计程序进行评估,以便与它们建立联系。[5]

不幸的是,轻松获取大量文本的前景往往被证明是一个陷阱。甚至在分析大量文本之前,社会科学家在创建和准备与其研究问题相关的语料库时就经常面临难以克服的问题。一些档案馆允许快速下载最多 200 篇文本(例如 LexisNexis),其他档案馆则只能逐篇下载。然而,整体加载的文本必须先分解成单独的文本才能进行处理。不同的来源提供不同的文本和字符编码的文本,以不同的方式处理特殊字符,并以不同的方式标记元数据(日期、来源、作者等)。所有这些都使得将文本材料读成统一的格式变得困难,并且需要大量的工作步骤,而这些步骤只能借助大量精确编程的软件脚本才能进行管理。

大型、易于访问的文本档案只能使用相对简单的关键字和布尔关键字组合进行搜索,这导致了大量语义模糊性,从而产生抽样误差[6] ,或者——如果措辞过于具体——导致遗漏部分相关材料。从档案中选取相关文本(抽样)时,也会出现重复的情况[7]。如果要获得有效、可靠的研究结果,就必须消除 这种“白噪声” [ 8 ] 。

这些问题并不是数字化工作转型过程中的“初始问题”,不会随着时间的推移而消失。社会科学研究原创性的一个关键特征是不断开发新的研究来源。即使有一天整个图书馆、报纸档案和法律文件集都以标准化的电子形式提供,它们仍然只代表了潜在相关材料的一部分。然而,目前还没有商业软件包能够以用户友好的方式集成必要的工作步骤来解决上述问题。因此,每个团队都自己编写必要的脚本——这会自动将参与者群体限制为计算机科学家,产生孤立的解决方案,并增加方法论伪影的风险——或者他们屈服于过多的文本。在后一种情况下,社会科学家通常只能阅读大量文本,并可以审查其内容并手动清理。然而,足够小到可以手动清理的语料库也可以进行定性和解释性的评估。根本没有使用计算机和语料库语言学方法。

为了弥补这一根本差距,e-Identity 正在开发一个用于语料库创建、清理和管理的探索工作台,用户可以单独适应各种来源、文本格式和语言(第 3.1和3.2节)。

(广告2):复杂科学术语操作化的困难一方面源于社会科学学科领域的特殊性。这些主题的对象大部分不是可以通过不相关的“客观”观察者的观察来衡量的物质事实。[9]这些学科中最有趣、争论最激烈的研究对象,用法国社会学创始人之一的话来说,就是“社会事实”。[10] “身份”、“价值观”、“国家”、“权力”、“社会正义”等抽象对象是不能触及的。它们并不存在于语言构成的交流和互动实践之外,在这种实践中,人们思考如何共同生活,在话语中争论它、集体解释它,可以说是“社会建构”它,并在这个过程中不断地重新解释它。

另一方面,操作化方面臭名昭著的问题源于理论概念和日常语言之间的差距。社会科学家在各种类型的文本中寻找与他们的科学理论相关的问题的答案。他们不只是想要描述某种事物是如何用语言来交流的,而是通过日常语言中不直接使用的理论术语来观察交流过程 。概念内容本身始​​终是科学争论的主题,因为它取决于对象或主题领域针对指导问题的概念化方式。这导致了社会科学术语的多元化。这些困难的一个典型例子就是对集体身份的分析。许多社会科学家对集体身份感兴趣。历史学家卢茨·尼德哈默 (Lutz Niederhammer) 和其他人抱怨身份概念过度泛滥,[11]但我们不能没有这个术语,[12]它的用意在于捕捉各种事物,包括将社区真正凝聚在一起的因素、社会和文化的粘合剂等。我们从概念上对“集体身份”的理解以及如何在经验上将其付诸实践,本质上取决于我们使用哪种身份概念。目前,理论市场上存在着相当不同甚至互相排斥的身份概念:社会心理学、解释实用主义和后结构主义的身份概念之间存在着天壤之别。研究人员从不同的理论视角来看待截然不同的表达方式:从差异理论方法(如卡尔·施密特、尼克拉斯·卢曼、雅克·德里达和米歇尔·福柯的方法)的角度来看,内群体的话语是通过描述外群体的方式来揭示的(另一种) 并对其进行污名化,将自己与它们进行对比。社会心理学方法会在所调查的文本材料中寻找对自己群体的明显的积极情感表达,如英雄或受害者。解释实用主义方法将从集体成员的角度,寻求问题导向的沟通,以了解总体上什么对各自的集体有益。[13]

从经验上看,这意味着社会科学中最有趣的理论概念被不同的科学家以非常不同的方式操作。在电子身份中,我们试图分析报纸上有关战争和人道主义军事干预的辩论中不同集体身份(例如种族、民族、欧洲、跨大西洋、宗教身份)的共存或对立。在一种理论下被认为表达“民族认同”的语言表达,在另一种理论下可能就不相关,或者可能衡量完全不同的东西。因此,我们对一劳永逸地识别通用语言模式或通过与上下文无关的词典操作技术术语的希望持怀疑态度。我们寻找的不是简单的语言表达(例如德国 = 汉堡、柏林、易北河、康斯坦茨湖、施瓦本等),而是日常语言中很少直接表达的含义。 “德国民族认同”的典型表述更像是迂回曲折的说法(例如“我们的历史责任”、“柏林最终必须……”、 “德国在欧洲”、“联盟义务”),这些说法只在特定的语境中具有所寻求的含义,而每个单独的词在其他语境中可能无法指代其字面含义以外的含义。因为这些抽象的理论概念在人们的日常生活中的对应关系是高度依赖于具体背景的:民族认同在不同国家、不同时期有着非常不同的表现,甚至在同一时间,在不同的政治问题上也有着不同的表现——例如,比较一下在移民融合问题上关于德国认同的讨论和在外交政策问题上关于德国认同的讨论。不同社会阶层的演讲者以非常不同的方式表达他们的集体归属。进一步的文本分析问题源于这样的事实:说话者可以在同一文本中认同为不同群体的成员,或者从密切的认同水平转变为更抽象的认同水平。例如,“我们德国人”经常被认为由于我们的历史而负有特殊的历史责任,因此应该特别努力地“国际社会”将会以这样或那样的方式解决X国的冲突。现代人有“多重身份”[14] : 1945年以后,成为优秀的欧洲人成为德国民族认同的一部分。
是无法标准化的。因此,计算和语料库语 孟加拉国电报数据
言学方法应该为单个研究团队留出空间来实施自己的操作化并尽可能全面地支持它(例如在“学习”应用程序中手动和自动注释的相互作用)。[15]在电子身份中,复杂概念构建器[16]提供了这样一个灵活且交互的工具环境(这方面的一些方面在第 3.3 节中讨论)。

3. 语料库处理的计算语言学方法
本节将使用文档选择、处理和准备理论内容分析过程中的核心子程序来展示如何使用复杂的计算语言学方法和工具进行数据密集型社会科学语料库研究,一方面,为重复的任务提供通用解决方案,另一方面,使该过程能够非常具 体地适应各自研究的理论假设和技术限制。图 1示意性地概述了电子身份项目中文档处理的总体流程。

图 1:文档处理链示意图(来源:自己的插图)。
图 1:文档处理链示意图(来源:自己的插图)。
首先(在图表的顶部),导入原始文本,然后在所谓的探索工作台内进行管理、审查和处理。目的是创建一个适合后续步骤并满足后续分析方法要求的语料库。同时,适当准备的语料库的探索可能性为形成假设或细化初始假设构成重要基础。第 3.1 节详细介绍了数据收集和准备方面[17],第 3.2 节使用一些示例说明了计算语言学准备在语料库处理中产生的可能性。

对于后续的语料标注或编码步骤,需要先将后续分析所依据的理论概念开发并操作化,然后在标注/编码中付诸实施。为了支持这些过程,e-Identity 测试了所谓的复杂概念构建器中包含的方法,这不是本文的主要技术重点——文档准备的计算语言学方面。然而,计算语言学支持注释过程的可能性问题在编码步骤中起着核心作用,这需要与政治学的具体问题进行非常好的协调,并将在第 3.3 节中处理 。

经过注释/编码后,数据可用于不同类型的评估:(i)直接查询,(ii)聚合和可视化以供进一步探索,或(iii)进行统计评估。最后,使用机器学习方法,(iv)可以根据可用的注释训练和评估用于自动分析进一步数据的模型,或者(v)可以在交互循环中从现有构建块生成进一步的分析。后期评估的各个方面对于处理的构思非常重要。
Post Reply