复杂注释过程的结果是一个精心挑选的数据库,其质量使这一数字资源成为进一步研究的抢手的起点:该数据库可用于:1. 评估自动标记程序的性能,[18] 2. 以基于规则的方式提高自动标记程序的性能,[19] 3. 生成的机器可读的词形和词形列表可为 OCR 过程的进一步开发做出贡献。[20]
此外,手动检查的数据可以作为各种(语言)问题的可靠基础。它们的价值在于可以重复使用先前获得的、经过仔细验证的有关文本的知识,这意味着项目组本身以及未来的用户都可以以节省时间、方便和有利可图的方式使用注释来满足他们的认知兴趣。
4.“适合每个人”:ABaC:us版本 中的数据表示
自 2015 年 5 月 5 日起,作为奥地利巴洛克语料库的一部分,带有解释性文本的丰富数据已 在 CC BY-NC 4.0 许可下在https://acdh.oeaw.ac.at/abacus/上免费在线试用,可供更广泛的用户使用,无需注册。只要完整引用来源,ABaC:us 即可用作个人非商业研究目的的资源,建议采用以下引用样式:ABaC:us – 奥地利巴洛克语料库 2015。由 Claudia Resch 和 Ulrike Czeitschner 编辑。 <http://acdh.oeaw.ac.at/abacus/> 于 [最后访问日期] 访问。
用于访问 Abraham a Sancta Clara 作品的网络应用程序基于模块化出版框架corpus_shell,是与 ACDH 的 Matej Ďurčo 和 Daniel Schopper 合作开发的,目的是使图书馆收藏的巴洛克时期古代版画能够用于科学问题。还有很多其他方法可以对数据进行编码和可视化。项目团队之所以选择这个用户界面,是因为它适合——按照亚伯拉罕书的标题——通过解决不同的问题以及启用和支持多种使用场景来提供“适合每个人的东西”(1699)。图 5 一目了然地展示了 ABaC:us 版本的当前外观和功能。
图 5:数字 ABaC:us 版本 © ACDH 的屏幕截图。
图 5:数字ABaC:us版本 © ACDH 的屏幕截图。
项目组能够考虑到现有的关于数据的问题,但无法预测未来的问题,因为:“一个版本会提出的问题存在于未来,无法通过经验确定。” [21]但与此同时,人们也多次表达过这样的愿望:“如果可能的话,版本应该适用于所有学科,应该同时满足所有可能的目的。” [22]哈维也支持这一说法:“一个合适的版本应该适用于所有学科,以及其他许多学科。” [23]那么,一个版本如何才能对应人文学科中正在发展的不同(可能正在变化的)问题呢?
由于语言学感兴趣的问题与文学研究或其他基于文本的科学(神学、艺术史)不同,编辑们主要关心的是尽可能真实地描述原始文献,接近来源并忠于原文:可靠地再现文本和保存历史语言水平是实现这一点的必要先决条件。在数字媒体中,可以轻松地建立编辑后的全文与原始印刷品的数字副本的逐页链接,并且首先支持从考虑来源开始的 那些分析和解释形式[24] 。
阅读和在文本中搜索。自适应布局支持这两种使用情况,它可以根据可用的屏幕尺寸自动排列内容,也可以通过选择一列、两列或三列来确定。一方面,它为读者提供了数字阅读视图的便利,另一方面,它为搜索者提供了可以直接访问文本中特定位置的导航工具。当读者从概览中选择一部作品、一章或一页,以便在概要视图 阿根廷电报数据 中查看带有数字印刷模板的电子阅读文本,并使用分页功能浏览文本时,搜索者可以通过各种寄存器到达搜索结果:例如,通过按字母顺序排序和分页的词条和词形寄存器,或通过词性寄存器,除了显示 STTS 中包含的类别外,它还显示先前描述的组合形式(图 6)。
图 6:左:语域,特别是带有 STTS 和附加部分的词性语域© ACDH。右侧:带有附着词和属性的动词类别的结果列表。 © ACDH。
图 6 :左:索引,特别是带有STTS和补充的词类索引© ACDH。右图:带有修饰词的动词类别的结果列表及示例。 © ACDH。
每个寄存器条目都提供频率信息;当您点击某个条目时,搜索栏中会自动生成一个查询,并显示所需的结果。访问文本的第二种方式是使用搜索栏自由搜索。一方面,它允许对单个单词、短语或词组进行全文搜索;另一方面,它允许进行索引搜索,可以专门搜索词形、词根、词性、词根和词组合、词类、人名或地名。当您开始输入时,系统会自动建议一个可能的查询列表。此列表提供了频率信息并进行了分类,也就是说,它还清楚地表明它是人名、词条还是词形(图 7)。
图 7:左图:以 Mars 开头的查询建议列表© ACDH。右图:以金星开头的查询建议列表。 © ACDH。
图 7:左图:以 »Mars« 开头的查询建议列表© ACDH。右图:以»Venus«开头的查询建议列表。 © ACDH。
搜索结果按作品标题和频率信息按时间顺序列出。通过点击其中一个作品,可以根据需要进一步过滤结果。在概览下方,各个结果按其在文本中出现的时间顺序显示在所谓的上下文关键字视图中。搜索的关键字以粗体突出显示,并在其各自的文本环境中居中显示,以便初始上下文变得明显。每篇参考文献的来源均用著作的简称和上方的页码标明;如果您单击此红色标记线,指定的文本页面也会在概要全文和传真视图中打开,其中搜索的词在其较大的页面上下文中以灰色显示(见图 8)。