语料库
语料库是指通过科学取样和加工而形成的大规模电子文本库,其内容来源于实际使用的语言材料。语料库作为基础资源,可用于语言理论及应用研究,包括词典编纂、语言教学、传统语言研究等领域。语料库的发展经历了多个阶段,其中第三代语料库是一种动态流通的语料库,它不仅记录了语言的历史演变,还反映了当前语言的使用情况。
基本概念
名称由来
语料库(corpus,复数corpora)一词源于拉丁语,指的是大规模的电子文本集合,这些文本经过科学取样和加工,可供研究人员利用计算机工具进行语言研究。
库内资料
语料库包含的真实语言材料,是语言使用者在实际生活中所使用的。这些材料经过加工处理后,成为了有用的语言资源。语料库不仅是语料库语言学研究的重要基础,也是经验主义语言研究方法的主要资源之一。
类型划分
语料库的种类多样,主要依据其研究目的和用途进行区分,这一点往往能够在语料采集的原则和方式上有所体现。常见的分类包括异质语料库、同质语料库、系统语料库和专用语料库。此外,还可按语种分为单语语料库、双语语料库和多语语料库,以及按采集单位分为语篇、语句和短语语料库。双语和多语语料库还可细分为平行语料库和比较语料库。
主要特征
语料库具备三个显著特征:其一,语料库收录的是真实的语言材料;其二,它是承载语言知识的基础资源而非语言知识本身;其三,真实语料需要经过加工处理才能成为有效的资源。
发展历程
语料库的发展经历了早期、第一代、第二代至第三代的过程。第三代语料库被称为动态流通语料库,它是一种历时性的语料库,通过对语言文字的使用进行动态追踪,实现对语言发展变化的监测。
动态流通语料库
定义
动态流通语料库是第三代语料库的一种,它基于大规模真实文本,对语言的文字使用情况进行动态追踪,旨在监测语言的发展变化。
特色
这种语料库有两个突出特点:一是语料的动态性,即语料库不断更新扩充;二是语料的流通性,即语料库新增了一个量化属性——流通度。
特点
动态流通语料库的特点在于其动态性和流通性。它们不受固定库容量、时间跨度、文本选择范围或抽样对象的限制,而是根据大众媒体的传播情况动态抽取语料。同时,它们也能够反映语言成分的产生、成长和消亡过程。
双语或多语语料库
双语或多语语料库可分为平行语料库和对照语料库。前者中的文本互为译文,适用于翻译或机器翻译研究;后者则不构成对译关系,主要用于语言对比研究。在中国,对于双语语料库的应用研究较为普遍,但对于其设计、采集、编码和管理方面的研究尚待深入。目前,国内最大的语料交换平台是Tmxmall语料商城。
研究机构
语料库研究在全球范围内受到重视,多家研究机构致力于相关领域的研究,其中包括中国的上海外国语大学语料库研究院和日本的国立国语研究所等。
参考资料
科研方法 | 超实用!37个国内常用语料库集锦,建议收藏.个人图书馆.2024-08-15
三分钟科普|语料库初探(一).翻译学习共同体.2024-08-15
人工智能语料库技术是什么?来看科普!.百家号.2024-08-15