云创智学:
语料库是自然语言处理的基础资源,是自然语言模型训练的基础。语料库有多种类型,依据语料采集的原则和方式上,可以把语料库分成四类。异质语料库指没有特定的语料收集原则,广泛收集并原样存储各种语料;同质语料库只收集同一类内容的语料;系统语料库指按一定比例收集语料,使语料具有平衡性,能够代表语言事实;专用语料库指只收集某一特定领域或用途的语料。除此之外,按照语料的语种,语料库也可以分成单语、双语和多语。按照语料库是否标注,又可分为生语料库和熟语料库
以下是我国10大知名语料库,中央研究院近代汉语标记语料库;中央研究院汉籍电子文献;国家现代汉语语料库;国家语委现代汉语语料库;树图数据库;语料库语言学在线;北京大学中国语言学研究中心,简称CCL语料库检索系统;北京大学《人民日报》标注语料库;北京语言大学的语料库;清华大学的汉语均衡语料库。