语料库是指存放语言材料的仓库(数据库)。语料库中存放的是在语言的实际使用中真实出现过的语言材料。
corpus n. (pl. corpora)
refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be conducted with the aid of computer tools.
语料库的分类:
按照采集原则划分:
⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;
⑵同质的(Homogeneous):只收集同一类内容的语料;
⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;
⑷专用的(Specialized):只收集用于某一特定用途的语料。
按照语种划分:语料库可分成单语语料库、双语语料库和多语语料库。
按照语体划分:语料库可分为书面语料库、非书面语料库。
按照对应方式划分:语料库可分为平行语料库、对照语料库。
今天给大家推荐一些俄罗斯和国内常见的语料库!
俄罗斯语料库推荐
1/ Национальный корпус русского литературного языка
https://narusco.ru/resourses.htm
2/ Национальный корпус русского языка
https://ruscorpora.ru/new/search-main.html
3/ Корпуса, созданные при поддержке Программы фундаментальных исследований Президиума РАН «Корпусная лингвистика»
http://web-corpora.net/
4/ Компьютерный корпус текстов русских газет конца ХХ века
http://www.philol.msu.ru/~lex/corpus/
5/ Корпуса звучащей речи: spokencorpora.ru
https://elementy.ru/click?_URL=http://spokencorpora.ru/
6/ Корпус М. В. Ломоносова
http://lomonosov.pro/
7/ «Манускрипт». Славянское письменное наследие
http://manuscripts.ru/
8/ Машинный фонд русского языка
http://cfrl.ruslang.ru/
9/ OpenCorpora — открытый корпус русского языка
http://opencorpora.org/
10/ Сравнительная поэтика и сравнительное литературоведение: cpcl.feb-web.ru
http://cpcl.feb-web.ru/
国内语料库推荐
1/北京大学中国语言学研究中心的CCL语料库(Center for Chinese Linguistics PKU)
http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp
2/ 中国特色话语对外翻译标准化术语库
http://210.72.20.108/index/index.jsp
3/ 国家语委现代汉语通用平衡语料库
http://www.aihanyu.org/cncorpus/index.aspx
4/北京语言大学语料库中心BCC语料库
http://bcc.blcu.edu.cn
5/清华TH语料库
openslr.org/18
6/ 中国思想文化术语库
https://www.chinesethought.cn/phone/
7/ 中国核心词汇
http:// www.cnkeywords.net/index
8/ 术语在线
https://termonline.cn/index.htm
9/ 新时代人民日报语料库(NEPD)
http://corpus.njau.edu.cn/
10/ 全球汉语中介语语料库
http://qqk.blcu.edu.cn/#/login
联系客服