引语:大家在做汉译英时,肯定会遇到一个痛点:不知道词汇搭配或某个词的具体用法,进而导致用词不当。实际上,除了个人平时的阅读积累,汉译英还与写作水平有关。但是再牛的大咖也不可避免遇到某些词组搭配问题,想要快速查到权威表达,并不是一件容易的事。今天就为大家介绍一下世界上最权威的语料库之一:美国当代英语语料库(Corpus of Contemporary American English,简称COCA)的用法。COCA用起来很棒,功能丰富,但是操作要难一些,所以小伙伴们想熟练使用,平时就要多实践。
本文只能介绍一些常用的操作技能,更多技能,欢迎大家下来探索,同时欢迎各位大咖留言。
01
一、与传统词典相比,COCA 的优势
(1)文本实时性强。
COCA从1999年创立至今持续保持更新,每年都要更新大约2000万的词汇数量,所以比起普通的词典,COCA 则包含更多的最新语料。比如Trumpism、post-truth这样的词,很多传统词典都没有收录,但在语料库中都可以查到。
(2)搜索速度较快。
即使有这么庞大的语料库,但在COCA 搜寻的速度依然较快,能在短时间内找到结果。说明一下,在不登录的情况下,每个用户每天可以使用10到15次的搜寻。注册一个账号之后,就可以增加使用搜寻功能的次数。但用户即便是注册了账号,在连续查词后,也可能会出现延迟,然后会看到这个提示:
若看到此图,先返回到Search,再点一下搜索,或等它恢复正常,就可以了。
(3)来自专业正式文本,更接近正式的语法。
COCA的语料来自于美国英语使用情境下的口语演讲、小说书籍、杂志报纸、学术期刊,比起搜寻网络用语素材,COCA的语料来自于有更多严谨检查与使用的专业或正式文件,所以相对起来更能避开有争议的方法,而更接近正式的语法。
这对有汉译英文稿翻译、英文正式报告、英文职场书信需求的使用者来说,提供了更专业正确的查询渠道,并且查询时可以找到各种词汇在这些文件里的使用方法参考。
(4)语料库可以提供单词的词频信息。
提供单词的词频信息将有助于我们了解该单词在实际应用中的出现频率,从而实现准确用词。
(5) 语料库还能提供模糊搜索、同义词、单词搭配、搜寻一个词汇的所有变化型态等的功能。
02
二、界面简介
(一)基础界面
List: 列表视图,默认视图。
Chart: 用于比较检索项在五种领域和不同时间段内的分布。
Collocates: 用于研究词语搭配,比如thick/look into后跟哪些名词,money前的动词等。
Compare: 用于比较两个词的搭配现象,研究在意义和用法上有何不同。如small和little的区别,修饰boy和girl的形容词有什么不同等。
KWIC: Key Word In Context,通过对检索项相邻的左边或右边若干个词排序,研究检索词的用法。
(二)视图切换下方的高级功能:
Sections: 条件检索,指定要检索的子库、时间、时间段等
Texts/Virtual: 基于COCA内的语料创建自己的语料库(新功能)
Sort/Limit: 设置结果排序规则,可以按频率、相关性和英文字母三种方式排序。设置最低频率,最小互信息值(MI Score)
Options: 其它设置
(三)搜索结果栏:
Frequency: 显示这一词组搭配在COCA语料中出现的次数
Context: 显示该词组出现的上下文
(四)Context下,More一栏中各类文体缩写:
SPOK: 口语
MAG: 杂志
NEWS: 新闻
FIC: 小说
ACAD: 学术类期刊
03
三、用法
注:与谷歌、必应等搜索引擎不同,COCA不能直接使用模糊搜索,必须配合相应的搜索指令(即通配符),才有可能找到对应词组搭配。
(一)直接查词:
在搜索栏里输入词汇你想查的词汇,点击Find Matching Strings,就可以跳转到Frequency。在Frequency里点击该词条,跳转到Context,可以查看该词组用在什么样的语境中。如图所示,在Context中,点击栏中的任意缩写,可查看更详细的语境。
A、B、C是用于将搭配结果分类,点击后每条结果背景色发生变化,同一类的背景色相同。比如可以根据检索词的意义和用法将他们分成1-3类,然后再点击Save List,保存到自己创建的列表中。
(二)Chart功能:更直观看到该词汇在各种文体和年代中的总频率,用户可以通过这一功能,了解到哪些词汇适合更加正式的文体,还可以查看该词汇的语法结构。下次遇到不确定的词组搭配时,不妨先放到语料库中查一查,如果你发现它在某一文体中出现频率很低,就可以考虑不用它。
(三)Collocates功能:
注意:每个标点都很重要!
点击Collocates,可以看到两个搜索栏,第一个搜索栏后面标的是Word/phrase,在这里输入短语中的核心词;在Collocates一栏,输入搭配的介词、冠词、形容词等内容,如果不知道核心词后面应该搭配哪种介词或冠词,或想限定词性搜索,可以在两个搜索栏后面的POS(Part of Speech,词性)加入想限定的词性即可。
以want为例,假设想搜索want后面跟哪些介词,就按照图中输入:
可以看到Frequency中的高频搭配词:
但假如我们想搜索want作为名词时与什么介词搭配,那就要限定want词性。如图所示:
其中want.[n*]表示want被限定为名词,[_i*]是介词。
附个别词性规则:
名词:[n*]
动词:[v*]
形容词:[j*]
副词:[r*]
代词:[p*]
连词:[c*]
(四)Compare功能
当你在对比两个近义词或同义词,但不知道各自的搭配时,可以用Compare功能,如对比wide和broad分别与哪些名词搭配使用:
(五)其他功能:
1. 搜索近义词:在words的方格里输入[=beautiful],表示和beautiful语义相近的所有形容词。
2. 若要得到某种词性且词中带有部分带有某些字母的形式时,如要得到以un-开头、-ed结尾的所有形容词的所有形式,那么输入:un*ed.[j*];
若要得到动词 任何词 ground的所有词组,那么输入:[vv*] * [ground]即可(方括号中间有空格,切记)。
前者用来研究词汇,后者用来查询特定词性的搭配。
3. 输入通配符(wildcards),如分别输入un*ly和r?n*,结果如图:
说明:第一个指令可以帮你找到所有以un开头、ly结尾的全部单词,第二个指令可以搜索以r开头、第三个字母包括n的任意单词(? 代替一个字母;* 代替任意数量字母)
4. KWIC(Key Word in Context)也叫语境共现(Concordance),以检索词为中心,两端都有该词出现的语境,便于学习者观察该词的使用情况。
蓝色——名词
紫色——动词
绿色——形容词
棕色——副词
灰色——代词
黄色——介词
赏个咖啡钱吧^_^
联系客服