1. 文本朗读 ( Text to speech ) / 语音合成 ( Speech synthesis )
2. 语音识别 ( Speech recognition )
3. 中文自动分词 ( Chinese word segmentation )
4. 词性标注 ( Part-of-speech tagging )
5. 句法分析 ( Parsing )
6. 自然语言生成 ( Natural language generation )
7. 文本分类 ( Text categorization )
8. 信息检索 ( Information retrieval )
9. 信息抽取 ( Information extraction )
10. 文字校对 ( Text-proofing )
11. 问答系统 ( Question answering )
12. 机器翻译 ( Machine translation )
13. 自动摘要 ( Automatic summarization )
14. 文字蕴涵 ( Textual entailment )
1. 单词的边界界定
在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上, 汉语 也没有词与词之间的边界。
2. 词义的消歧
许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。
3. 句法的模糊性
自然语言 的 文法 通常是 模棱两可 的,针对一个句子通常可能会 剖析 ( Parse )出多棵 剖析树 ( Parse Tree ),而我们必须要仰赖 语意 及前后文的资讯才能在其中选择一棵最为适合的剖析树。
4. 有瑕疵的或不规范的输入
例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者 光学字符识别 ( OCR )的错误。
5. 语言行为 与计划
句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说 回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要 比回答“没人没通过”好。
联系客服