网站介绍
页面预览
详细介绍
1.多语言文本复杂度特征抽取平台,该平台采用模块化的非结构化信息管理框架(UIMA),支持将不同语言分析模块添加到现有的系统结构中。CTAP已经实现英语、德语、意大利语三种语言文本的特征分析,支持475个特征的提取与计算。除此之外,研究者也可以在此平台上进行跨语言文本复杂度分析研究。
2.中文CTAP实现了包含字、词、句三个层面近百个复杂度特征。其中,字层面的特征主要包括字类数、字型数、字形例比及形例比的各种变体;词层面的特征主要包括词汇丰富度、词汇多样度、词性密度、词语复杂度四个维度;句层面的特征主要包括句子长度、句法成分数、句法复杂度三个维度。
3.中文CTAP平台主要由四个部分组成:语料库管理、特征提取、复杂度分析和结果可视化。语料库管理支持您建立自己的语料库,特征集构建支持您自由选择不同的特征,复杂度分析帮助您进行文本特征的自动计算,可视化展示可以让您清晰地看到不同特征的变化轨迹。不同模块间的结合可以使您的文本分析高度定制化。
使用指南
特点
中文CTAP是一个复杂度特征丰富、代码开源且可扩展、用户友好型的多语言文本复杂度分析平台,利用该平台不但可以进行特定语言的文本复杂度分析研究,还可以进行跨语言文本复杂度分析。
相关导航

Language Acquisition
Language Acquisition is an interdisciplinary journal serving the fields of first and second language acquisition. Research published in the journal addresses theoretical questions about language acquisition and language development from a variety of perspectives and a variety of methodological approaches.
暂无评论...