网站介绍
页面预览
详细介绍
1.多语言文本复杂度特征抽取平台,该平台采用模块化的非结构化信息管理框架(UIMA),支持将不同语言分析模块添加到现有的系统结构中。CTAP已经实现英语、德语、意大利语三种语言文本的特征分析,支持475个特征的提取与计算。除此之外,研究者也可以在此平台上进行跨语言文本复杂度分析研究。
2.中文CTAP实现了包含字、词、句三个层面近百个复杂度特征。其中,字层面的特征主要包括字类数、字型数、字形例比及形例比的各种变体;词层面的特征主要包括词汇丰富度、词汇多样度、词性密度、词语复杂度四个维度;句层面的特征主要包括句子长度、句法成分数、句法复杂度三个维度。
3.中文CTAP平台主要由四个部分组成:语料库管理、特征提取、复杂度分析和结果可视化。语料库管理支持您建立自己的语料库,特征集构建支持您自由选择不同的特征,复杂度分析帮助您进行文本特征的自动计算,可视化展示可以让您清晰地看到不同特征的变化轨迹。不同模块间的结合可以使您的文本分析高度定制化。
使用指南
特点
中文CTAP是一个复杂度特征丰富、代码开源且可扩展、用户友好型的多语言文本复杂度分析平台,利用该平台不但可以进行特定语言的文本复杂度分析研究,还可以进行跨语言文本复杂度分析。
相关导航
暂无评论...