深思软件智能分类系统应用方案-信息系统解决方案.doc
深思软件智能分类系统应用方案 -信息系统解决方案 1.系统概述 根据 Delphi Group 2001 的报告中指出,企业中有百分之八十的知识是以非结构化信息的形式存在,其中百分之八十表现为文本文件,知识管理必须从文件着手而文件分类是必经的步骤。文件分类若以手工来进行则可能有如下问题:成本高、速度慢、信息更新频率慢、客观性不足,分类效果一致性低、可调整性低。 深思公司对于上述问题提出可行的解决方案 -”深思智能分类系统”。 深思智能分类系统,采用 IBM 中国研究中心独家授权的最新中文信息处理研究成果,集成强大的 IBM 中文分词软件,内置先进的 SVM 和 KNN 分类引擎,应用最新的统计学知识和语言学知识,准确率和召回率等各项技术指标都位居业界前列,自动分类准确率达到 85%以上,能够满足大多数应用的实用需求。 2.主要特点 2.1 强大的核心技术 中文语义理解 采用先进的中文自然语言理解与中文分词技术,依据中文语义内容实现自动分类。 高级分类算法 采用 IBM世界领先的 SVM分类算法和 KNN分类算法实现分类引擎,具有极 高的分类准确率和分类速度。 海量处理能力 采用多线程技术实现并行处理,可管理千万量级的海量文件集合,单日分类能力达十万篇以上。 多国语言支持 目前支持简体中文、繁体中文和英文。 2.2 完整的信息整合 支持多种数据格式 支持常用格式文件的入库和检索,如 TEXT, HTML, RTF, MS WORD,PDF 等。 支持多种异质数据源 采用可选的信息整合工具,可以整合大部分企业信息数据源,包括关系型数据库,文件系统,网站、 Notes 文档库等。 2.3 高效的自动分类 方便的图形 管理界面 让管理者利用清楚易用、从操作流畅的图形界面,轻松的管理、维护分类目录。 专业的分类目录构建 可轻松建立、管理分类目录,并可对目录进行新增/删除 /修改 /移动等操作。 完整的分类训练流程 通过训练样本预先测试、调整,再上线运行,确保分类的精确性,同时可以设定训练样本、调整样本,测试样本等不同层次的训练材料。 精确的分类效果评估 提供开放 /封闭等不同测试方法,完整记录测试结果,客观评估分类精确程度。 2.4 柔性的分类方式 单一文件多重分类 可采用多重分类法则,同一份文 件可被分类到不同分类法则的不同目录下。 虚拟目录多重归属 某一目录可归属多个上层