拓尔思(TRS)绿色节能搜索解决方案-搜索引擎解决方案.doc
拓尔思( TRS)绿色节能搜索解决方案 -搜索引擎解决方案 一、 TRS 绿色节能搜索 TRS 网络信息雷达系统( TRS InfoRadar)实时监控和采集 Internet 网站内容,对采集到的信息自动进行过滤、分类和排重等智能化处理,最终将最新内容及时发布出来,实现统一的信息导航,同时提供包括全文、日期等在内的全方位信息查询。 双模服务 1+ 1>2 TRS InfoRadar 不仅支持独立产品模式,而且支持 SaaS 模式。 独立模式:按照用户的需求设置采集网站,定制分类模板,建立本地数据库,用户完全拥有软件产品。 SaaS 模式:数据采集、加工的繁琐工作由厂商完成,用户只需定制需要的信息即可。 绿色节能搜索冲击波 TRS InfoRadar 倡导绿色环保节能搜索。 绿色环保: TRS InfoRadar 按需过滤掉互联网的电子垃圾信息,准确获取目标。 节能先锋: TRS InfoRadar 是节约能源先锋,通过自动化、智能化、多样化、个性化的雷达信息采集和监控,避免了人力、物力等资源的浪费。 第一波:超群的信息采集 采集全面,采全率高 各类元数据准确采集 定位元数据:支持利用 mata 和 html 标签实现各项元数据信息的精准采集与智能抽取,能够采集结构化数据。 与 CKM 整合,实现丰富的信息抽取:包括人名、电话等详细信息,供人们分析和利用。 多种个性化设置:在需要的情况下人工配置,实现部分元数据的准确解析。 高效采集,性能超群 采集的效率:在 10M 网络带宽环境下,每小时可以采集 5 万个网页。 高效的更新:已经采集过的信息不会重复采集,更新时只获取前次采集后更新的网页。数据索引更新时间平均小于 0.02s/记录。 大规模集群应用: 单个采集工具能支持千万数量级的网页采集。通过集群应用,就可以实现更大规模的海量搜索。 第二波:智能的信息处理 自动分类:采集的网页可以基于内容的自动分类,不需人工干预,自动分类达到 85%以上准确率。同时,提供智能分类训练工具,允许用户自行根据自己的分类需求和数据特点设定分类结构和生成特征模板。 自动排重:采用 TRS 相似性检索技术实现,可根据文档内容的匹配程度确定是否重复,比利用网页标题和大小等规则判断具有更强的准确性、实用性以及运行效率。 垃圾过滤:自动过滤网页中新闻的正文内容,剔除 广告、版权等垃圾信息。 其它