浙江天宇智能互联网信息采集解决方案-IT与互联网解决方案.doc
浙江天宇智能互联网信息采集解决方案 -IT 与互联网解决方案 新闻媒体、政府部门、大型企事业单位纷纷通过互联网技术搭建网络信息收集平台:新闻媒体需要获取大量的互联网上新闻资料,充实新闻资料库;政府机关需要收集与自身业务相关的文献资料,提升办公与决策效率;大型 企事业单位需要快速获取行业宏观环境、政策动态与竞争对手信息…… 天宇智能互联网信息采集系统( CGSEEK)集成了网页搜索、内容智能提取与过滤、自动分类、自动去重等技术,实现了对互联网信息采集、过滤、提取与批量上载的自动化与一体化。 系统结构 系统主要功能 信息采集 支持各种标准格式信息资源的采集,如 HTML 页面、文本信息、表格、图片、声音、视频等。 实现对网页与内联图片的统一采集。 支持繁体页面( BIG5 码)的采集,并自动转换为标准的简体码( GB 码),支持 Unicode 码集。 支持由程序自动生成的页面内容的采集,如由 JavaScript 生成的页面。 能方便将抓取网站上后台数据库的内容( JSP, ASP, CGI),和抓取需要通过用户身份校验的网站内容。 支持单篇网页及网站历史数据的批量下载。 信息利用 可以将采集下来的网页信息放置到本地机器指定的某个文件夹下,进行利用。 系统支持采集的文本内容批量上载到天宇 CGRS 全文数据库中,可以利用天宇采编发系统及全文检索系统进行信息采编、审核、发布与全文检索等利用。 经过智能提取的文本内容,可以上载到 SQL Server 等主流的关系型数据库中,充实资料库,也可以利用第三方应用系统对信息进行采编、发布与检索等应用。 系统特点 网页采集内容全面 适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少,网页采集内容的完整性在 99%以上。 内容准确度高 能方便地将网页中的信息提取出来,如日期,标题,作者,栏目等内容;过滤网页中的无用信息。 精确定义采集范围 精确描述需要采集的网站范围,可以精确到整个网站、特定栏目、特定页面。 使用方便,自动化程度高 系统参数设置简单,一次设置多次使用,修改方便、直观、快捷。 信息采集快 系统通过多线程处理技术,可以同时启动多个搜索器,快速高效地对目标站点或栏目进行信息采集。 系统性能 采集速度:每分钟采集数百个最新目标页面(与机器性能及网络带宽有关); 处理速度:每分钟提取、过滤与上载数百个网页; 自动分类