热门搜索:

首页 公文写作网 > 资源分类 > DOC文档下载

浙江天宇智能互联网信息采集解决方案-IT与互联网解决方案.doc

  • 资源星级:
  • 资源大小:7.89KB   全文页数:5页
  • 资源格式: DOC        下载权限:游客/注册会员/VIP会员    下载费用:0金币 【人民币0元】
游客快捷下载 游客一键下载
会员登录下载
下载资源需要0金币 【人民币0元】
邮箱/手机号:
您支付成功后,系统会自动为您创建此邮箱/手机号的账号,密码跟您输入的邮箱/手机号一致,以方便您下次登录下载和查看订单。

支付方式: 微信支付       云通付       支付宝       微信扫码支付 支付宝扫码支付 QQ钱包扫码支付
验证码:   换一换

友情提示
2:本站资源不支持迅雷下载,请使用浏览器直接下载(不支持QQ浏览器)
3:本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

浙江天宇智能互联网信息采集解决方案-IT与互联网解决方案.doc

浙江天宇智能互联网信息采集解决方案 -IT 与互联网解决方案 新闻媒体、政府部门、大型企事业单位纷纷通过互联网技术搭建网络信息收集平台:新闻媒体需要获取大量的互联网上新闻资料,充实新闻资料库;政府机关需要收集与自身业务相关的文献资料,提升办公与决策效率;大型 企事业单位需要快速获取行业宏观环境、政策动态与竞争对手信息…… 天宇智能互联网信息采集系统( CGSEEK)集成了网页搜索、内容智能提取与过滤、自动分类、自动去重等技术,实现了对互联网信息采集、过滤、提取与批量上载的自动化与一体化。 系统结构 系统主要功能 信息采集 支持各种标准格式信息资源的采集,如 HTML 页面、文本信息、表格、图片、声音、视频等。 实现对网页与内联图片的统一采集。 支持繁体页面( BIG5 码)的采集,并自动转换为标准的简体码( GB 码),支持 Unicode 码集。 支持由程序自动生成的页面内容的采集,如由 JavaScript 生成的页面。 能方便将抓取网站上后台数据库的内容( JSP, ASP, CGI),和抓取需要通过用户身份校验的网站内容。 支持单篇网页及网站历史数据的批量下载。 信息利用 可以将采集下来的网页信息放置到本地机器指定的某个文件夹下,进行利用。 系统支持采集的文本内容批量上载到天宇 CGRS 全文数据库中,可以利用天宇采编发系统及全文检索系统进行信息采编、审核、发布与全文检索等利用。 经过智能提取的文本内容,可以上载到 SQL Server 等主流的关系型数据库中,充实资料库,也可以利用第三方应用系统对信息进行采编、发布与检索等应用。 系统特点 网页采集内容全面 适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少,网页采集内容的完整性在 99%以上。 内容准确度高 能方便地将网页中的信息提取出来,如日期,标题,作者,栏目等内容;过滤网页中的无用信息。 精确定义采集范围 精确描述需要采集的网站范围,可以精确到整个网站、特定栏目、特定页面。 使用方便,自动化程度高 系统参数设置简单,一次设置多次使用,修改方便、直观、快捷。 信息采集快 系统通过多线程处理技术,可以同时启动多个搜索器,快速高效地对目标站点或栏目进行信息采集。 系统性能 采集速度:每分钟采集数百个最新目标页面(与机器性能及网络带宽有关); 处理速度:每分钟提取、过滤与上载数百个网页; 自动分类

注意事项

本文(浙江天宇智能互联网信息采集解决方案-IT与互联网解决方案.doc)为本站会员(admin)主动上传,公文写作网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知公文写作网(发送邮件至studylead2014@163.com或直接QQ联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。

关于我们 - 网站声明 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2012-2018 公文写作网站版权所有
闽ICP备10207358号-2

收起
展开