|
1)系统需求
内容采集搜索服务系统经过不断的实践和改进,已经成为功能较为先进和成熟的产品,面向行业用户提供目标明确、针对性强的垂直搜索服务,是政府、国企、事业单位的良好选择。
CSS v5.1的主要特点体现为:
(1)定位专一:面向政府、企事业单位,以实用为本,易学易用。
(2)目标明确:为用户提供互联网定向信息采集、自定义索引和站内检索等服务,支持各功能模块的集成应用。
(3)实施快速:专业的实施人员可以在一个星期内将系统部署、安装、调试完毕。
(4)运维简便:应用智能引导方式,提供基础配置逻辑,有效降低系统运行维护的难度,改变非编程人员操作困难的情况,使产品具有“傻瓜式”特性。
(5)升级免费:在运维期内,公司对产品免费升级到最新发布版本。
(6)性价比高:与市场上同类产品相比,航天四创搜索服务系统以功能强大、价格便宜为核心竞争力。
2)系统框架

3)系统功能
频道管理
频道管理是定义采集任务信息与提取信息的管理模块,不同的采集站点通过频道划分归类。频道可以包含一个或多个任务。用户可以根据分类需要或习惯把一些相关站点作为一类放在一起,定义为一个频道。
l 抓取配置:为采集任务定义优先级、分配采集器、设定更新周期等运行设置。
l 调度配置:设定抓取任务为自动或定时抓取。
l 解析配置:设定抓取任务的页面解析规则和元数据提出规则。
采集器管理
添加采集器的ip、端口等内容,为采集服务的检测提供基础配置管理。
任务导出
用户可以应用采集导出功能将采集任务下载的站点数据以XML文件的形式导出,并且整合到其它业务系统中。采集导出提供按任务、页面发布时间、导出每页记录数、文件类型、是否包含图片等组合条件导出数据的功能。
索引库管理
可创建多个索引库,每个索引库可添加多个索引项。系统采用中文分词技术,可对索引项进行分词设置、模糊匹配等。
同义词管理
用户可以通过词典管理功能为索引过程建立同义词典,具体操作包括新建同义词、删除同义词和查找同义词。
索引设置
对索引库进行基本的配置,包括索引库路径,服务器地址等。提供系统定时自动处理索引库操作的功能。
分类树管理
用户在分类数管理中可定义父分类也可定义子分类。在定义好的分类树中,可移动分类在分类树中的位置,但是分类只能在同级间移动,不能越级移动,如果父分类被移动,那么该父分类下的所有子分类也跟着被移动。
分类规则管理
分类规则管理中可定义分类规则的多种属性,包括分类间的关系、是否生效、关键词、来源、文件类型。
分类信息发布管理
可对分类下的信息的发布情况进行管理。
信息导出管理
用户可以将所定义的分类下的信息导出来,存放到自己的文件目录中。
4)系统特点
松耦合性架构,支持各功能模块的扩展应用
由于数据采集和内容检索的广泛性应用,系统设计采用松耦合的架构,各功能模块相对独立,使得采集、索引既作为搜索服务系统的核心业务,也可被其他业务系统整合。
多机采集、分布式部署,适应大规模采集任务
系统支持一机或多机模式下实现采集任务,用户可以通过注册的方式声明一台新的采集器。当采集任务过大时,采用采集器和数据库的分布式部署,可处理海量数据。
基于超链分析等技术,实现对各种数据的有效处理
能够对多种网页类型的信息进行采集,包括:静态网页,如html、xml、shtml等;动态网页以及由JavaScript生成的动态超链信息。
提供不同信息类型的解析
包括动态网页信息与静态网页信息的解析附件、链接采集支持自定义抓取规则,就目前的经验来看,正则表达式、通配符的方式是一种比较简洁的涵盖链接范围的表达方式,除此之外,考虑到需要逻辑判断的情况,即一条正则表达式不能完全表达,可通过动态脚本来完成逻辑。
多种页面解析方式,系统维护简单、易用
利用XPATH反向生成工具和在线验证等方式,实现所见即所得的元数据抽取规则设置,改善只有技术人员才能维护的状况,提高系统维护简易性。
多种信息导出方式,支持信息再利用
选择采集任务与CMS栏目的对应关系,经过权限验证后以CMS提供的Web服务接口方式导出信息。
针对外部系统索取数据过程,有两种方式可获取信息,一种是XML导出的方式,一种是Web服务接口方式。
|