火车采集器
火车采集器v9是合肥乐维信息技术有限公司专业易用的大数据采集神器,2005年至2017年,用户数量一直位居同类前列。 主要以数据的获取、处理、分析、挖掘为核心功能,不仅可以支持当前主流和非主流的所有CMS、BBS等网站程序,灵活快速地获取网页上零散的数据信息,而且可以实现所有编码格式的网页除此之外,该软件经过12年的升级更新,目前用户已突破10万,12年来形成了良好的口碑,是目前最受欢迎的网络数据采集软件。

软件特色
1、支持所有网站编码:完美支持所有编码格式的网页收集,程序还可以自动识别网页编码。 2、多种分发方式:支持当前主流和非主流的所有CMS、BBS等网站程序,通过系统的分发模块可以实现采集器与网站程序之间的完美结合。 3、全自动:无人作业。 配置程序后,程序将根据您的设置自动运行。 完全不需要人工干预。 4、本地编辑:对采集到的数据进行本地可视化编辑。 5、采集测试:这是其他任何类型的采集软件无法比拟的。 程序支持直接查看采集结果并测试发布。 6、管理方便:采用站点任务方式管理收集节点,任务支持批量操作,进一步的数据管理也很简单。
基本功能
1、自定义规则-收集规则定义允许您搜索所有站点以收集几乎任何类型的信息。 2、多任务、多线程-可以同时执行多个信息检索任务,每个任务可以使用多个线程。 3、所见即所得-任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误消息等及时反映在软件界面中。 4、数据保存-数据在采集的同时自动保存在相关数据库中,数据结构可自动适应。 软件既可以根据收集规则自动生成数据库和其中的表和字段,也可以通过引导数据库灵活地将数据保存在客户现有的数据库结构中。 5、断点续采-信息采集任务停止后,可以从断点继续采集,从此再也不用担心你的采集任务意外中断。 6、网站登录-支持网站cookie。 支持网站的可视化登录。 也可以在登录时需要验证码的网站上收集。 7、计划任务-此功能允许您定时、定量或一直循环执行采集任务。 8、采集范围限制-可根据采集深度和网站标识限制采集范围。 9、文件下载-可以将收集的二进制文件(例如,照片、音乐、软件、文档等)下载到本地磁盘或收集结果数据库。 10、替换结果-您可以根据规则将收集的结果替换为您定义的内容。 11、条件保存-能够基于某个条件决定这些信息保存,这些信息被过滤。 12、过滤重复内容-软件可以根据用户设置和实际情况,针对重复内容和重复网站自动删除重复内容。 13、特殊链接识别-此功能允许JavaScript动态生成的链接和其他奇怪的连接识别。 14、数据发布-通过定制接口,可以将收集到的结果数据发布到任意内容管理系统和指定数据库。 当前支持的目标分发媒体有数据库( access、sql server、my sql、oracle )和静态htm文件。 15、预约编程接口-定义多个编程接口,用户可以在事件中用PHP、C#语言编程,扩展采集功能。
火车采集器核心功能
1、新建组创建任务组,选择所属组,确定组名和注释。 2、新任务确定所属组,创建新任务,填写任务名称保存。 3、Web发布配置定义了Web发布配置如何登录一个网站并向该网站提交数据。
主要涉及登录信息获取、网站代码设置、栏目列表获取、数据发布效果测试。 4、Web发布模块可以定义网站注册、栏目列表获取、网页随机值获取、内容发布参数获取、文件上传、发布数据构建等高级功能。 5、数据库发布配置数据库发布配置定义了数据库链接信息的设置和数据库模块的选择。 6、数据库发布模块用于编辑数据库的发布模块,便于向配置的数据库发布数据。 可以选择四种类型的数据库: mysql、sqlserver、oracle和access。 在文本输入框中输入sql语句,需要了解数据库。 此外,还可以用标记替换相应的数据。 也可以将模块加载到收集器模块文件夹中进行编辑。 7、调度任务设置列表中收集的任务的启动调度可以使用间隔、每日、每周、一次或自定义Cron公式。 ( Cron公式的写法可以参考相关术语的介绍。 保存设置后,可以按设置执行任务。 8、插件管理插件可用于扩展列车采集器功能程序列车采集器V9支持PHP源、C#源、C#类库三种插件,http请求、内容处理和文件下载9、http二次代理网络中的服务器可以使网络用户取得必要的网络信息。 代理的功能包括可以突破自己ip的访问限制访问海外网站,访问部分机构和团体的内部资源,突破通信的ip块,隐藏真正的ip等。 收集器V9支持http代理、套接字4和套接字5代理。 10、http模拟请求可以配置如何启动http请求。 这包括设置请求信息和回复标头信息。 具有自动提交的功能。
软件优势
1、通过指定匹配规则,任何结构化内容(无论是新闻、论坛、视频、黄页、图片还是下载类网站)都可以在浏览器中查看,这是必需的2、稳定、高效磨剑五年,软件不断更新进步,采集速度快,性能稳定,占用资源少。 3、可扩展性强,适用范围广,定制web发布,定制主流数据库存储和发布,定制本地php和. net外部编程接口处理数据,让数据为你所用