下载之家:安全、高速、放心的绿色下载站!

当前位置:首页软件下载安全软件详细列表

火车采集器(LocoySpider) V10.0.21.705安装版

火车采集器(LocoySpider) V10.0.21.705安装版
  • 软件分类: 安全软件
  • 软件大小: 34.13 MB
  • 软件语言: 简体中文
  • 授权方式: 免费软件
  • 运行环境: Win ALL
  • 更新时间: 2022-07-19
  • 软件介绍
  • 下载地址
  • 同类推荐
  • 相关文章

火车采集器(LocoySpider)安装版是一款功优秀的数据采集器,火车采集器完美支持采集所有编码格式的网页,火车采集器还能将采集的数据直接封装入库,并且火车采集器使用过程中非常的稳定。火车采集器可以灵活迅速地抓取网页中大量非结构化的文本,图片等资源信息,然后通过一系列的分析处理,准确挖掘出所需数据,并可以选择发布到网站后台、导入数据库或者保存在本地Excel,Word等格式的文件中。凭借支持远程下载图片文件,支持网站登陆后的信息采集,支持探测文件真实地址,支持代理,支持防盗链的采集,支持采集数据直接入库和模仿人手工发布等许多功能特点,历经十年的升级更新,积累了大量用户和良好口碑,是目前最受欢迎的网页数据采集软件。

火车采集器(LocoySpider) V10.0.21.705安装版

火车采集器安装版特色

1、通用性强

无论新闻、论坛、视频、黄页、图片、下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,都能采集到您所需要的内容。

2、稳定、高效

五年磨一剑,软件不断更新进步,采集速度快,性能稳定,占用资源少。

3、扩展性强、适用范围广

自定义web发布,自定义主流的数据库的保存和发布,自定义本地php及.net外部编程接口处理数据,让数据都能为你所用。

火车采集器安装版功能

1、规则自定义 - 通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。

2、多任务,多线程 - 可以同时进行多个信息获取任务,每个任务可以使用多个线程。

3、所见即所得 - 任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等都会及时的反映在软件界面中。

4、数据保存 - 数据边采集边自动保存到关系数据库中,并且数据结构能够自动适应,软件可以根据采集规则自动创建数据库,以及其中的表和字段,也可以通过导库方式灵活的将数据保存到客户已有的数据库结构中。

5、断点续采 - 信息收集任务可以在停止后从断点开始继续采集,从此你用不再担心你的采集任务意外中断了。

6、网站登录 - 支持网站Cookie,支持网站可视化登录,即使登录时需要验证码的网站也能采集。

7、计划任务 - 通过这个功能可以让你的采集任务定时、定量或者一直循环执行。

8、采集范围限制 - 可以根据采集的深度和网址的标识来限制采集的范围。

9、文件下载 - 可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地磁盘或者采集结果数据库中。

10、结果替换 - 可以将采集的结果根据规则替换成你定义的内容。

11、条件保存 - 可以根据某个条件来决定那些信息保存,那些信息过滤。

12、过滤重复内容 - 软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。

13、特殊链接识别 - 运用此功能可以将用JavaScript动态生成的链接或其他更古怪的连接识别出来。

14、数据发布 - 可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。

15、预留编程接口 - 定义多个编程接口,用户可以在事件中利用PHP,C#语言进行编程,扩充采集功能。

火车采集器安装版新功能

1、新建分组

新建一个任务分组,选择所属分组,确定分组名称和备注。

2、新建任务

确定所属分组,新建一个任务,填写任务名称并保存。

3、Web发布配置

Web发布配置定义了如何登陆一个网站以及向该网站提交数据。

主要涉及到登录信息的获取,网站编码设定,栏目列表的获取,以及使用数据测试发布效果。

4、Web发布模块

可以定义网站登录,获取栏目列表,获取网页随机值,内容发布参数,以及上传文件,构造发布数据等高级功能。

5、数据库发布配置

数据库发布配置定义了数据库链接信息的设置以及数据库模块的选择。

6、数据库发布模块

用于编辑数据库的发布模块,方便我们将数据发布到配置好的数据库中。

可选mysql、sqlserver、oracle、access四种数据库类型,在文本输入框中填写sql语句(需有数据库相关知识),并可使用标签替换相应数据。也可在采集器模块文件夹中加载某一模块进行编辑。

7、计划任务

设置列表中采集任务的启动计划,可每间隔、每天、每周、仅一次、或自定义Cron表达式,(Cron表达式的写法可参考相关术语中的介绍)。保存设置后,任务即可按照设置执行。

8、插件管理

插件是可以用来扩展火车采集器功能的程序

火车采集器V9支持PHP源码、C#源码、C#类库三种类型的插件,可用于扩展http请求、内容处理和文件下载的功能,并可以分别进行测试。

9、http二级代理

网络中的服务器,可以让网络用户去取得所需要的网络信息。

代理的功能有可以突破自身ip的访问限制访问国外站点,访问一些单位或团体内部资源,突破电信的ip封锁和隐藏真实的ip等。

火车采集器V9支持http代理、socket4和socket5代理。

10、http模拟请求

可以设置如何发起一个http请求,包括设置请求信息,返回头信息。并具有自动提交的功能。

火车采集器安装版使用教程

火车头采集器是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序,软件包中包含有详尽的“火车采集器白皮书”以及使用教程,为了方便介绍,小编这里以采集文章标题为例说明其基本用法:

1、采集网址规则,点击添加

火车采集器(LocoySpider) V10.0.21.705安装版

2、选择【批量/多页】,添加有规则的网址,输入首项和页数。点击【添加】完成

火车采集器(LocoySpider) V10.0.21.705安装版

3、采集内容规则

双击【标题】,弹出标题编辑框

火车采集器(LocoySpider) V10.0.21.705安装版

4、提取方式一般为【前后截取】,通过观察源代码,填写开始字符串和结束字符串

火车采集器(LocoySpider) V10.0.21.705安装版

5、添加【html标签排除】【内容添加前后缀】,点击确定就可。

6、发布内容设置。启用方式二来保存采集结果。

文件名格式可以根据自己喜好,任意选择。

文件模板选择,火车头给出的几个默认模板。一般默认为txt,csv,html,excel格式。可以根据自己的喜好来选择模板。

火车采集器(LocoySpider) V10.0.21.705安装版

7、设定好之后,保存即可。这时,采集规则已经设定完毕。执行即可得所需要的结果。

火车采集器安装版更新日志

1、数据获取中支持调用其他标签的值作为截取条件。

2、数据获取支持CSS selector,很多网页的css 的属性唯一,此功能更利于批量从网页中提取数据。

3、增加关联区域功能,可以截取网页中指定区域内容进行采集处理。

4、批量网址增加区间变化的网址增加方式,适应更多的网页地址变化方式。

5、批量设置增加新增加功能的批量设置。

6、运行统计日志设置添加默认关闭功能,可在设置中选择开启或关闭。

7、oss相关问题修复。

8、网址空格问题导致列表页标签错误问题修复。

9、下载相关问题修复。

10、修复“任务数据批量处理”中删除为空记录无效的问题。

11、文件下载插件增加文件下载后处理接口。

点击查看更多: 数据采集

下载声明

推荐使用[迅雷]下载,使用 [360压缩]解压本站软件。

本站提供的一些商业软件是供学习研究之用,如用于商业用途,请购买正版。

本站提供的[火车采集器(LocoySpider) V10.0.21.705安装版]资源来源互联网,版权归该下载资源的合法拥有者所有。