分类
大小:30.1M更新:2019-12-27
类别:行业软件系统:WinAll
火车采集器软件(LocoySpider)是一款网页抓取工具,是用于网站信息采集,网站信息抓取,包括图片、文字等信息采集处理发布,是目前使用人数最多的互联网数据采集软件。合肥乐维信息技术有限公司出品,10年打造网页数据采集利器。有需要的小伙伴欢迎来西西下载体验。
程序支持远程下载图片文件,支持网站登陆后的信息获取,支持探测文件真实地址,支持代理,支持防盗链的采集,支持采集数据直接入库和模仿人手工发布等许多功能特点。
火车采集器支持从任何类型的网站采集获取您所需要的信息,如各种新闻类网站、论坛、电子商务网站、求职招聘网站等。
同时具有强大的网站登录采集、多页和分页的采集、网站跨层采集、POST采集、脚本页面采集、动态页面采集等高级采集功能。
强大的php和c#插件支持,让您可以通过二次开发实现您所想要的任何更强大的功能。
1、通用性强
无论新闻、论坛、视频、黄页、图片、下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,都能采集到您所需要的内容。
2、稳定、高效
五年磨一剑,软件不断更新进步,采集速度快,性能稳定,占用资源少。
3、扩展性强、适用范围广
自定义web发布,自定义主流的数据库的保存和发布,自定义本地php及.net外部编程接口处理数据,让数据都能为你所用。
1.新建分组
新建一个任务分组,选择所属分组,确定分组名称和备注。
2.新建任务
确定所属分组,新建一个任务,填写任务名称并保存。
3.Web发布配置
Web发布配置定义了如何登陆一个网站以及向该网站提交数据。
主要涉及到登录信息的获取,网站编码设定,栏目列表的获取,以及使用数据测试发布效果。
4.Web发布模块
可以定义网站登录,获取栏目列表,获取网页随机值,内容发布参数,以及上传文件,构造发布数据等高级功能。
5.数据库发布配置
数据库发布配置定义了数据库链接信息的设置以及数据库模块的选择。
6.数据库发布模块
用于编辑数据库的发布模块,方便我们将数据发布到配置好的数据库中。
火车采集器可选mysql、sqlserver、oracle、access四种数据库类型,在文本输入框中填写sql语句
(需有数据库相关知识),并可使用标签替换相应数据。也可在采集器模块文件夹中加载某一模块进行编辑。
7.计划任务
设置列表中采集任务的启动计划,可每间隔、每天、每周、仅一次、或自定义Cron表达式,
(Cron表达式的写法可参考相关术语中的介绍)。保存设置后,任务即可按照设置执行。
8.插件管理
插件是可以用来扩展火车采集器功能的程序
火车采集器V9支持PHP源码、C#源码、C#类库三种类型的插件,
可用于扩展http请求、内容处理和文件下载的功能,并可以分别进行测试。
9.http二级代理
网络中的服务器,可以让网络用户去取得所需要的网络信息。
代理的功能有可以突破自身ip的访问限制访问国外站点,访问一些单位或团体内部资源,
突破电信的ip封锁和隐藏真实的ip等。
火车采集器V9支持http代理、socket4和socket5代理。
10.http模拟请求
可以设置如何发起一个http请求,包括设置请求信息,返回头信息。并具有自动提交的功能。
1、规则自定义 - 通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。
2、多任务,多线程 - 可以同时进行多个信息获取任务,每个任务可以使用多个线程。
3、所见即所得 - 任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等都会及时的反映在软件界面中。
4、数据保存 - 数据边采集边自动保存到关系数据库中,并且数据结构能够自动适应,软件可以根据采集规则自动创建数据库,以及其中的表和字段,也可以通过导库方式灵活的将数据保存到客户已有的数据库结构中。
5、断点续采 - 信息收集任务可以在停止后从断点开始继续采集,从此你用不再担心你的采集任务意外中断了。
6、网站登录 - 支持网站Cookie,支持网站可视化登录,即使登录时需要验证码的网站也能采集。
7、计划任务 - 通过这个功能可以让你的采集任务定时、定量或者一直循环执行。
8、采集范围限制 - 可以根据采集的深度和网址的标识来限制采集的范围。
9、文件下载 - 可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地磁盘或者采集结果数据库中。
10、结果替换 - 可以将采集的结果根据规则替换成你定义的内容。
11、条件保存 - 可以根据某个条件来决定那些信息保存,那些信息过滤。
12、过滤重复内容 - 软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。
13、特殊链接识别 - 运用此功能可以将用JavaScript动态生成的链接或其他更古怪的连接识别出来。
14、数据发布 - 可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。
15、预留编程接口 - 定义多个编程接口,用户可以在事件中利用PHP,C#语言进行编程,扩充采集功能。
1、支持所有网站编码:完美支持采集所有编码格式的网页,程序还可以自动识别网页编码。
2、多种发布方式:支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
3、全自动:无人值守工作,配置好程序后,程序将依据您的设置自动运行,完全无需人工干预。
4、本地编辑:本地可视化编辑已采集的数据。
5、采集测试:这是其它任何同类采集软件所不能比的,程序支持直接查看采集结果并测试发布。
6、管理方便:使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。
1、★ 列表页新增“地址处理”功能★
内容替换/排重
可以对网址中内容进行替换,且替换完成后,重复的网址会自动去重。
纯正则替换
可以使用正则表达式进行匹配,和内容替换功能类似
字符编码处理
网址中有需要转码的内容,比如采到的链接里有 & 可以进行解码
2、★新增“请求失败数”的预警条件设置★
3、★下载图片命名,新增[记录自增Id]格式★
记录自增ID:同一个内容页中,多个标签设置记录自增ID,那么多个标签都是从1开始自增,再次测试运行又会重新开始从1自增,更换个内容页测试运行,也是从1开始自增。
自增ID:设置自增ID是采集器启动后运行,开始一个自增ID,从1开始自增,之后就是自增。重启采集器后,又会重新开始自增ID,从1开始自增。
4、★修复图片下载误判断问题★
5、★修复计划任务中“每天调度”,起始运行时间配置未生效的问题★
6、★ 修复PHP插件,对于循环记录的处理报错的问题★
7、★修复拼音首字母对于一些错误字符的判断问题★
8、★任务批量编辑,修复“发布”中“多网站乱序发布”未能复制的问题★
9、★修改“循环添加新记录”配置后,修复数据格式选择错误的问题★
10、★修复循环记录中列表页标签被多次处理的问题★
11、★修复对于一些302跳转地址,无法正确跳转的问题★
12、★修复一些网址无法正确请求的问题★
发票勾选查验系统行业软件Mv2.5官方版
查看真标鞋匠(营销系统)行业软件M
查看玖乐EP分销系统行业软件M
查看称骨算命八字算终身(出生时间测姓名)行业软件M小孩五行测算版
查看顺丰大客户发件系统行业软件Mv1.0 官方最新版
查看天意养老院管理系统行业软件M5.0官方版
查看Pigup猪场管理软件行业软件Mv3.06官方版
查看全球消费折扣指南(Abelssoft Clever Buy 2020)行业软件Mv1.0 build 14官方版
查看多学科设计优化软件HEEDS MDO行业软件Mv2018.10.2 免费版
查看明威拾取坐标系统行业软件.57MV2.5官方免费版
查看拉卡拉申请明细软件免费版行业软件M
查看蜗牛CRM客户管理系统行业软件Mv2.6.1官方版
查看武汉市地税自主办税系统行业软件Mv5.3.3.1 官方最新版
查看美萍市场商铺租赁管理系统行业软件M2017v2官方版
查看云发卡专业的数字虚拟产品交易平台行业软件M官方商家登陆版
查看南沙国地税业务一网通办平台行业软件M官方最新版
查看风吹雨互赞系统行业软件M1.0
查看水环境模型工具箱行业软件.22M1.0.0.55
查看创易二维码生成器行业软件Mv2.3最新版
查看蓝格鞋帽销售管理系统行业软件M1.0.0.0
查看EOCFTP升级工具行业软件M2.0.6
查看尔雅超星通识课后台自动刷课器行业软件M2017最新版
查看排名易淘宝刷流量软件行业软件Mv3.57.1.0 官方免费版
查看虎牙直播去延迟软件行业软件M
查看点击查看更多