火车头采集器的功能
火车采集器(LocoySpider)是一款功能强大且易于上手的专业采集软件,强大的内容采集和数据导入功能能将您采集的任何网页数据发布到远程服务器,自定义用户cms系统模块,不管你的网站是什么系统,都有可能使用上火车采集器,系统自带的模块文件支持:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz论坛,phpcms文章,phparticle文章,LeadBBS论坛,魔力论坛,Dedecms文章,Xydw文章,惊云文章等的模块文件。更多cms模块请自己参照制作修改,也可到官方网站与大家交流制作。 同时您也可以使用系统的数据导出功能,利用系统内置标签,将采集到的数据对应表的字段导出到本地任何一款Access,MySql,MS SqlServer内。LocoySpider采用Visual C#编写,可独立在Windows2008下运行(windows2003 自带.net1.1框架。最新版的火车采集器是2008版,需要升级到.net2.0框架才能使用),如您在Windows2000、Xp等环境下使用,请先到微软官方下载一个.net framework2.0或更高环境组件。火车采集器V2009 SP2 04月29日 在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对数据进行处理。1、不做任何处理。因为数据本身是保存在数据库的(access、db3、mysql、sqlserver),您如果只是查看数据,直接用相关软件打开查看即可。2、Web发布到网站。程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。3、直接入数据库。您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。4、保存为本地文件。程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。 火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。这两个过程是可以分开的。1、采集数据,这个包括采集网址,采集内容。这个过程是获得数据的过程。我们做规则,在采的过程中也算是对内容做了处理。2、发布内容就是将数据发布到自己的论坛,CMS的过程,也是实现数据为已有的过程。可以用WEB在线发布,数据库入库或存为本地文件。具体的使用其实是很灵活的,可以根据实际来决定。比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。总之,具体过程由您而定,火车采集器的强大功能之一也就是体现在灵活中。
火车头采集器怎么用?
软件程序的获取:大家可以从百度中搜索“火车头采集器”,并进入对应官方来获取程序的最新版本下载地址。当然也可以从小编所提供的网盘地址中获取最新版本程序:请点击输入图片描述请点击输入图片描述2安装并运行“火车头采集器”程序,在弹出的登陆界面中直接点击“登陆”按钮就可以以免费版身份登陆。请点击输入图片描述3在程序主界面中,点击“新建”下拉箭头,从中选择“任务”项。请点击输入图片描述4在弹出的窗口中,输入“任务名”,同时点击“起始网址”栏目右侧的“添加”按钮。请点击输入图片描述5接下来就极为重要的一步,就是对要进行采集的网站进行分板,对所采取的网站中各片文章的URL进行综合分析并找出规律,最后按如图进行填写。请点击输入图片描述6然后切换至“第二步:采集内容规则”选项卡中,我们需要对网页内容进行分板。在此以“搜狗浏览器”为例,右击要进行分析的网页,从弹出的菜单中选择“审查元素”项。请点击输入图片描述7在“开发式模式”界面中,点击“选择页面中的一个元素去透视”按钮,接着点击“标题”内容,此时就可以在“开发者”窗口中显示标题所对应的标签,此例为“h2"。请点击输入图片描述8接下来在”采集内容规则“界面中,点击“添加”按钮来添加“标题”项,或者直接双击“标题”项进行修改。在弹出的界面中,勾选”前后截取“,将设置前后辍分别为"“、”".请点击输入图片描述9利用同样的方法添加其它采集内容的规则。切换至“第三步:发布内容设置”选项卡,勾选“启用 方式二”,并进行如图设置。请点击输入图片描述10最后从任务列表中,勾选要采集的内容,点击“开始”按钮就可以按规则采集网站中的网页内容啦。请点击输入图片描述如果还有啥问题,请留言或者私信,如果回答的还算可以,请列为最佳答案
火车头采集器 如何应用,请大家写出一个一个的步骤O(∩_∩)O谢谢
1、首先讲一讲网站结构,通常网站结构为树形结构,一个网站主要包以下几种页面:首页、栏目页、文章页,其结构如下图。其次讲一讲火车头采集原理,火车头的运行需要一套规则来指定该如何采集所需数据,即需要编写火车头采集规则,编写采集规则也是新手最头痛的问题。火车头采集器通常通过网址抓取网站返回的源代码,然后在源代码中提取需要的信息。因此,采集数据需要先采集网址,然后再采集数据。2、下面开始编写采集规则:运行LocoyPlatform.exe3、在左侧“任务列表树”选择一个分组点击右键,选择“新建任务”弹出新建任务对话框。填写任务名,网站编码一般选择自动即可。4、添加起始网址填写“第一步:采集网址规则”这里需要按照网站的树形结构逐级获取下一级结构的网址,直至获取到内容页的网址。先填写起始网址,通常为目标站首页地址。点击“添加”,在单条网址处填上火车头博客的首页地址,然后依次点击“添加” ->“完成”。5、编写“多级网址获取”规则这里需要先在起始地址页面找到所有需要采集的栏目页的代码区域,先查看起始页地址的源码,找到如图所示代码区域: