网钛之使用熊猫采集器采集文章类网站 具体方法文章有详细教程
最新使用网钛新做了个站,由于栏目较多,来不及粘贴复制,就准备采集。可惜网钛内置的采集器太过简单,无法采集复杂的内容,本来想使用火车头采集的,但是懒得写规则,就百度找一个可视化的采集器用用。
测试了很多软件,发现熊猫采集器是真的不错,采集简单,发布简单,还能定时采集,最重要的一点是免费,哈哈!
心动了吧,那我就教教大家怎么使用熊猫采集器,并且发布到网钛搭建的程序。这里以采集网钛官网“新闻资讯”栏目为案列。
下载安装就先省略,想要下载熊猫采集器的点击这里下载:熊猫采集器下载
一、打开熊猫采集器后,基本就是如下画面了,左边的项目是我配置好的,你可以忽略。
二、点击“新建项目”,这里有三种模式,不过教大家(标准)模式,因为其它两种太过简单。
三、在弹出的窗口中,1随便起个项目名称;2是你项目需要保存的位置;3是采集数据存储方式,一般默认即可;4如果需要定时采集,按需选择;5建议使用跳过已采集数据;6是帮助,有什么不懂的,点击这里查看帮助。完成后,点击下一步设置。
四、在1处填写需要采集的目标网站列表地址,然后点击进行预分析,然后点击是,等待分析,成功后点击下一步,再下一步设置。
五、点击新增模板--》开始分析--》弹出的框选择否。
六、在分析出来的模板页面点击相应列,右边红框出现需要采集的字段,在下方采集该项处打钩--》采集存储表--》选择你想保存为什么。然后重复该步骤,把需要采集的内容都选择好。(注意:如果正文被分为多段,需要勾选复合语句)
七、然后点击确认,再点确认。
这样我们采集模块就写好了,接下来就是发布到网站了。
八、在刚写的项目上右键--》数据发布--》数据模拟发布设置。在弹出的对话框中:1打钩;2随便你写什么名字;3选择发布模式;4选择发布间隔时间。
九、点击登录设置,1填写你的网站后台地址后;2点击访问,在右侧登录框登录一次后台,如果有验证码登录,请先进入后台关闭;3获取cookie,如果5出现信息,点击4验证cookie,查看是否能登陆后台,不能请重新操作。
十、点击发布设置,在1处填写发布地址,网钛发布地址为:http://你的域名/后台地址/info.php?mudi=add;然后,访问并分析,此时下方列表出现对应字段,右边出现后台对应字段提示。
十一、如果我们想发布标题,下方参数找到名称theme,点击从采集结果中取值,选择采集的标题,确认。总之,你想发布什么内容,在参数值填写对应值即可,不知道参数对应什么,可以参考右侧视图。
完成后,点击确定,此时右键该项目--》运行该项目--》等采集完后--》右键数据发布即可。