畅想网络是一支年轻的网站设计与开发的精英团队,专业于网站开发、网站建设、网站排名、域名注册与网络服务器租用的互联网企业……

鄄城畅想网络宾哥整理:科汛CMS采集使用教程

鄄城畅想网络   2017年04月12日

  相信有很多朋友都像鄄城畅想网络的宾哥一样使用科汛系统, 今天刚好有一位朋友请教宾哥如何用科汛采集信息, 宾哥也找了找,的确没有看到有采集的教程, 宾哥本着授人与鱼不如授人于渔的态度, 宾哥特意连夜(宾哥今天加班下班回到家,就八点多钟了哦)写了一个科汛采集的教程,以供各位新手朋友学习,也供各位老鸟们指点。


  本教程以kesioncmsX1.5为例


  第一步:应用-采集插件-采集项目管理:(如图1)

  

blob.png

图1


  完成图1中的操作后,会出现 图2中的表单,宾哥标识出来的,是必填的,尤其是编码,需要根据需要采集的网站来选择, 宾哥以搜狐国内社会新闻为例设置采集规则

blob.png

图2

  然后点一步,又给我们一个表单,,我们需要根据网站的规则来让程序抓取需要采集的范围, 


  宾哥以搜狐国内社会新闻为例设置采集规则,网址 http://news.sohu.com/guoneixinwen.shtml 我们要采集的是图3中的文章列表,


blob.png

图3



 鼠标放在网页的空白位置 ,右击,查看源代码 (宾哥使用的是360浏览器,)如图4所示

blob.png

图4


查看源代码之后,我们看到的全是HTML, 无从下手, 不过, 还是有技巧的,那是找列表开始的地方,我们看到列表上方有一个世态万象 四个字 我们就从HTML里面搜这几个字, 用浏览器快捷键 Ctrl+F 来找, 一定要记住这个快捷键,因为以后会经常用到 , 如宾哥浏览器, 找到了,而且四个字,是唯一的, 就好找好了,

blob.png

图5



blob.png

图6

我们搜 <div class="article-list"> 发现不是唯一的, 而且发现每一个列表项中,都有这一段代码, 只能选择上一层容器,<div class="new-article">

 搜索发现, 这是唯一的, 那这一个,就是我们的列表


所以,  在选择列表范围的时候,应该是如图7中所示, 

 

blob.png

 图7

  细心的朋友会就问了,我并没有告诉大家,如何找列表索引分页标签, 宾哥看了一下搜狐的,是JS控制,让页面减少或者增加,所以,宾哥就抖了个机灵,直接找点了两下下一页,发现页面,是递减的, 这样,心里就放心了, 按照批量生成的方法,设置了一个范围 , 不过,建议大家,第一次采集的时候,可以这么操作,以后再采集的话, 直接把列表索引分页关掉,也就是选择不作设置 , 便可以了, 看到这里, 点一下步,


blob.png

图8


图8中 我们看到, 有我们要采集的新闻, 由于宾哥用的笔记本, 屏小无法截图更多的内容, 大家就将就着看吧, , 主要是需要上面获取到每一篇文章的链接, 这里就不是找唯一性了,而是要找每一个文章容器里面的URL信息,这时,我们要再回到要采集的文章列表页的源代码 ,如图9


blob.png

图9

  红线中标出来的,就是他的链接信息, 但我们发现,下面还有一个,不然, 选取的时候,这篇文章,就会采集两次, 所以,选择一面的那一个,带有阅读全文的这一个,因为带着阅读全文 就会找到这一个文章的唯一性了,我们要选择的是http:~~~ .shtml, 所以, 就是比引号之内的,如图10


blob.png

图10


  所以,我们的文章列表整理出来采集规则是,如图11 然后下一步,检查一下,是不是可以抓取到文章的URL了。

blob.png

图11

下一步以后,我们可以看图12中,除标题和内容外,还有时间作者等,非必选项,大家可根据自己需求来选择, 而左下角,也有我们上一步骤的测试结果,


blob.png

图12


  我们打开任意一篇网站文章,打开这篇文章,依然是查看源代码,来设置我们要采集他的标题,内容的规则,


在源代码中,搜文章标签,我们发现,出现两条信息, 第一条, 肯定是title信息, 可以忽略,也可以在这里设置规则 ,但是不建议,因为有一些网站这里的文字是一样的,这样,采回来的文章标题 ,可就是一样的喽, 

如我设置的规则 图13

blob.png

图13

点以下一步以后,就会发现,我们抓取到这篇文章的信息了,如图14

blob.png

图14

然后一下往下滚动浏览器,找到下面,有上一步和下一步,我们点下一步,就到了我们设置规则 的最后一步了,如图14 

blob.png

图14


    说明,在图14中, 除了上部分根据自己的需要来设置的以外, 还有比较重要的,就是标签过滤, 可以参考我的,如果大家需要采集别人的FLASH文件 ,就把Object给取消,   在采集选项中, 建议把保存图片给选上, 其它的,都根据 自己的需要设置了。还有入库选项这一块, 建议选择审核我们保证测试一下,值当注意的是,如果你不审核,直接入库,一定要选“立即写入主数据库并直接生成内容页” 因为这一项会自动生成静态页的, 如不选这一项, 你是打不开采集过来的文章的。


采集方法介绍


设置好规则了, 肯定要采集新闻了,怎么采集呢,其实,这个就是一键式的了

如图15

blob.png

图15


  直接点击采集, 就可以了, 细心的朋友 ,又会看到一个克隆 , 其实,这种是方便同一风格的网站栏目设置 ,比如,我可以采集搜狐国内时政, 他们用的模板,是同一个的,这样,我只需要改一下名称, 修改一下要采集的栏目URL及分页的URL规则,就可以了。


  大家都学会了吗? 趁着搜狐还没有改版之前, 赶紧试着设置一下吧~~~


  本文章为鄄城畅想网络科技有限公司宾哥所写, 若要采集, 请注意来源哦, 也不妄让宾哥白天上班,加班下班后 又整理的这个教程的辛苦~~


更多资讯请关注公司网址:http://www.jccxwl.com

关于畅想服务范围套餐标准询求提交联系我们网站地图百度新闻维护工单技术交流
Copyright 2009-2015 Powered by Jccxwl.COM All Rights Reserved.
鄄城畅想网络科技有限公司 版权所有
鲁公网安备 37172602000001号  鲁ICP备15031242号