鄄城畅想网络宾哥整理：科汛CMS采集使用教程

鄄城畅想网络　　　2017年04月12日

　　相信有很多朋友都像鄄城畅想网络的宾哥一样使用科汛系统，今天刚好有一位朋友请教宾哥如何用科汛采集信息，宾哥也找了找，的确没有看到有采集的教程，宾哥本着授人与鱼不如授人于渔的态度，宾哥特意连夜（宾哥今天加班下班回到家，就八点多钟了哦）写了一个科汛采集的教程，以供各位新手朋友学习，也供各位老鸟们指点。

　　本教程以kesioncmsX1.5为例

　　第一步：应用－采集插件－采集项目管理：（如图1）

图1

　　完成图1中的操作后，会出现图2中的表单，宾哥标识出来的，是必填的，尤其是编码，需要根据需要采集的网站来选择，　宾哥以搜狐国内社会新闻为例设置采集规则

图2

　　然后点一步，又给我们一个表单，，我们需要根据网站的规则来让程序抓取需要采集的范围，　

　　宾哥以搜狐国内社会新闻为例设置采集规则，网址 http://news.sohu.com/guoneixinwen.shtml 我们要采集的是图3中的文章列表，

图3

　鼠标放在网页的空白位置　，右击，查看源代码　（宾哥使用的是360浏览器，）如图4所示

图4

查看源代码之后，我们看到的全是HTML，无从下手，不过，还是有技巧的，那是找列表开始的地方，我们看到列表上方有一个世态万象四个字我们就从HTML里面搜这几个字，用浏览器快捷键 Ctrl+F 来找，一定要记住这个快捷键，因为以后会经常用到，如宾哥浏览器，找到了,而且四个字，是唯一的，就好找好了，

图5

图6

我们搜 <div class="article-list"> 发现不是唯一的，而且发现每一个列表项中，都有这一段代码，只能选择上一层容器，<div class="new-article">

搜索发现，这是唯一的，那这一个，就是我们的列表

所以，　　在选择列表范围的时候，应该是如图7中所示,

　图7

　　细心的朋友会就问了，我并没有告诉大家，如何找列表索引分页标签，宾哥看了一下搜狐的，是JS控制，让页面减少或者增加，所以，宾哥就抖了个机灵，直接找点了两下下一页，发现页面，是递减的，这样，心里就放心了，按照批量生成的方法，设置了一个范围，不过，建议大家，第一次采集的时候，可以这么操作，以后再采集的话，直接把列表索引分页关掉，也就是选择不作设置，便可以了，看到这里，点一下步，

图8

图8中我们看到，有我们要采集的新闻，由于宾哥用的笔记本，屏小无法截图更多的内容，大家就将就着看吧，，主要是需要上面获取到每一篇文章的链接，这里就不是找唯一性了，而是要找每一个文章容器里面的URL信息，这时，我们要再回到要采集的文章列表页的源代码，如图9

图9

　　红线中标出来的，就是他的链接信息，但我们发现，下面还有一个，不然，选取的时候，这篇文章，就会采集两次，所以，选择一面的那一个，带有阅读全文的这一个，因为带着阅读全文就会找到这一个文章的唯一性了，我们要选择的是http:~~~ .shtml，所以，就是比引号之内的，如图10

图10

　　所以，我们的文章列表整理出来采集规则是，如图11　然后下一步，检查一下，是不是可以抓取到文章的URL了。

图11

下一步以后，我们可以看图12中，除标题和内容外，还有时间作者等，非必选项，大家可根据自己需求来选择，　而左下角，也有我们上一步骤的测试结果，

图12

　　我们打开任意一篇网站文章，打开这篇文章，依然是查看源代码，来设置我们要采集他的标题，内容的规则，

在源代码中，搜文章标签，我们发现，出现两条信息，　第一条，　肯定是title信息，可以忽略，也可以在这里设置规则，但是不建议，因为有一些网站这里的文字是一样的，这样，采回来的文章标题，可就是一样的喽，

如我设置的规则图13

图13

点以下一步以后，就会发现，我们抓取到这篇文章的信息了，如图14

图14

然后一下往下滚动浏览器，找到下面，有上一步和下一步，我们点下一步，就到了我们设置规则的最后一步了，如图14

图14

　　说明，在图14中，除了上部分根据自己的需要来设置的以外，还有比较重要的，就是标签过滤，可以参考我的，如果大家需要采集别人的FLASH文件，就把Object给取消，在采集选项中，建议把保存图片给选上，其它的，都根据自己的需要设置了。还有入库选项这一块，建议选择审核我们保证测试一下，值当注意的是，如果你不审核，直接入库，一定要选“立即写入主数据库并直接生成内容页” 因为这一项会自动生成静态页的，如不选这一项，你是打不开采集过来的文章的。

采集方法介绍

设置好规则了，肯定要采集新闻了，怎么采集呢，其实，这个就是一键式的了

如图15

图15

　　直接点击采集，就可以了，细心的朋友，又会看到一个克隆，其实，这种是方便同一风格的网站栏目设置，比如，我可以采集搜狐国内时政，他们用的模板，是同一个的，这样，我只需要改一下名称，修改一下要采集的栏目URL及分页的URL规则，就可以了。

　　大家都学会了吗？　趁着搜狐还没有改版之前，　赶紧试着设置一下吧～～～

　　本文章为鄄城畅想网络科技有限公司宾哥所写，　若要采集，　请注意来源哦，　也不妄让宾哥白天上班，加班下班后　又整理的这个教程的辛苦～～

更多资讯请关注公司网址：http://www.jccxwl.com

鄄城畅想网络宾哥整理：科汛CMS采集使用教程

相关内容