有没有php开发的文章采集发布器

发布网友发布时间：2023-07-19 13:04

共1个回答

热心网友时间：2024-12-02 16:34

数据的采集，大部分都是用正则表达式来完成的，我简单地介绍下如何实现采集的思路.这里说的是php的实现.一般是本机运行，放到空间上是不明智的，因为不但很耗资源还需要支持远程抓取函数，比如file_get_contents($urls)file($url)等等.
　　1，文章列表页面的自动切换，以及文章路径的获得.
　　2，获得：标题，内容
　　3，入库
　　4，问题
　　1，文章列表页面的自动切换，以及文章路径的获得.
　　a，列表页面的自动切换一般依赖动态页面来实现.比如
　　http://www.phpfirst.com/foru ... d=1&page=$i
　　可以在后面利用$i的自动增加或范围来实现，比如$i++;
　　也可以像penzi演示的那个一样，要从第几页到第几页，代码方面控制$i的范围就可以了.
　　b，文章路径的获得分需要填正则和无需填正则2种：
　　1)无需填正则就是获得上面的文章列表页面的所有连接
　　但是最好对连接进行过滤，处理---判断重复连接，只留一个，处理相对路径，变成绝对路径.比如../ 和./等.
　　下面是我写的实现函数：
　　PHP:

　　//$e=clinchgeturl("http://phpfirst.com/forumdisplay.php?fid=1");
　　//var_mp($e);
　　function clinchgeturl($url)
　　{
　　//$url="http://127.0.0.1/1.htm";
　　//$rootpath="http://fsrootpathfsfsf/yyyyyy/";
　　//var_mp($rrr);
　　if(eregi((.)*[.](.)*,$url)){
　　$roopath=split("/",$url);
　　$rootpath="http://".$roopath[2]."/";
　　$nnn=count($roopath)-1;for($yu=3;$yu<$nnn;$yu++){$rootpath.=$roopath[$yu]."/";}
　　// var_mp($rootpath); //http: ,,127.0.0.1,xnml,index.php
　　}
　　else{$rootpath=$url; //var_mp($rootpath);
　　}
　　if(isset($url)){
　　echo "$url 有下列裢接：
";
　　$fcontents = file($url);
　　while(list(,$line)=each($fcontents)){
　　while(eregi((href[[:space:]]*=[[:space:]]*"?[[:alnum:]:@/._-]+[?]?[^"]*"?),$line,$regs)){
　　//$regs[1] = eregi_replace((href[[:space:]]*=[[:space:]]*"?)([[:alnum:]:@/._-]+)("?),"",$regs[1]);
　　$regs[1] = eregi_replace((href[[:space:]]*=[[:space:]]*["]?)([[:alnum:]:@/._-]+[?]?[^"]*)(.*)[^"/]*(["]?),"",$regs[1]);
　　if(!eregi(^http://,$regs[1])){
　　if(eregi(^..,$regs[1])){
　　// $roopath=eregi_replace((http://)?([[:alnum:]:@/._-]+)[[:alnum:]+](.*)[[:alnum:]+],"http://",$url);
　　$roopath=split("/",$rootpath);
　　$rootpath="http://".$roopath[2]."/";
　　//echo "这是根本d ："." ";
　　$nnn=count($roopath)-1;for($yu=3;$yu<$nnn;$yu++){$rootpath.=$roopath[$yu]."/";}
　　//var_mp($rootpath);
　　if(eregi(^..[/[:alnum:]],$regs[1])){
　　//echo "这是../目录/ ："." ";
　　//$regs[1]="../xx/xxxxxx.xx";
　　// $rr=split("/",$regs[1]);
　　//for($oooi=1;$oooi
　　$rrr=$regs[1];
　　// {$rrr.="/".$rr[$oooi];
　　$rrr = eregi_replace("^[.][.][/]",,$rrr); //}
　　$regs[1]=$rootpath.$rrr;
　　}
　　}else{
　　if(eregi(^[[:alnum:]],$regs[1])){ $regs[1]=$rootpath.$regs[1]; }
　　else{ $regs[1] = eregi_replace("^[/]",,$regs[1]); $regs[1]=$rootpath.$regs[1]; }
　　}
　　}
　　$line = $regs[2];
　　if(eregi((.)*[.](htm|shtm|html|asp|aspx|php|jsp|cgi)(.)*,$regs[1])){
　　$out[0][]=$regs[1]; }
　　}
　　}
　　}for ($ouou=0;$ouou
　　{
　　if($out[0][$ouou]==$out[0][$ouou+1]){
　　$sameurlsum=1;
　　//echo "sameurlsum=1:";
　　for($sameurl=1;$sameurl
　　if($out[0][$ouou+$sameurl]==$out[0][$ouou+$sameurl+1]){$sameurlsum++;}
　　else{break;}
　　}
　　for($p=$ouou;$p
　　{ $out[0][$p]=$out[0][$p+$sameurlsum];}
　　}
　　}
　　$i=0;
　　while($out[0][++$i]) {
　　//echo $root.$out[0][$i]." ";
　　$outed[0][$i]=$out[0][$i];
　　}
　　unset($out);
　　$out=$outed; return $out;
　　}
　　?>
　　上面的东西只能用zend，不然写出来就不大好看了：(
　　得到所有唯一的连接后，放到数组
　　2)需要填正则的处理
　　如果要准确地获得需要的文章连接，那就用这个办法了。