问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

抓取网页数据怎么保存到数据库 php

发布网友 发布时间:2022-04-22 09:55

我来回答

4个回答

热心网友 时间:2022-04-07 10:54

给一个例子你看看吧.

if($pro_list_contents=@file_get_contents('http://www.phoenix-luxury.com/louis-vuitton-c-82.html'))
{
preg_match_all("/<td width=\"50%\" valign=\"top\">(.*)<td width=\"10\"><img src=\"images\/spacer.gif\"/isU", $pro_list_contents, $pro_list_contents_ary);
for($i=0; $i<count($pro_list_contents_ary[1]); $i++)
{
preg_match_all("/<a href=\"(.*)\"><img src=\"(.*)\".*<span>(.*)<\/span>/isU", $pro_list_contents_ary[1][$i], $url_img_price);
$url=addslashes($url_img_price[1][0]);
$img=str_replace(' ', '20%', trim('http://www.phoenix-luxury.com/'.$url_img_price[2][0]));
$price=(float)str_replace('$', '', $url_img_price[3][0]);

preg_match_all("/<a class=\"ml1\" href=\".*\">(.*)<\/a>/isU", $pro_list_contents_ary[1][$i], $proname_ary);
$proname=addslashes($proname_ary[1][0]);

include("inc/db_connections.php");
$rs=mysql_query("select * from pro where Url='$url' and CateId='{$cate_row['CateId']}'"); //是否已经采集了
if(mysql_num_rows($rs))
{
echo "跳过:{$url}<br>";
continue;
}

$basedir='/u_file/pro/img/'.date('H/');
$save_dir=Build_dir($basedir); //创建目录函数
$ext_name = GetFileExtName( $img ); //取得图片后辍名
$SaveName = date( 'mdHis' ) . rand( 10000, 99999 ) . '.' . $ext_name;
if( $get_file=@file_get_contents( $img ) )
{
$fp = @fopen( $save_dir . $SaveName, 'w' );
@fwrite( $fp, $get_file );
@fclose( $fp );
@chmod( $save_dir . $SaveName, 0777 );

@copy( $save_dir . $SaveName, $save_dir . 'small_'.$SaveName );

$imgpath=$basedir.'small_'.$SaveName;
}
else
{
$imgpath='';
}

if($pro_intro_contents=@file_get_contents($url))
{
preg_match_all("/<\/h1>(.*)<\/td><\/tr>/isU", $pro_intro_contents, $pro_intro_contents_ary);
$p_contents=addslashes(str_replace('src="', 'src="http://www.phoenix-luxury.com', $pro_intro_contents_ary[1][0]));
$p_contents=SaveRemoteImg($p_contents, '/u_file/pro/intro/'.date('H/')); //把远程html代码里的图片保存到本地
}

$t=time();

mysql_query("insert into pro(CateId, ProName, PicPath_0, S_PicPath_0, Price_0, Contents, AddTime, Url) values('{$cate_row['CateId']}', '$proname', '$imgpath', '$img', '$price', '$p_contents', '$t', '$url')");

echo $url.$img.$cate."<br>\r\n";
}
}

热心网友 时间:2022-04-07 12:12

抓取网页是我的强项,
呵呵
给你几点建议
1、将整个文章的编码转换成你数据库的默认编码,否则会报错。
2、用正则表达式或者字符串截取等方式,将需要的内容分离出来
3、编制SQL语句,
最好,呵呵,当然,就是执行SQL了。
如果还有图片,就需要把图片的链接,转换成你自己的链接在存储。
或者只保存图片文件名也行。
在显示的时间设置图片路径之类的
呵呵,希望能够帮到你。

热心网友 时间:2022-04-07 13:47

要这干什么,批量盗取网页???

热心网友 时间:2022-04-07 15:38

这个用正则吧
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
八月中国最凉快的地方 八月份哪里最凉快,去哪旅游好?美丽的地方 乱字同韵字是什么意思 华硕笔记本电脑触摸板怎么开笔记本电脑触摸板怎么开启和关闭_百度知 ... 陕西职务侵占案立案准则 结婚后我的恋情维系了十年,怎么做到的? 玉米仁子饭产自哪里 中国期货交易所的交易品种有哪些? 历史要怎么读,有啥诀窍 高中历史诀窍 PHP 要保存当前页面的值!要怎么写才能保存!!!! php保存网页上的数据为txt的代码?什么? php网页的视频怎么保存啊? 横批是虎虎生威的对联是什么? 求一副女生宿舍对联,上下联都在七字以内(七字最好,五字也行),含有旭,曼,云,颖,四个字, 适合学生寝室的对联 免费起名 求一副女生宿舍对联 最好有 月 茹 玎 妤这四个字 女生宿舍对联创意怎么写? 女生宿舍对联) 宿舍七字对联 女生宿舍对联有哪些? 锻炼记录 如何填写体育训练过程简要记录 求适合女生宿舍的对联 体育运动代表队训练记录 急求 急求 天天跳绳中怎么删除训练记录 2020中小学生“望远心远″锻炼记录卡怎么写? 谁知道适合女生寝室的对联,文雅一点的? 如何保存PHP网页 php 生成的网页如何才能保存为word文档? php 把当前页面另存为HTML格式。。 在网页上修改代码后如何保存 PHP如何接收动态数据保存并实时显示到网页上? php怎么抓取其它网站数据 PHP抓取网页指定内容 怎么在PHP网页上点击数据出现文本框并可以修改和提交,用AJAX把数据更新到数据库同时刷新页面,求代码 在网页制作中,怎么实现网页内容的保存? php里面的文字怎么存放啊 PHP如何将页面显示的内容写入文件 php用什么语言写 PHP保存提交的数据保存的本地的一个文本里面 周公解梦 梦见最亲的人自杀 在线编辑,保存网页的php源码 做梦梦到家人死掉 周公解梦-梦见家人死了 电脑如何设置字体大小 请问电饭锅煮米饭,水和米的比例是多少啊? 华为电脑字体大小怎么设置