问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

php如何抓取网页中的数据

发布网友 发布时间:2022-04-06 02:03

我来回答

2个回答

懂视网 时间:2022-04-06 06:24

推荐:《PHP视频教程》

PHP网络爬虫实践:抓取百度搜索结果,并分析数据结构

百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水。代码如下:

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QLQueryList;
//进入网页
$jar = new GuzzleHttpCookieCookieJar;
$client = new GuzzleHttpClient(['cookies' => true]);
$ql = $client->request('GET', 'https://www.baidu.com', [
 'cookies' => $jar
]);
if($ql->getStatusCode()!=200){
 echo '网站状态不正常';die;
}
echo $ql->getBody();

6b0d42b0ac5af250f8026e0f3ff8423.png

百度直接拦截了,进了跳转页面,我试试加个浏览器头文件,再试试。

修改后的header如下:

$ql = $client->request('GET', 'https://www.baidu.com', [
 'cookies' => $jar,
 'headers' => [
 'Accept-Encoding' => 'gzip, deflate, br',
 'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
 'Accept-Language' => 'zh-CN,zh;q=0.9,en;q=0.8',
 'Cache-Control' => 'no-cache',
 'Connection' => 'keep-alive',
 'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
]
]);

我测试了下,网站打开了。

8e377d524c553551086d93d9f40c90b.png

我们继续,输入关键词,并搜索,结果发现被安全拦截了,所以我感觉直接用GuzzleHttp搞不动,于是我继续我的神器:jaeger/querylist和jaeger/querylist-puppeteer。

安装步骤:

1.安装依赖

在这之前,要先启用php的proc_open函数,否则无法安装完整

composer install jaeger/querylist
composer install jaeger/querylist-puppeteer

2.安装nodejs

yum install nodejs

3.安装npm

4.安装@nesk/puphpeteer

npm install @nesk/puphpeteer

5.PHP启用proc_open

代码如下:

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QLQueryList;
use QLExtChrome;
$ql = QueryList::getInstance();
// 注册插件,默认注册的方法名为: chrome
$ql->use(Chrome::class);
 $ql->chrome(function ($page,$browser) {
 $page->goto('https://www.baidu.com');
 // 这里故意设置一个很长的延长时间,让你可以看到chrome浏览器的启动
 sleep(3);
 //输入关键词
 $wd = '简庆旺博客';
 $page->type("input[id='kw']",$wd);
 sleep(1);
 //点击搜索
 $page->click("input[type='submit']");
 //等待搜索结果
 sleep(3);
 //获取结果
 $html = $page->content();
 //用jquery选择器抽取结果
 $rules = array(
 'title'=>['#content_left h3 a','text'],//标题
 'url'=>['#content_left h3 a','href'],//跳转网址
 'description'=>['div .c-abstract','text'],//描述
 );
 $ql = QueryList::html($html);
 $rt = $ql->rules($rules)->query()->getData();
 //如果有需要,可以把$rt入库,以及做其他操作
 sleep(10);
 $browser->close();
 // 返回值一定要是页面的HTML内容
 return $html;
},[
 'headless' => false, // 启动可视化Chrome浏览器,方便调试
 'devtools' => false, // 打开浏览器的开发者工具
])->find('title')->text();

$rt是我的结果集合,打印下,如下

b8484929df81399679d8932930690fd.png

57c970e6dcf42d1a286ea23682e0591.png

热心网友 时间:2022-04-06 03:32

sybase_connect连上数据库。
语法: int sybase_connect(string [servername], string [username], string [password]);
返回值: 整数函数种类: 数据库功能 本函数用来打开与 Sybase 数据库的连接。
参数 servername 为欲连上的数据库服务器名称。
参数 username 及 password 可省略,分别为连接使用的帐号及密码。
使用本函数需注意早点关闭数据库,以减少系统的负担。
连接成功则返回数据库的连接代号,失败返回 false 值。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
招聘和招募和招收区别 人力资源中招聘与招募的区别 招聘与招募有啥区别 夏日繁星公众号可信吗 关于“红杏出墙”的古诗词描写有哪些 需要考多少分才过雅思 雅思考试多少分才可以算及格 雅思考试多少分算及格 雅思的总分多少分及格 雅思一般考多少分能合格 如何使用php模拟获取百度搜索结果并和百度 PHP正则表达式获得中间的中文文字 在PHP中,匹配中文utf8的正则表达式 php用正则表达式判断中文数字 php 正则表达式匹配 取得中文,如:中心东路 ;取得坐标,如 -2639.848633,-2544.598145 求php正则匹配 中文和数字和英文和一些符号 的表达式 PHP正则匹配出汉字 php 正则匹配 两端中文之间内容 PHP正则表达式验证是否含有中文 php 求用正则匹配中文以及标点符号 php匹配中文的正则怎么写? PHP的正则表达式中使用中文(并匹配中文)的问题,原串为UTF8 PHP正则匹配中文 PHP preg_match 函数怎么匹配中文? php正则怎么匹配中文冒号 PHP正则提取中文部分内容,怎么实现呀? php怎么将中文利用正则表达式匹配出来 php正则表达式匹配一段中文,中间有换行,空白,应该怎么写 PHP正则表达式中怎么匹配汉字啊 - 技术问答 php中如何用正则表达式匹配中文字符呢? php怎么抓取其它网站数据 用php代码获取百度搜索后页面里面的10个链接 PHP怎样抓取网页代码中动态显示的数据 如何利用php抓取网站动态产生的数据 PHP获取网站中的信息并存入数据库 php怎么实现相关内容检索啊? php抓取网页指定的内容 PHP实现数据结构几个自定义PHP函数 php数据分析 php 抓取后怎么得到里面的具体数据 php中想要抓取网页中某一段的数据的代码 PHP二分查找算法的实现方法示例 更新ios14.2需要多少流量 苹果14系统占多少内存 安装ios14需要多少内存 64g要不要升级ios14 16g的6sp更新ios14还有多少容量? 32g更新ios14是剩下多少g 苹果15.2系统需要多少流量? ios系统每次更新一次要占用多少内存?