问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

如何使用php模拟获取百度搜索结果并和百度

发布网友 发布时间:2022-04-28 03:00

我来回答

3个回答

懂视网 时间:2022-04-28 07:21

推荐:《PHP视频教程》

PHP网络爬虫实践:抓取百度搜索结果,并分析数据结构

百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水。代码如下:

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QLQueryList;
//进入网页
$jar = new GuzzleHttpCookieCookieJar;
$client = new GuzzleHttpClient(['cookies' => true]);
$ql = $client->request('GET', 'https://www.baidu.com', [
 'cookies' => $jar
]);
if($ql->getStatusCode()!=200){
 echo '网站状态不正常';die;
}
echo $ql->getBody();

6b0d42b0ac5af250f8026e0f3ff8423.png

百度直接拦截了,进了跳转页面,我试试加个浏览器头文件,再试试。

修改后的header如下:

$ql = $client->request('GET', 'https://www.baidu.com', [
 'cookies' => $jar,
 'headers' => [
 'Accept-Encoding' => 'gzip, deflate, br',
 'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
 'Accept-Language' => 'zh-CN,zh;q=0.9,en;q=0.8',
 'Cache-Control' => 'no-cache',
 'Connection' => 'keep-alive',
 'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
]
]);

我测试了下,网站打开了。

8e377d524c553551086d93d9f40c90b.png

我们继续,输入关键词,并搜索,结果发现被安全拦截了,所以我感觉直接用GuzzleHttp搞不动,于是我继续我的神器:jaeger/querylist和jaeger/querylist-puppeteer。

安装步骤:

1.安装依赖

在这之前,要先启用php的proc_open函数,否则无法安装完整

composer install jaeger/querylist
composer install jaeger/querylist-puppeteer

2.安装nodejs

yum install nodejs

3.安装npm

4.安装@nesk/puphpeteer

npm install @nesk/puphpeteer

5.PHP启用proc_open

代码如下:

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QLQueryList;
use QLExtChrome;
$ql = QueryList::getInstance();
// 注册插件,默认注册的方法名为: chrome
$ql->use(Chrome::class);
 $ql->chrome(function ($page,$browser) {
 $page->goto('https://www.baidu.com');
 // 这里故意设置一个很长的延长时间,让你可以看到chrome浏览器的启动
 sleep(3);
 //输入关键词
 $wd = '简庆旺博客';
 $page->type("input[id='kw']",$wd);
 sleep(1);
 //点击搜索
 $page->click("input[type='submit']");
 //等待搜索结果
 sleep(3);
 //获取结果
 $html = $page->content();
 //用jquery选择器抽取结果
 $rules = array(
 'title'=>['#content_left h3 a','text'],//标题
 'url'=>['#content_left h3 a','href'],//跳转网址
 'description'=>['div .c-abstract','text'],//描述
 );
 $ql = QueryList::html($html);
 $rt = $ql->rules($rules)->query()->getData();
 //如果有需要,可以把$rt入库,以及做其他操作
 sleep(10);
 $browser->close();
 // 返回值一定要是页面的HTML内容
 return $html;
},[
 'headless' => false, // 启动可视化Chrome浏览器,方便调试
 'devtools' => false, // 打开浏览器的开发者工具
])->find('title')->text();

$rt是我的结果集合,打印下,如下

b8484929df81399679d8932930690fd.png

57c970e6dcf42d1a286ea23682e0591.png

热心网友 时间:2022-04-28 04:29

直接模拟链接获取百度搜索结果达到300多KB,推送到客户端浏览器即使用Gzip压缩也要100KB左右,耗时接近1.0s。但是百度自己的第一个get内容到浏览器只有30KB左右。怎样才能和百度一样。试过PHP几种方式获取百度搜索结果但是其实都一样,样式什么都一起加载过来了。
例如:
$url="http://m.baidu.com /s?word=".$kw;
$html=file_get_contents($url);
//$html > 300KB
//Apache开启网页压缩之后发送到浏览器!

热心网友 时间:2022-04-28 05:47

打开百度搜索页面,随便搜索一个关键字,然后复制下打开的url,使用php的curl来打开复制下来的连接,记得修改关键字。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
大庆读专业的地方有哪些,就是像哈尔滨哪里,全都是学技术,比如拉丁,爵士... 如何修改朋友圈标签内容 ...是否允许照相机访问,不小心点了【记住我的选择】+【拒绝】该怎么解除... 豆芽炒肉(豆芽炒肉的家常做法) 工程勘察设计资质代办步骤有哪些 工程设计专项资质变更代办流程和资料 工程设计资质代办步骤有哪些 设计院资质代办步骤有哪些 Excel也能增加“后悔”次数 excel如何修改增加撤销次数 PHP正则表达式获得中间的中文文字 在PHP中,匹配中文utf8的正则表达式 php用正则表达式判断中文数字 php 正则表达式匹配 取得中文,如:中心东路 ;取得坐标,如 -2639.848633,-2544.598145 求php正则匹配 中文和数字和英文和一些符号 的表达式 PHP正则匹配出汉字 php 正则匹配 两端中文之间内容 PHP正则表达式验证是否含有中文 php 求用正则匹配中文以及标点符号 php匹配中文的正则怎么写? PHP的正则表达式中使用中文(并匹配中文)的问题,原串为UTF8 PHP正则匹配中文 PHP preg_match 函数怎么匹配中文? php正则怎么匹配中文冒号 PHP正则提取中文部分内容,怎么实现呀? php怎么将中文利用正则表达式匹配出来 php正则表达式匹配一段中文,中间有换行,空白,应该怎么写 PHP正则表达式中怎么匹配汉字啊 - 技术问答 php中如何用正则表达式匹配中文字符呢? 苹果如何设置充电提示音? php如何抓取网页中的数据 php怎么抓取其它网站数据 用php代码获取百度搜索后页面里面的10个链接 PHP怎样抓取网页代码中动态显示的数据 如何利用php抓取网站动态产生的数据 PHP获取网站中的信息并存入数据库 php怎么实现相关内容检索啊? php抓取网页指定的内容 PHP实现数据结构几个自定义PHP函数 php数据分析 php 抓取后怎么得到里面的具体数据 php中想要抓取网页中某一段的数据的代码 PHP二分查找算法的实现方法示例 更新ios14.2需要多少流量 苹果14系统占多少内存 安装ios14需要多少内存 64g要不要升级ios14 16g的6sp更新ios14还有多少容量? 32g更新ios14是剩下多少g 苹果15.2系统需要多少流量?