解析file_get_contents模仿浏览器头(user_agent)获取数据

yipeiwu_com6年前PHP代码库

什么是user agent
User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
网站可以通过判断不同UA来呈现不同的网站,例如手机访问和PC访问显示不同的页面。
PHP在用file_get_contents函数采集网站时,有时会明明用浏览器可以看,但就是采不到任何内容。
这很有可能是服务器上做了设置,根据 User_agent判断是否为正常的浏览器请求,因为默认PHP的file_get_contents函数是不发送ua的。
如果要采集这样的网站,我们就必须要让PHP模拟浏览器发送UA,欺骗网站返回正常内容。

实现如下:
ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; 4399Box.560; .NET4.0C; .NET4.0E)');
这是模拟IE8环境下的UA,当然你也可以换成其他的。比如中火狐
也可以这样读取:

复制代码 代码如下:

$opts = array(
'http'=>array(
    'method'=>"GET",
    'header'=>"Host: zh.wikipedia.org\r\n" .
              "Accept-language: zh-cn\r\n" .
              "User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; 4399Box.560; .NET4.0C; .NET4.0E)" .
              "Accept: *//*"
)
);

相关文章

php下使用无限生命期Session的方法

在PHP4.0中加入了对Session的支持,方便了我们很多程序,比如购物车等等!    在很多论坛中,Session也用于处理用户的登陆,记录下用户名和密码,使得用户不必每次...

浅析PHP原理之变量(Variables inside PHP)

或许你知道,或许你不知道,PHP是一个弱类型,动态的脚本语言。所谓弱类型,就是说PHP并不严格验证变量类型(严格来讲,PHP是一个中强类型语言,这部分内容会在以后的文章中叙述),在申明一...

解析php中session的实现原理以及大网站应用应注意的问题

PHP SESSION原理我们知道,session是在服务器端保持用户会话数据的一种方法,对应的cookie是 在客户端保持用户数据。HTTP协议是一种无状态协议,服务器响应完之后就失去...

PHP中PDO连接数据库中各种DNS设置方法小结

本文实例总结了PHP中PDO连接数据库中各种DNS设置方法。分享给大家供大家参考,具体如下: pdo中DNS书写方式如下: mssql:host=localhost;dbname=tes...

php利用gd库为图片添加水印

php利用gd库为图片添加水印

本文实例为大家分享了php利用gd库为图片添加水印的方法,供大家参考,具体内容如下 <?php $dst_path = '1.jpg';//目标图片 $src_pat...