1、 file_get_contents获取
[php]view plaincopy$url="/"; $fh=file_get_contents('/news/fzfj/'); echo$fh;
2、使用fopen获取网页源代码 [php]view plaincopy$url="/"; $handle=fopen($url,"rb"); $contents=""; while(!feof($handle)){ $contents.=fread($handle,8192); } fclose($handle); echo$contents;//输出获取到得内容。
3、使用CURL获取网页源代码
[php]view plaincopy$url="/"; $UserAgent='Mozilla/4.0(compatible;MSIE7.0;WindowsNT6.0;SLCC1;.NETCLR2.0.50727;.NETCLR3.0.04506;.NETCLR3.5.21022;.NETCLR1.0.3705;.NETCLR1.1.4322)'; $curl=curl_init();//创建一个新的CURL资源 curl_setopt($curl,CURLOPT_URL,$url);//设置URL和相应的选项 curl_setopt($curl,CURLOPT_HEADER,0);//0表示不输出Header,1表示输出 curl_setopt($curl,CURLOPT_RETURNTRANSFER,1);//设定是否显示头信息,1显示,0不显示。 //如果成功只将结果返回,不自动输出任何内容。如果失败返回FALSE curl_setopt($curl,CURLOPT_SSL_VERIFYPEER,false); curl_setopt($curl,CURLOPT_SSL_VERIFYHOST,false); curl_setopt($curl,CURLOPT_ENCODING,'');//设置编码格式,为空表示支持所有格式的编码 //header中“Accept-Encoding:”部分的内容,支持的编码格式为:"identity","deflate","gzip"。 curl_setopt($curl,CURLOPT_USERAGENT,$UserAgent); curl_setopt($curl,CURLOPT_FOLLOWLOCATION,1); //设置这个选项为一个非零值(象“Location:“)的头,服务器会把它当做HTTP头的一部分发送(注意这是递归的,PHP将发送形如“Location:“的头)。 $data=curl_exec($curl); echo$data; //echocurl_errno($curl);//返回0时表示程序执行成功 curl_close($curl);//关闭cURL资源,并释放系统资源
转载自:
引用:
PHP抓取采集类snoopy介绍: /librarys/veda/detail/855
PHP获取网页内容的几种方法:
/code/snippet_861770_19638
/tutorial/php//052534/
UserAgent设置不当导致php抓取网页失败:
/tutorial/php//111846/