月度归档:2010年12月

curl伪造reffer抓取图片资源的方法

为了给同事批量抓一些素材,写了段程序,自动抓100多个页面的5000多张图,对方站点防盗链开启了,只能用图片所在页面地址做reffer才能抓图,于是用curl伪造reffer。函数贴出来,备忘,函数本身可以模仿Baidu蜘蛛,由同事乐乐友情提供,我稍稍修改了一下,感谢一下乐乐同学。

function baiduSpider($url,$reffer){
        $ch = curl_init();
        $user_agent = “Baiduspider+(+http://www.baidu.com/search/spider.htm)”;//这里模拟的是百度蜘蛛     
        curl_setopt($ch, CURLOPT_URL, $url);
        curl_setopt($ch, CURLOPT_HEADER, false);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
        curl_setopt($ch, CURLOPT_REFERER, $reffer);//这里写一个来源地址,可以写要抓的页面的首页     
        curl_setopt($ch, CURLOPT_USERAGENT, $user_agent);
        $temp=curl_exec($ch);
        return $temp;      
}

Fuck G.F.W.!!!

截止到公元2010年12月10日,我能找到的所有Google GHS的IP全部被封了,千千万万运行在GAE上的应用,包括我运行在GAE上的博客在中国大陆无法访问了,杯具啊!!!

Fuck G.F.W.!!!

解决客户端IE默认设置下无法下载https协议传输的文件的问题

如下代码,ie无法下载

header(‘Content-type: application/’ . $fileType);

header(‘Content-Disposition: attachment; filename=”‘ . $fileName . ‘”‘);

readfile(SOFT_DIR . $fileName);

加了一些header后就可以了

如下:

header(‘Content-type: application/’ . $fileType);

header(‘Content-Disposition: attachment; filename=”‘ . $fileName . ‘”‘);

header(‘Expires: 0’);

header(‘Pragma: public’);
header(‘Cache-Control: must-revalidate, post-check=0, pre-check=0’);

header(‘Cache-Control: public’);

readfile(SOFT_DIR . $fileName);

原因是默认的IE7通过HTTPS下载时,其cache缓存是不给权限的。所以,必须先要对cache进行配置和给其权限。

另外,也可以通过修改客户端的配置来达到目的.

推荐几首歌《So bad》&《Love the way you lie》&《No love》

As titled.

这三首歌都来自Eminem今年复出的新专辑《Recovery》,前几天费了一番力气才找到FLAC的版本,其中的主打歌《Not afraid》之前就非常喜欢,这次把整张专辑找到,听了一遍,真的不错。

加上《Not afraid》,算四首吧。

PS:iPhone4,流口水呀……