关于豆瓣爬虫在ubuntu系统与windows上不同的问题。

在学习爬虫过程中我发现了一个问题。
我使用的系统是windows10,虚拟机用的ubuntu15.10。开始学习requests库
代码:

# coding:utf-8 import requests r = requests.get"http://movie.douban.com/subject/24751756/"
printr.text

在ubuntu下会正常的出现当前的界面,windows下是403错误。

我觉得在ubuntu下不正常,因为我没有填加http的头。
希望大家可以帮忙解释一下。

import requests
import httplib httplib.HTTPConnecttion.debuglevel=1 r = requests.get"http://movie.douban.com/subject/24751756/"
print r.text

在我的机器下OS X跑,也是403,

由send的header头里面可以看出来User-Agent是python-requests,所以把User-Agent改成

headers = { User-Agent: Mozilla/5.0 Macintosh; Intel Mac OS X 10_11_1 AppleWebKi t/537.36 KHTML, like Gecko Chrome/47.0.2526.73 Safari/537.36
} r = requests.get"http://movie.douban.com/subject/24751756/", headers=headers

再次请求就成功了。

试着用httplib打印出调试信息,对比下两个平台的发送请求的数据是否一样

发表评论

电子邮件地址不会被公开。 必填项已用*标注