爬虫的重点是在Python之外的。确切说是一些前端和部分后端技术(cookie之类的)以及一些HTTP协议相关知识。
而对于python而言,只是获取内容(HTTP请求)和文本处理(抓内容),基本上看俩模块文档看几个框架文档都够用了。
至于更高级的,比如挂phatomjs之类,主要工作都在于js而不是python了。
所以基本上你搜到的买到的教程,大都落伍了,既赶不上前端的发展,也赶不上python模块的演进。
python爬虫可以看看scrapy框架
官方教程:http://scrapy-chs.readthedocs.org/zh_CN/latest/index.html#