第一 你是否有PYTHON 语言基础?
第二 你是否有 HTML 语言基础?
第三 你是会正则表达式?
如果你满足以上三点条件,那么恭喜你 可以开始学习SPIDER了。
首先爬虫的基本原理都是通过获取整个HTML 页面 ,然后通过正则表达式 分析 过滤掉不想要的内容 在把想要的内容 输出 保存。
python 爬虫主要用到的mod
1 re
2 urllib and urllib2 or beautiful soup or ...
第一个正则 第二个前两个是用来提交 HTML request 和获得HTML respones的 后面的OR 跟的都是 封装为了更简单处理标记语言的模块。
看教程找教程,我也刚开始学