如何入门 Python 爬虫

2024-11-06 13:59:40

推荐回答（2个）

回答1：

第一你是否有PYTHON 语言基础？
第二你是否有 HTML 语言基础？
第三你是会正则表达式？

如果你满足以上三点条件，那么恭喜你可以开始学习SPIDER了。
首先爬虫的基本原理都是通过获取整个HTML 页面，然后通过正则表达式分析过滤掉不想要的内容在把想要的内容输出保存。
python 爬虫主要用到的mod
1 re
2 urllib and urllib2 or beautiful soup or ...
第一个正则第二个前两个是用来提交 HTML request 和获得HTML respones的后面的OR 跟的都是封装为了更简单处理标记语言的模块。

回答2：

看教程找教程，我也刚开始学