如何入门 Python 爬虫

2024-11-06 13:59:40
推荐回答(2个)
回答1:

第一 你是否有PYTHON 语言基础?
第二 你是否有 HTML 语言基础?
第三 你是会正则表达式?

如果你满足以上三点条件,那么恭喜你 可以开始学习SPIDER了。
首先爬虫的基本原理都是通过获取整个HTML 页面 ,然后通过正则表达式 分析 过滤掉不想要的内容 在把想要的内容 输出 保存。
python 爬虫主要用到的mod
1 re
2 urllib and urllib2 or beautiful soup or ...
第一个正则 第二个前两个是用来提交 HTML request 和获得HTML respones的 后面的OR 跟的都是 封装为了更简单处理标记语言的模块。

回答2:

看教程找教程,我也刚开始学