求java实现网络爬虫的原理（源代码更好）

2024-11-01 04:24:18

推荐回答（2个）

回答1：

复杂的方法就是自己用java的相关类来模拟浏览器下载网页页面，然后使用DOM等技术从下载的网页中获取自己需要的内容。不过强烈建议你使用HttpClient和HttpParse框架来方便地实现网络爬虫功能。其中HttpClient框架主要实现从WEB服务器下载网页数据，功能极其强大。而HttpParse框架则是从网页文件中获取不同标签的内容，功能也很强大，而且使用十分方便，强烈推荐。

回答2：

apache上有个lucence项目，是开源的搜索引擎。你可以下载一份源代码。中国还有一个中文网站，还有像lucence in action 这本书到处都可以下载估计 www.xunlei.com上就有