Java网络爬虫
1,网络机器人Java编程指南,通俗易懂,有点过时,但是适合新手。
2,自己写一个网络爬虫,可以看一下基础的,写的有点乱,很多内容不清楚,很多代码抄袭。。。
3、搜索引擎——原理、技术和系统,北大天网作为案例,很好很强大,有点学术味道。
4,Web数据挖掘刘兵,刘兵的书,强烈推荐。
5、搜索引擎:信息检索实务,一本好书,强烈推荐。
还有一些论文。你自己去找吧。
案例中,你可以研究一下Nutch爬虫的部分代码,写得很清楚。
有了以上,应该算是介绍吧~