借他扎实的基本功,陆道升也能实现个七七八八出来,足够支持他把爬虫系统写出来。
有了爬虫系统,就能高效地利用网页中嵌套的超链接来进一步获得更多的网址。比如在shu的页面里,会有很多文章和其他网站的链接,这些链接对应的网页下载后,又能在下载的网页上看到新的超链接,不断搜集下去,就几乎可以把大部分的网址给一网打尽。
也幸亏1998年,中国互联网才刚刚开始发展,整个网络上没有多少内容,陆道升才能借助韩教授实验室的机器完成爬取工作,这要是到了未来信息爆炸的年代,一千台服务器都能因为内容太多下不完而爆掉。
但只有爬虫系统把网址搜集下来是不够的,还需要开发一些过滤器和筛选算法,最后人工审核,才能最终得到一份可用的网址,这就需要拉上左文杏这个宝贵的战力了。