HCrwl

En ~~liten~~ växande crawler.

TODO

Effektivare datastrukturer.
- Set för 'visited'.
Hantera DNS timeout snyggare
- Kanske göra ett nytt försök senare
Hitta XHTML parser
- HXT ser lovande ut
Säg till så att bara rätt (html, xml, ..) sorts filer hämtas
- Gör det effektivt, ingen HEAD om vi tror att det är en html fil (extension), ev backa tillbaka om filändelsen inte stämde med mime typen
Undersök om det går att lägga till en handler för varje mime type (titta på en web server tex). På så sätt kan sidor läggas i crawlkön när en html sida hämtas men inte när en bild hämtas.
Gör rate-limiting:en effektivare, dvs "busy-wait:a" inte när kön är kort.
Om crawlern startas om titta först i redan hämtade sidor innan nya hämtas (i.e. caching).

Konfigurera crawlern med HXT liknande filter för att bestämma vilka sidor som ska crawlas