HCrwl

En ~~liten~~ växande crawler.

TODO

Effektivare datastrukturer.
- Set för 'visited'.
Hantera DNS timeout snyggare
Hitta XHTML parser
- HXT ser lovande ut
Säg till så att bara rätt (html, xml, ..) sorts filer hämtas
- - Gör det effektivt, ingen HEAD om vi tror att det är en html fil (extension), ev backa tillbaka om filändelsen inte stämde med mime typen
Undersök om det går att lägga till en handler för varje mime type (titta på en web server tex). På så sätt kan sidor läggas i crawlkön när en html sida hämtas men inte när en bild hämtas.
Lägg till rate limiting så att vi inte DOSar sidorna vi crawlar. Detta är ett krav för seriös crawling.

Konfigurera crawlern med HXT liknande filter för att bestämma vilka sidor som ska crawlas