HCrwl
En liten växande crawler.
TODO
- Effektivare datastrukturer.
- Set för 'visited'.
- Hantera DNS timeout snyggare, åtm begränsa catchen till rätt exception.
- Hitta XHTML parser
- Säg till så att bara rätt (html, xml, ..) sorts filer hämtas
- Tex. genom att göra en HEADER request och kolla mime-typ.
- Eller bara kolla extension på filerna.