HCrwl

Från Slackopedia
Version från den 18 februari 2007 kl. 00.19 av Nico (diskussion | bidrag)

En liten växande crawler.

TODO

  • Effektivare datastrukturer.
    • Set för 'visited'.
  • Hantera DNS timeout snyggare, åtm begränsa catchen till rätt exception.
  • Hitta XHTML parser
  • Säg till så att bara rätt (html, xml, ..) sorts filer hämtas
    • Tex. genom att göra en HEADER request och kolla mime-typ.
    • Eller bara kolla extension på filerna.