HCrwl: Skillnad mellan sidversioner

Från Slackopedia
Nico (diskussion | bidrag)
Ingen redigeringssammanfattning
Nico (diskussion | bidrag)
Ingen redigeringssammanfattning
Rad 6: Rad 6:
* Hantera DNS timeout snyggare, åtm begränsa catchen till rätt exception.
* Hantera DNS timeout snyggare, åtm begränsa catchen till rätt exception.
* Hitta XHTML parser
* Hitta XHTML parser
* Säg till så att bara rätt (html, xml, ..) sorts filer hämtas
** Tex. genom att göra en HEADER request och kolla mime-typ.
** Eller bara kolla extension på filerna.

Versionen från 18 februari 2007 kl. 00.19

En liten växande crawler.

TODO

  • Effektivare datastrukturer.
    • Set för 'visited'.
  • Hantera DNS timeout snyggare, åtm begränsa catchen till rätt exception.
  • Hitta XHTML parser
  • Säg till så att bara rätt (html, xml, ..) sorts filer hämtas
    • Tex. genom att göra en HEADER request och kolla mime-typ.
    • Eller bara kolla extension på filerna.