HCrwl: Skillnad mellan sidversioner
Nico (diskussion | bidrag) Ingen redigeringssammanfattning |
Nico (diskussion | bidrag) Ingen redigeringssammanfattning |
||
Rad 6: | Rad 6: | ||
* Hantera DNS timeout snyggare, åtm begränsa catchen till rätt exception. | * Hantera DNS timeout snyggare, åtm begränsa catchen till rätt exception. | ||
* Hitta XHTML parser | * Hitta XHTML parser | ||
* Säg till så att bara rätt (html, xml, ..) sorts filer hämtas | |||
** Tex. genom att göra en HEADER request och kolla mime-typ. | |||
** Eller bara kolla extension på filerna. |
Versionen från 18 februari 2007 kl. 00.19
En liten växande crawler.
TODO
- Effektivare datastrukturer.
- Set för 'visited'.
- Hantera DNS timeout snyggare, åtm begränsa catchen till rätt exception.
- Hitta XHTML parser
- Säg till så att bara rätt (html, xml, ..) sorts filer hämtas
- Tex. genom att göra en HEADER request och kolla mime-typ.
- Eller bara kolla extension på filerna.