HCrwl: Skillnad mellan sidversioner
Nico (diskussion | bidrag) Ingen redigeringssammanfattning |
Nico (diskussion | bidrag) Ingen redigeringssammanfattning |
||
Rad 5: | Rad 5: | ||
** Set för 'visited'. | ** Set för 'visited'. | ||
* Hantera DNS timeout snyggare | * Hantera DNS timeout snyggare | ||
** Kanske göra ett nytt försök senare | |||
* Hitta XHTML parser | * Hitta XHTML parser | ||
** HXT ser lovande ut | ** HXT ser lovande ut |
Versionen från 19 februari 2007 kl. 20.39
En liten växande crawler.
TODO
- Effektivare datastrukturer.
- Set för 'visited'.
- Hantera DNS timeout snyggare
- Kanske göra ett nytt försök senare
- Hitta XHTML parser
- HXT ser lovande ut
- Säg till så att bara rätt (html, xml, ..) sorts filer hämtas
- Gör det effektivt, ingen HEAD om vi tror att det är en html fil (extension), ev backa tillbaka om filändelsen inte stämde med mime typen
- Undersök om det går att lägga till en handler för varje mime type (titta på en web server tex). På så sätt kan sidor läggas i crawlkön när en html sida hämtas men inte när en bild hämtas.
- Lägg till rate limiting så att vi inte DOSar sidorna vi crawlar. Detta är ett krav för seriös crawling.
Fluffiga idéer
- Konfigurera crawlern med HXT liknande filter för att bestämma vilka sidor som ska crawlas