HCrwl: Skillnad mellan sidversioner

Från Slackopedia
Nico (diskussion | bidrag)
Ingen redigeringssammanfattning
Nico (diskussion | bidrag)
Ingen redigeringssammanfattning
Rad 5: Rad 5:
** Set för 'visited'.
** Set för 'visited'.
* Hantera DNS timeout snyggare
* Hantera DNS timeout snyggare
** Kanske göra ett nytt försök senare
* Hitta XHTML parser
* Hitta XHTML parser
** HXT ser lovande ut
** HXT ser lovande ut

Versionen från 19 februari 2007 kl. 20.39

En liten växande crawler.

TODO

  • Effektivare datastrukturer.
    • Set för 'visited'.
  • Hantera DNS timeout snyggare
    • Kanske göra ett nytt försök senare
  • Hitta XHTML parser
    • HXT ser lovande ut
  • Säg till så att bara rätt (html, xml, ..) sorts filer hämtas
      • Gör det effektivt, ingen HEAD om vi tror att det är en html fil (extension), ev backa tillbaka om filändelsen inte stämde med mime typen
  • Undersök om det går att lägga till en handler för varje mime type (titta på en web server tex). På så sätt kan sidor läggas i crawlkön när en html sida hämtas men inte när en bild hämtas.
  • Lägg till rate limiting så att vi inte DOSar sidorna vi crawlar. Detta är ett krav för seriös crawling.

Fluffiga idéer

  • Konfigurera crawlern med HXT liknande filter för att bestämma vilka sidor som ska crawlas