AutomatischeWebSeitenKlassifikation

aus Nomads, der freien Wissensdatenbank

siehe Themenbeschreibung

Inhaltsverzeichnis

Links

Allgemein

  • On the Automated Classification of Web Sites PDF
  • SemTag and Seeker haben einen Großteil aller Webseiten mit Meta-Tags versehen
  • Automated Semantic Annotation semannot2004
  • Die Tags aus del.icio.us können auch zur Klassifikation herangezogen werden. [1] Liefert z.B. die Tags: "wikipedia, encyclopedia,lexikon, wiki, wissen"...

Generierung von Metatag für Ortsinformationen

Aus Positionsbestimmung:

  • ip2location - rechnet die IP-Adresse in Ortsinformation um. Vermutetes Verfahren: Er analysiert die Route der IP-Packete und versucht, ob die Position von Hops - idealerweise des Zugangsknotens (Provider) - in einer Datenbank hinterlegt sind. Bislang schafft dies der Dienst nur für einen Bruchteil der stationäre Zugangspunkte und ist daher entsprechend ungenau (schafft kaum die Stadt anzugeben).
  • Mit whois kriegt man die "Adresse" jeder Domain raus.
    • Allerdings nicht unbedingt die Adresse welche man haben möchte. Derjenige der die Seiten "hosted" muss ja nichts mit deren Inhalt etc zu tuen haben. (z.B. whois wikipedia.org)

Idee/Möglicher Ansatz:

Stochastisches Verfahren, das Textanalyse, ip2location, whois und Mittelwert der Nachbarknoten (die wahscheinlich in der Nähe sind) kombiniert.