AutomatischeWebSeitenKlassifikation
aus Nomads, der freien Wissensdatenbank
siehe Themenbeschreibung
Inhaltsverzeichnis |
Links
Allgemein
- On the Automated Classification of Web Sites PDF
- SemTag and Seeker haben einen Großteil aller Webseiten mit Meta-Tags versehen
- Automated Semantic Annotation semannot2004
- Die Tags aus del.icio.us können auch zur Klassifikation herangezogen werden. [1] Liefert z.B. die Tags: "wikipedia, encyclopedia,lexikon, wiki, wissen"...
Generierung von Metatag für Ortsinformationen
Aus Positionsbestimmung:
- ip2location - rechnet die IP-Adresse in Ortsinformation um. Vermutetes Verfahren: Er analysiert die Route der IP-Packete und versucht, ob die Position von Hops - idealerweise des Zugangsknotens (Provider) - in einer Datenbank hinterlegt sind. Bislang schafft dies der Dienst nur für einen Bruchteil der stationäre Zugangspunkte und ist daher entsprechend ungenau (schafft kaum die Stadt anzugeben).
- Mit whois kriegt man die "Adresse" jeder Domain raus.
- Allerdings nicht unbedingt die Adresse welche man haben möchte. Derjenige der die Seiten "hosted" muss ja nichts mit deren Inhalt etc zu tuen haben. (z.B. whois wikipedia.org)
Idee/Möglicher Ansatz:
Stochastisches Verfahren, das Textanalyse, ip2location, whois und Mittelwert der Nachbarknoten (die wahscheinlich in der Nähe sind) kombiniert.
