Registrierung Kalender Mitgliederliste Teammitglieder Suche Häufig gestellte Fragen Zur Startseite

Informatiker Board » Themengebiete » Praktische Informatik » Algorithmen » Textanalyse in R, Vergleich von Buchtiteln » Hallo Gast [Anmelden|Registrieren]
Letzter Beitrag | Erster ungelesener Beitrag Druckvorschau | An Freund senden | Thema zu Favoriten hinzufügen
Neues Thema erstellen Antwort erstellen
Zum Ende der Seite springen Textanalyse in R, Vergleich von Buchtiteln
Autor
Beitrag « Vorheriges Thema | Nächstes Thema »
deppensido
Doppel-As


Dabei seit: 23.12.2012
Beiträge: 144

Textanalyse in R, Vergleich von Buchtiteln Auf diesen Beitrag antworten Zitatantwort auf diesen Beitrag erstellen Diesen Beitrag editieren/löschen Diesen Beitrag einem Moderator melden       Zum Anfang der Seite springen

hallo,

ich muss ein Programm in R schreiben, dass aus einer Datenbank Buchtitel einliest
und anschließend auswertet welche Titel sich ähneln und welche nicht. (Dabei kann ein Titel aus mehr als einem Wort bestehen, z.B. "a game of thrones" etc. und alle Titel sind in englischer Sprache)
Das Einlesen habe ich bereits hinbekommen und die Titel in einem data.frame "data$Title gespeichert. Das Problem ist nun das Auswerten der Titel. Hierzu habe ich das koRpus-Package und das stylo-Package zur Verfügung. Diese scheinen aber nicht geeignet zu sein, denn beim koRpus gibt es scheinbar keine Möglichkeit komplette Strings untereinander zu vergleichen und das stylo bietet zu wenige features bzw. keine brauchbaren.

Kennt sich hier jemand mit R aus und weiß, wie man das Problem lösen könnte? Eventuell auch mit einem anderen Paket als mit den beiden genannten?
Vielen Dank im voraus.

Dieser Beitrag wurde 1 mal editiert, zum letzten Mal von deppensido: 26.10.2015 20:25.

26.10.2015 20:24 deppensido ist offline Beiträge von deppensido suchen Nehmen Sie deppensido in Ihre Freundesliste auf
Karlito Karlito ist männlich
Kaiser


Dabei seit: 11.04.2011
Beiträge: 1.461

RE: Textanalyse in R, Vergleich von Buchtiteln Auf diesen Beitrag antworten Zitatantwort auf diesen Beitrag erstellen Diesen Beitrag editieren/löschen Diesen Beitrag einem Moderator melden       Zum Anfang der Seite springen

Bin hierüber gestolpert:

https://cran.r-project.org/web/packages/.../stringdist.pdf

Fand die Levenshtein-Distanz immer recht gut. Musst halt schauen, ob das bei dir passt.

Gruß,

Karlito
28.10.2015 15:32 Karlito ist offline E-Mail an Karlito senden Beiträge von Karlito suchen Nehmen Sie Karlito in Ihre Freundesliste auf
Baumstruktur | Brettstruktur
Gehe zu:
Neues Thema erstellen Antwort erstellen
Informatiker Board » Themengebiete » Praktische Informatik » Algorithmen » Textanalyse in R, Vergleich von Buchtiteln