Textanalyse in R, Vergleich von Buchtiteln

Neue Frage »

Auf diesen Beitrag antworten »
deppensido Textanalyse in R, Vergleich von Buchtiteln

hallo,

ich muss ein Programm in R schreiben, dass aus einer Datenbank Buchtitel einliest
und anschließend auswertet welche Titel sich ähneln und welche nicht. (Dabei kann ein Titel aus mehr als einem Wort bestehen, z.B. "a game of thrones" etc. und alle Titel sind in englischer Sprache)
Das Einlesen habe ich bereits hinbekommen und die Titel in einem data.frame "data$Title gespeichert. Das Problem ist nun das Auswerten der Titel. Hierzu habe ich das koRpus-Package und das stylo-Package zur Verfügung. Diese scheinen aber nicht geeignet zu sein, denn beim koRpus gibt es scheinbar keine Möglichkeit komplette Strings untereinander zu vergleichen und das stylo bietet zu wenige features bzw. keine brauchbaren.

Kennt sich hier jemand mit R aus und weiß, wie man das Problem lösen könnte? Eventuell auch mit einem anderen Paket als mit den beiden genannten?
Vielen Dank im voraus.
 
Auf diesen Beitrag antworten »
Karlito RE: Textanalyse in R, Vergleich von Buchtiteln

Bin hierüber gestolpert:

https://cran.r-project.org/web/packages/.../stringdist.pdf

Fand die Levenshtein-Distanz immer recht gut. Musst halt schauen, ob das bei dir passt.

Gruß,

Karlito
 
Neue Frage »
Antworten »


Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »