Textanalyse in R, Vergleich von Buchtiteln |
26.10.2015, 20:24 | Auf diesen Beitrag antworten » |
deppensido | Textanalyse in R, Vergleich von Buchtiteln hallo, ich muss ein Programm in R schreiben, dass aus einer Datenbank Buchtitel einliest und anschließend auswertet welche Titel sich ähneln und welche nicht. (Dabei kann ein Titel aus mehr als einem Wort bestehen, z.B. "a game of thrones" etc. und alle Titel sind in englischer Sprache) Das Einlesen habe ich bereits hinbekommen und die Titel in einem data.frame "data$Title gespeichert. Das Problem ist nun das Auswerten der Titel. Hierzu habe ich das koRpus-Package und das stylo-Package zur Verfügung. Diese scheinen aber nicht geeignet zu sein, denn beim koRpus gibt es scheinbar keine Möglichkeit komplette Strings untereinander zu vergleichen und das stylo bietet zu wenige features bzw. keine brauchbaren. Kennt sich hier jemand mit R aus und weiß, wie man das Problem lösen könnte? Eventuell auch mit einem anderen Paket als mit den beiden genannten? Vielen Dank im voraus. |
|
|
28.10.2015, 15:32 | Auf diesen Beitrag antworten » |
Karlito | RE: Textanalyse in R, Vergleich von Buchtiteln Bin hierüber gestolpert: https://cran.r-project.org/web/packages/.../stringdist.pdf Fand die Levenshtein-Distanz immer recht gut. Musst halt schauen, ob das bei dir passt. Gruß, Karlito |
|