Informatiker Board | Druckvorschau: Textanalyse in R, Vergleich von Buchtiteln

Informatiker Board (http://www.informatikerboard.de/board/index.php)
- Themengebiete (http://www.informatikerboard.de/board/board.php?boardid=1)
--- Praktische Informatik (http://www.informatikerboard.de/board/board.php?boardid=6)
---- Algorithmen (http://www.informatikerboard.de/board/board.php?boardid=17)
----- Textanalyse in R, Vergleich von Buchtiteln (http://www.informatikerboard.de/board/thread.php?threadid=2509)

Geschrieben von deppensido am 26.10.2015 um 20:24:

Textanalyse in R, Vergleich von Buchtiteln

hallo,

ich muss ein Programm in R schreiben, dass aus einer Datenbank Buchtitel einliest
und anschließend auswertet welche Titel sich ähneln und welche nicht. (Dabei kann ein Titel aus mehr als einem Wort bestehen, z.B. "a game of thrones" etc. und alle Titel sind in englischer Sprache)
Das Einlesen habe ich bereits hinbekommen und die Titel in einem data.frame "data$Title gespeichert. Das Problem ist nun das Auswerten der Titel. Hierzu habe ich das koRpus-Package und das stylo-Package zur Verfügung. Diese scheinen aber nicht geeignet zu sein, denn beim koRpus gibt es scheinbar keine Möglichkeit komplette Strings untereinander zu vergleichen und das stylo bietet zu wenige features bzw. keine brauchbaren.

Kennt sich hier jemand mit R aus und weiß, wie man das Problem lösen könnte? Eventuell auch mit einem anderen Paket als mit den beiden genannten?
Vielen Dank im voraus.

Geschrieben von Karlito am 28.10.2015 um 15:32:

RE: Textanalyse in R, Vergleich von Buchtiteln

Bin hierüber gestolpert:

https://cran.r-project.org/web/packages/stringdist/stringdist.pdf

Fand die Levenshtein-Distanz immer recht gut. Musst halt schauen, ob das bei dir passt.

Gruß,

Karlito