Registrierung Kalender Mitgliederliste Teammitglieder Suche Häufig gestellte Fragen Zur Startseite

Informatiker Board » Themengebiete » Theoretische Informatik » Textanalyse » Hallo Gast [Anmelden|Registrieren]
Letzter Beitrag | Erster ungelesener Beitrag Druckvorschau | An Freund senden | Thema zu Favoriten hinzufügen
Neues Thema erstellen Antwort erstellen
Zum Ende der Seite springen Textanalyse
Autor
Beitrag « Vorheriges Thema | Nächstes Thema »
Sebi06
unregistriert
Textanalyse Auf diesen Beitrag antworten Zitatantwort auf diesen Beitrag erstellen Diesen Beitrag editieren/löschen Diesen Beitrag einem Moderator melden       Zum Anfang der Seite springen

Hallo miteinander!

Ich befasse mich momentan gerade mit computergestützter Textanalyse. Derzeit arbeite ich mit TigerSearch, um ein vorhandenes Korpus zu "durchforsten".
TigerSearch hat eine Queryfunktion, bei der man Suchabfragen à la:
[word = /.+[0-9A-Z].*/]
durchgeben kann.
Dieses Beispiel würde nun alle Wörter suchen, die nach dem ersten Zeichen eine Ziffer oder einen Grossbuchstaben enthalten.

Meine Frage ist nun, wie ich Eigennamen (als NE bezeichnet) finden kann, welche eine Ziffer enthalten?

Besten Dank für die Hilfe und einen schönen Abend!
09.04.2010 01:25
Sebi06
unregistriert
RE: Textanalyse Auf diesen Beitrag antworten Zitatantwort auf diesen Beitrag erstellen Diesen Beitrag editieren/löschen Diesen Beitrag einem Moderator melden       Zum Anfang der Seite springen

Ein analoges Programm, auf das ich nun gewechselt habe, (wegen ständigen Fehlern auf Windows) heisst TreeQuest (kitt.ifi.uzh.ch/kitt/treealigner/data/tqta)

Mittlerweile habe ich aber noch mehr Fragen:

1.) Wie (mit welcher Eingabe) kann man beispielsweise Eigennamen, welche eine Ziffer enthalten, finden?
2.) Wie kann man ein Wort (beispielsweise ein Adjektiv) ermitteln, das zu einem bestimmten Substantiv am häufigsten auftritt?
3.) Wie kann man die richtige Anzahl Bindestrich-Komposita in einem Korpus herausfinden? (hier habe ich: [word = /.*\-.*/] verwendet, was allerdings nicht ganz stimmt, da z.B. auch Gedankenstriche dazugezählt werden..)
4.) Wie kann man die Anzahl der Substantive bestimmen, welche einen Umlaut in der Wortform, nicht aber im Lemma haben?
5.) Wie findet man die Substantive, welche am häufigsten ein Satzkomplement nehmen?
6.) Wie ermittelt man, welche Konstituenten nur eine Tochterkonstituente haben? (oder: Wie ermittelt man die Konstituenten, welche Dativ-Objekte sind?)
7.) Wie kann man generell eine Folge à la Adjektiv-Nomen-Konjunktion-Nomen ausfindig machen?

Wenn mir jemand behilflich sein könnte, so wäre ich sehr dankbar!
10.04.2010 17:28
ed209
Routinier


Dabei seit: 07.09.2006
Beiträge: 324

Auf diesen Beitrag antworten Zitatantwort auf diesen Beitrag erstellen Diesen Beitrag editieren/löschen Diesen Beitrag einem Moderator melden       Zum Anfang der Seite springen

Für die erste Frage würde es vielleicht helfen, wenn Du Dich mit regulären Ausdrücken befasst um zu spezifizieren was du ausdrücken willst. Leider unterscheiden die sich häufig von Anwendung zu Anwendung so daß man dir hier wohl keine konkrete Antwort geben kann, wenn man das Programm nicht kennt.
Die restlichen Fragen sind wohl eher was für Computerlinguisten als für Informatiker. Aber ich bezweifel daß es einfach ist mit diesen Suchtools von einer Wortform auf ihr Lemma zu schliessen usw.

Gruß,
ED
12.04.2010 09:08 ed209 ist offline E-Mail an ed209 senden Beiträge von ed209 suchen Nehmen Sie ed209 in Ihre Freundesliste auf
Sebi06
unregistriert
Auf diesen Beitrag antworten Zitatantwort auf diesen Beitrag erstellen Diesen Beitrag editieren/löschen Diesen Beitrag einem Moderator melden       Zum Anfang der Seite springen

Das hab ich mir auch gedacht..ich hab es mal probiert, aber nicht immer das gefunden, wonach ich eigentlich gesucht hätte..naja, das gehört wohl auch dazu =)
12.04.2010 21:17
Baumstruktur | Brettstruktur
Gehe zu:
Neues Thema erstellen Antwort erstellen
Informatiker Board » Themengebiete » Theoretische Informatik » Textanalyse