Registrierung Kalender Mitgliederliste Teammitglieder Suche Häufig gestellte Fragen Zur Startseite

Informatiker Board » Themengebiete » Praktische Informatik » Mehrere Datenquellen zu einer großen Datei verarbeiten » Hallo Gast [Anmelden|Registrieren]
Letzter Beitrag | Erster ungelesener Beitrag Druckvorschau | An Freund senden | Thema zu Favoriten hinzufügen
Neues Thema erstellen Antwort erstellen
Zum Ende der Seite springen Mehrere Datenquellen zu einer großen Datei verarbeiten
Autor
Beitrag « Vorheriges Thema | Nächstes Thema »
agrartech
Grünschnabel


Dabei seit: 26.11.2015
Beiträge: 2

Mehrere Datenquellen zu einer großen Datei verarbeiten Auf diesen Beitrag antworten Zitatantwort auf diesen Beitrag erstellen Diesen Beitrag editieren/löschen Diesen Beitrag einem Moderator melden       Zum Anfang der Seite springen

Hallo zusammen!

Mein Name ist Janis und ich bin neu in diesem Forum. Falls diese Frage am falschen Ort gestellt wurde oder meine Anfrage grds hier nicht reinpasst, könnt Ihr es mich gerne wissen lassen. Ich lerne gern weiter. ;-)

Ich beschäftige mich derzeit als Werkstudent mit einem Projekt, wo es um ein monatliches Reporting zur Visualisierung von wichtigen Kennzahlen des betroffenen Unternehmens geht. Als Software will ich Power BI von Microsoft nutzen, was mir auch visuell und von seinen Eigenschaften sehr gefällt. Nun habe ich jedoch in Power BI bisher keine Lösung für ein größeres Problem gefunden, was wir haben.

Dieses Problem sieht so aus, dass ich derzeit aus fünf Datenquellen Informationen im Excel Format für meinen Report erhalte. Ziel sollte sein, dass man am Anfang des Reports einmal auf den passenden Händlernamen klickt und fortan die Kenndaten des einen Händlers vor sich hat. Unglücklicherweise sind meine Datenquellen eher unsauber gearbeitet. Bspw. hat ein Händler X in allen fünf Quellen einen unterschiedlichen Namen und eine andere Händlernummer. Auch kann es sein, dass er in einer Tabelle zwei oder dreimal auftaucht, da er bspw. seinen Namen in der Vergangenheit geändert hat.

Meine Frage wäre nun, wie ich diese Problematik lösen kann. Meine Idee hierzu war bisher, dass man ggf eine "Mastertabelle" erstellt, die alle Händlernummern und Händlernamen auf ein Format herunterbrechen könnte und man hier quasi immer am ersten eines Monats die neusten Daten importiert und man am Ende eine Tabelle als Output hat, die man dann mit Power BI verarbeiten kann. Hierzu habe ich mir schon eine komplette Händlerliste mit nun einheitlichen Namen und Nummern geben lassen.

Kann mit hierzu jemand helfen? Geht das mit Excel oder ist das eher was für SQL? Ich bin leider gänzlich neu im Thema und wurde netterweise vor diese sehr große Aufgabe gestellt, die mich aber umso mehr motiviert! Habt daher Nachsicht, wenn ich etwas nicht direkt verstehe;-)

Danke für die Hilfe! Daumen hoch
26.11.2015 14:39 agrartech ist offline Beiträge von agrartech suchen Nehmen Sie agrartech in Ihre Freundesliste auf
Karlito Karlito ist männlich
Kaiser


Dabei seit: 11.04.2011
Beiträge: 1.461

Auf diesen Beitrag antworten Zitatantwort auf diesen Beitrag erstellen Diesen Beitrag editieren/löschen Diesen Beitrag einem Moderator melden       Zum Anfang der Seite springen

Hallo agrartech,

als Standard-Lösung für das Problem, was du schilderst benutze ich immer die Integration-Services und die Reporting Services von Microsoft. Diese sind mit einem SQL-Server ab Standard-Edition verfügbar. Leider jedoch auch recht Preisintensiv und deshalb vielleicht nicht geeignet.

Im Prinzip würde ich ähnlich vorgehen wie Du: Die Daten in eine zentrale Datenbank laden und diese dann auswerten. Für das Laden der Daten sind bei mir die Integration-Services verantwortlich. Die Auswertung macche ioh dann mit den Reporting-Services, wobei bei dir da ja vlt Power-BI zum Einsatz kommen kann.

Als Open-Source Variante kannst Du dir für diesen Zweck ja mal Pentaho anschauen. Leider findet man die Open-Source-Version eher schlecht. Aber schau mal hier: http://community.pentaho.com/.

Was die Herangehensweise mit den Unsauberen Daten angeht: Ich würde den Import so schreiben, dass er Prüfungen durchführt. Schlagen diese Fehl, so wird der Datensatz in eine Fehlertabelle geschrieben und muss manuell korrigiert werden. Man kann sich noch schöne Spielarten ausdenken, wie man offensichtliche Fehler (geringe Edit-Distanz) ignoriert.

So, ich hoffe das hilft erstmal weiter.

Gruß,

Karlito
27.11.2015 11:32 Karlito ist offline E-Mail an Karlito senden Beiträge von Karlito suchen Nehmen Sie Karlito in Ihre Freundesliste auf
agrartech
Grünschnabel


Dabei seit: 26.11.2015
Beiträge: 2

Auf diesen Beitrag antworten Zitatantwort auf diesen Beitrag erstellen Diesen Beitrag editieren/löschen Diesen Beitrag einem Moderator melden       Zum Anfang der Seite springen

Hallo Karlito,

danke für die schnelle und aufschlussreiche Antwort! So etwas habe ich mir erhofft. Ich habe mich mal etwas länger ins Thema Pentaho eingearbeitet und denke, dass dies auf jeden Fall passen könnte. Nur ist für mich prinzipiell die Einarbeitung in eine solch neue Technik extrem kompliziert, weil ich wie gesagt, nicht vom Fach bin.

Du sagst, dass Du dafür normalerweise SQL verwendest? Wenn ich es bei Pentaho richtig verstanden habe, ist die für mich zu gebrauchende Komponente Spoon, richtig? Mit SQL kann man genau das gleiche erreichen? Weil ich ggf für SQL einen Kollegen hätte, der mich etwas an die Hand nehmen könnte.

Oder hast Du für Pentaho eine gute Anleitung oder ein Tutorial o.ä. zur Hand, was Du empfehlen könntest? Habe mich auf Youtube zwar schon intensiv umgesehen, aber nichts konkretes zu meinem Sachverhalt gefunden.. Ich wäre für jede zeitsparende Maßnahme sehr dankbar!! Daumen hoch

Grüße,
agrartech
02.12.2015 16:49 agrartech ist offline Beiträge von agrartech suchen Nehmen Sie agrartech in Ihre Freundesliste auf
Karlito Karlito ist männlich
Kaiser


Dabei seit: 11.04.2011
Beiträge: 1.461

Auf diesen Beitrag antworten Zitatantwort auf diesen Beitrag erstellen Diesen Beitrag editieren/löschen Diesen Beitrag einem Moderator melden       Zum Anfang der Seite springen

Hallo agrartech,

ich habe Pentaho leider nie selbst verwendet. Daher kann ich leider keine weitere Auskunft geben.

SQL ist eine Sprache, die habe ich auch verwendet. Ich denke, die kommt auch in Pentaho bei Bedarf zum Einsatz. Spoon ist glaube nur das Programm, was die ETL-Vorgänge startet. Was ich meinte, ist dass ich den Microsoft SQL-Server verwende. Das ist ein Datenbanksystem, bei dem Komponenten mitgeliefert werden, die wie Pentaho funktionieren. Die heißen da Integration Services.

Gruß,

Karlito
04.12.2015 16:15 Karlito ist offline E-Mail an Karlito senden Beiträge von Karlito suchen Nehmen Sie Karlito in Ihre Freundesliste auf
Baumstruktur | Brettstruktur
Gehe zu:
Neues Thema erstellen Antwort erstellen
Informatiker Board » Themengebiete » Praktische Informatik » Mehrere Datenquellen zu einer großen Datei verarbeiten