Mehrere Datenquellen zu einer großen Datei verarbeiten

Neue Frage »

Auf diesen Beitrag antworten »
agrartech Mehrere Datenquellen zu einer großen Datei verarbeiten

Hallo zusammen!

Mein Name ist Janis und ich bin neu in diesem Forum. Falls diese Frage am falschen Ort gestellt wurde oder meine Anfrage grds hier nicht reinpasst, könnt Ihr es mich gerne wissen lassen. Ich lerne gern weiter. ;-)

Ich beschäftige mich derzeit als Werkstudent mit einem Projekt, wo es um ein monatliches Reporting zur Visualisierung von wichtigen Kennzahlen des betroffenen Unternehmens geht. Als Software will ich Power BI von Microsoft nutzen, was mir auch visuell und von seinen Eigenschaften sehr gefällt. Nun habe ich jedoch in Power BI bisher keine Lösung für ein größeres Problem gefunden, was wir haben.

Dieses Problem sieht so aus, dass ich derzeit aus fünf Datenquellen Informationen im Excel Format für meinen Report erhalte. Ziel sollte sein, dass man am Anfang des Reports einmal auf den passenden Händlernamen klickt und fortan die Kenndaten des einen Händlers vor sich hat. Unglücklicherweise sind meine Datenquellen eher unsauber gearbeitet. Bspw. hat ein Händler X in allen fünf Quellen einen unterschiedlichen Namen und eine andere Händlernummer. Auch kann es sein, dass er in einer Tabelle zwei oder dreimal auftaucht, da er bspw. seinen Namen in der Vergangenheit geändert hat.

Meine Frage wäre nun, wie ich diese Problematik lösen kann. Meine Idee hierzu war bisher, dass man ggf eine "Mastertabelle" erstellt, die alle Händlernummern und Händlernamen auf ein Format herunterbrechen könnte und man hier quasi immer am ersten eines Monats die neusten Daten importiert und man am Ende eine Tabelle als Output hat, die man dann mit Power BI verarbeiten kann. Hierzu habe ich mir schon eine komplette Händlerliste mit nun einheitlichen Namen und Nummern geben lassen.

Kann mit hierzu jemand helfen? Geht das mit Excel oder ist das eher was für SQL? Ich bin leider gänzlich neu im Thema und wurde netterweise vor diese sehr große Aufgabe gestellt, die mich aber umso mehr motiviert! Habt daher Nachsicht, wenn ich etwas nicht direkt verstehe;-)

Danke für die Hilfe! Daumen hoch
 
Auf diesen Beitrag antworten »
Karlito

Hallo agrartech,

als Standard-Lösung für das Problem, was du schilderst benutze ich immer die Integration-Services und die Reporting Services von Microsoft. Diese sind mit einem SQL-Server ab Standard-Edition verfügbar. Leider jedoch auch recht Preisintensiv und deshalb vielleicht nicht geeignet.

Im Prinzip würde ich ähnlich vorgehen wie Du: Die Daten in eine zentrale Datenbank laden und diese dann auswerten. Für das Laden der Daten sind bei mir die Integration-Services verantwortlich. Die Auswertung macche ioh dann mit den Reporting-Services, wobei bei dir da ja vlt Power-BI zum Einsatz kommen kann.

Als Open-Source Variante kannst Du dir für diesen Zweck ja mal Pentaho anschauen. Leider findet man die Open-Source-Version eher schlecht. Aber schau mal hier: http://community.pentaho.com/.

Was die Herangehensweise mit den Unsauberen Daten angeht: Ich würde den Import so schreiben, dass er Prüfungen durchführt. Schlagen diese Fehl, so wird der Datensatz in eine Fehlertabelle geschrieben und muss manuell korrigiert werden. Man kann sich noch schöne Spielarten ausdenken, wie man offensichtliche Fehler (geringe Edit-Distanz) ignoriert.

So, ich hoffe das hilft erstmal weiter.

Gruß,

Karlito
Auf diesen Beitrag antworten »
agrartech

Hallo Karlito,

danke für die schnelle und aufschlussreiche Antwort! So etwas habe ich mir erhofft. Ich habe mich mal etwas länger ins Thema Pentaho eingearbeitet und denke, dass dies auf jeden Fall passen könnte. Nur ist für mich prinzipiell die Einarbeitung in eine solch neue Technik extrem kompliziert, weil ich wie gesagt, nicht vom Fach bin.

Du sagst, dass Du dafür normalerweise SQL verwendest? Wenn ich es bei Pentaho richtig verstanden habe, ist die für mich zu gebrauchende Komponente Spoon, richtig? Mit SQL kann man genau das gleiche erreichen? Weil ich ggf für SQL einen Kollegen hätte, der mich etwas an die Hand nehmen könnte.

Oder hast Du für Pentaho eine gute Anleitung oder ein Tutorial o.ä. zur Hand, was Du empfehlen könntest? Habe mich auf Youtube zwar schon intensiv umgesehen, aber nichts konkretes zu meinem Sachverhalt gefunden.. Ich wäre für jede zeitsparende Maßnahme sehr dankbar!! Daumen hoch

Grüße,
agrartech
Auf diesen Beitrag antworten »
Karlito

Hallo agrartech,

ich habe Pentaho leider nie selbst verwendet. Daher kann ich leider keine weitere Auskunft geben.

SQL ist eine Sprache, die habe ich auch verwendet. Ich denke, die kommt auch in Pentaho bei Bedarf zum Einsatz. Spoon ist glaube nur das Programm, was die ETL-Vorgänge startet. Was ich meinte, ist dass ich den Microsoft SQL-Server verwende. Das ist ein Datenbanksystem, bei dem Komponenten mitgeliefert werden, die wie Pentaho funktionieren. Die heißen da Integration Services.

Gruß,

Karlito
 
 
Neue Frage »
Antworten »


Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »