?>
Die Aktion `analyzeMissingPatterns` aus dem Aktionssatz `dataSciencePilot` ist ein Werkzeug zur Untersuchung von Mustern fehlender Werte in einem Datensatz. Sie identifiziert, welche Kombinationen von Variablen gleichzeitig fehlende Werte aufweisen, und quantifiziert die Häufigkeit jedes Musters. Diese Analyse ist ein entscheidender Schritt in der Datenvorbereitung, da sie hilft, die Mechanismen hinter den fehlenden Daten zu verstehen (z. B. ob sie zufällig sind oder einem Muster folgen) und fundierte Entscheidungen über Imputationsstrategien zu treffen. Die Aktion kann auch die Beziehung zwischen den Mustern fehlender Werte und einer Zielvariable analysieren, was für das Feature-Engineering und die Modellentwicklung wertvoll ist.
| Parameter | Beschreibung |
|---|---|
| casOut | Gibt die CAS-Tabelle an, in der die Analyseergebnisse gespeichert werden sollen. |
| distinctCountLimit | Gibt die Grenze für die Anzahl eindeutiger Werte an. Wenn die Grenze überschritten wird und der Parameter `misraGries` auf True gesetzt ist, wird der Misra-Gries-Frequenz-Sketch-Algorithmus zur Schätzung der Häufigkeitsverteilung verwendet. Andernfalls wird der Vorgang abgebrochen. |
| ecdfTolerance | Gibt den Toleranzwert für die empirische kumulative Verteilungsfunktion an. Dieser Wert wird vom Quantil-Sketch-Algorithmus verwendet. |
| freq | Gibt die Frequenzvariable an. |
| inputs | Gibt die für die Analyse zu verwendenden Variablen an. Sie können eine Teilmenge der Variablen aus der Eingabetabelle angeben. |
| misraGries | Wenn auf True gesetzt, wird der Misra-Gries-Algorithmus für die Schätzung der Häufigkeitsverteilung verwendet, falls die Grenze für die Anzahl eindeutiger Werte überschritten wird. |
| nominals | Gibt die nominalen Variablen an. |
| table | Gibt den Tabellennamen, die Caslib und andere allgemeine Parameter für die Eingabetabelle an. |
| target | Gibt die Zielvariable an. |
Erstellen wir einen Beispieldatensatz in CAS, um die Analyse fehlender Muster zu demonstrieren. Dieser Datensatz wird absichtlich fehlende Werte enthalten, um die Funktionalität der Aktion zu veranschaulichen.
1 DATA mycas.sample_data; 2 INPUT ID Alter$ Einkommen Job$ Produkt$; 3 DATALINES; 4 1 25 50000 A X 5 2 30 . B Y 6 3 . 60000 C Z 7 4 45 75000 . X 8 5 50 . D . 9 6 25 50000 A X 10 7 30 . B Y 11 8 35 80000 C Z 12 9 . . . . 13 10 45 75000 A Y 14 ; 15 RUN;
Dies ist ein einfaches Beispiel, das zeigt, wie die Aktion `analyzeMissingPatterns` für eine Eingangstabelle aufgerufen wird. Die Ergebnisse werden in einer Ausgabetabelle namens `missing_patterns_summary` gespeichert.
| 1 | PROC CAS; |
| 2 | dataSciencePilot.analyzeMissingPatterns |
| 3 | TABLE={name='sample_data'}, |
| 4 | casOut={name='missing_patterns_summary', replace=true}; |
| 5 | RUN; |
Dieses Beispiel zeigt eine detailliertere Analyse, bei der eine Zielvariable (`Produkt`) angegeben wird. Dies ermöglicht es der Aktion, die Beziehung zwischen den Mustern fehlender Werte und der Zielvariable zu untersuchen, was für die Feature-Entwicklung und die Imputationsstrategie nützlich sein kann.
| 1 | PROC CAS; |
| 2 | dataSciencePilot.analyzeMissingPatterns |
| 3 | TABLE={name='sample_data'}, |
| 4 | inputs={'Alter', 'Einkommen', 'Job'}, |
| 5 | target='Produkt', |
| 6 | casOut={name='missing_patterns_detailed', replace=true}; |
| 7 | RUN; |