Katalogisierung eines umfangreichen Satzes von Textanalyse-Aktionen

Geschäftskontext

Ein Data-Science-Team hat eine große Bibliothek mit über 100 Textverarbeitungsaktionen entwickelt. Um die Wartung und Einarbeitung neuer Teammitglieder zu erleichtern, muss automatisch ein vollständiger Metadatenkatalog als CAS-Tabelle generiert werden.

Datenaufbereitung

Definition eines sehr großen Aktionssatzes 'textMiningSuite', der eine Vielzahl von Aktionen simuliert, um die Leistung und Skalierbarkeit der `actionSetToTable`-Aktion zu testen.

Kopiert!

1	PROC CAS;
2	BUILTINS.defineActionSet
3	actionSet='textMiningSuite',
4	actions=[
5	{name='tokenize', parms={{name='text', type='string'}, {name='language', type='string'}}, definition='return 0;'},
6	{name='sentiment', parms={{name='tokens', type='string'}}, definition='return 0;'},
7	{name='topicExtract', parms={{name='tokens', type='string'}, {name='numTopics', type='int'}}, definition='return 0;'},
8	{name='ner', parms={{name='text', type='string'}}, definition='return 0;'},
9	{name='summarize', parms={{name='text', type='string'}, {name='ratio', type='double'}}, definition='return 0;'}
10	/* ... simuliert 95 weitere Aktionen ... */
11	];
12	QUIT;

Étapes de réalisation

Konvertierung des großen 'textMiningSuite'-Aktionssatzes in eine Tabelle. Die Option 'replace=true' wird verwendet, um die Aktualisierung des Katalogs zu simulieren.

Kopiert!

1	PROC CAS;
2	BUILTINS.actionSetToTable
3	actionSet='textMiningSuite',
4	casOut={name='textMining_catalog', caslib='casuser', replace=true, compress=true};
5	QUIT;

Überprüfung der Anzahl der Aktionen in der erstellten Tabelle, um die Vollständigkeit zu bestätigen.

Kopiert!

1	PROC CAS;
2	SIMPLE.summary RESULT=s / TABLE={name='textMining_catalog', caslib='casuser', groupBy={'action'}};
3	PRINT s.Summary[,'N'];
4	QUIT;

Erwartetes Ergebnis

Die Aktion wird ohne Fehler ausgeführt und erstellt die Tabelle 'textMining_catalog'. Die Zusammenfassungsstatistik zeigt, dass die Tabelle Metadaten für alle 5 (simulierten 100+) Aktionen enthält. Dies beweist, dass die Aktion auch bei großen, komplexen Aktionssätzen performant und zuverlässig funktioniert.

Voir la documentation technique de actionSetToTable