?>Array ( [lang] => fr [id] => 80 ) Scénario Volumétrie : Accès à un Data Lake avec Structure de Sous-Répertoires - WeAreCAS
table addCaslib

Scénario Volumétrie : Accès à un Data Lake avec Structure de Sous-Répertoires

Scénario de test & Cas d'usage

Contexte Métier

Une institution financière stocke ses données de risque dans une arborescence de répertoires par année et par trimestre. Un data scientist a besoin d'un accès unifié et persistant à l'ensemble de ces données via une seule caslib pour mener des études de risque transversales.
Préparation des Données

Création d'une arborescence de répertoires simulée (/tmp/risk_datalake/) et de plusieurs fichiers CSV répartis dans les sous-répertoires.

Copié !
1filename risk22 '/tmp/risk_datalake/2022/Q4/risk_q4_22.csv';
2filename risk23 '/tmp/risk_datalake/2023/Q1/risk_q1_23.csv';
3DATA _null_;
4 file risk22 dsd dlm=',' lrecl=256;
5 put 'RiskType,Exposure,Date';
6 put 'Credit,1200000,2022-10-15';
7 put 'Market,750000,2022-11-20';
8 file risk23 dsd dlm=',' lrecl=256;
9 put 'RiskType,Exposure,Date';
10 put 'Credit,1350000,2023-01-25';
11 put 'Operational,50000,2023-02-10';
12RUN;

Étapes de réalisation

1
Ajout d'une caslib persistante pointant à la racine du data lake et activant l'exploration des sous-répertoires.
Copié !
1PROC CAS; TABLE.addCaslib / name='RISK_LAKE' path='/tmp/risk_datalake/' dataSource={srcType='PATH'} subDirectories=TRUE SESSION=FALSE description='Caslib persistante pour le Data Lake de Risque'; RUN;
2
Vérification que la caslib a été créée et est persistante (visible dans les informations globales).
Copié !
1PROC CAS; TABLE.caslibInfo / caslib='RISK_LAKE'; RUN;
3
Utilisation de l'action 'fileInfo' pour lister tous les fichiers accessibles via la caslib, prouvant que les sous-répertoires sont bien explorés.
Copié !
1PROC CAS; TABLE.fileInfo / caslib='RISK_LAKE'; RUN;
4
Chargement d'un fichier spécifique depuis un sous-répertoire pour confirmer l'accès.
Copié !
1PROC CAS; TABLE.loadTable / caslib='RISK_LAKE' path='2023/Q1/risk_q1_23.csv' casOut={name='risk_2023_q1', caslib='casuser', replace=TRUE}; RUN;

Résultat Attendu


Une caslib persistante nommée 'RISK_LAKE' est créée. L'action 'fileInfo' retourne la liste des deux fichiers CSV situés dans des sous-répertoires différents. Le chargement d'un fichier en spécifiant son chemin relatif depuis la racine de la caslib réussit, validant l'accès unifié à l'ensemble de l'arborescence de données.