Scénario Volumétrie : Accès à un Data Lake avec Structure de Sous-Répertoires - WeAreCAS
tableaddCaslib
Scénario Volumétrie : Accès à un Data Lake avec Structure de Sous-Répertoires
Scénario de test & Cas d'usage
Contexte Métier
Une institution financière stocke ses données de risque dans une arborescence de répertoires par année et par trimestre. Un data scientist a besoin d'un accès unifié et persistant à l'ensemble de ces données via une seule caslib pour mener des études de risque transversales.
Préparation des Données
Création d'une arborescence de répertoires simulée (/tmp/risk_datalake/) et de plusieurs fichiers CSV répartis dans les sous-répertoires.
Copié !
filename risk22 '/tmp/risk_datalake/2022/Q4/risk_q4_22.csv';
filename risk23 '/tmp/risk_datalake/2023/Q1/risk_q1_23.csv';
data _null_;
file risk22 dsd dlm=',' lrecl=256;
put 'RiskType,Exposure,Date';
put 'Credit,1200000,2022-10-15';
put 'Market,750000,2022-11-20';
file risk23 dsd dlm=',' lrecl=256;
put 'RiskType,Exposure,Date';
put 'Credit,1350000,2023-01-25';
put 'Operational,50000,2023-02-10';
run;
Ajout d'une caslib persistante pointant à la racine du data lake et activant l'exploration des sous-répertoires.
Copié !
proc cas; table.addCaslib / name='RISK_LAKE' path='/tmp/risk_datalake/' dataSource={srcType='PATH'} subDirectories=TRUE session=FALSE description='Caslib persistante pour le Data Lake de Risque'; run;
1
PROCCAS; TABLE.addCaslib / name='RISK_LAKE' path='/tmp/risk_datalake/' dataSource={srcType='PATH'} subDirectories=TRUE SESSION=FALSE description='Caslib persistante pour le Data Lake de Risque'; RUN;
2
Vérification que la caslib a été créée et est persistante (visible dans les informations globales).
Une caslib persistante nommée 'RISK_LAKE' est créée. L'action 'fileInfo' retourne la liste des deux fichiers CSV situés dans des sous-répertoires différents. Le chargement d'un fichier en spécifiant son chemin relatif depuis la racine de la caslib réussit, validant l'accès unifié à l'ensemble de l'arborescence de données.