?> boxPlot - WeAreCAS
percentile

boxPlot

Descripción

La acción `percentile.boxPlot` en SAS Viya es una herramienta de análisis estadístico que se utiliza para calcular un conjunto completo de estadísticas descriptivas necesarias para construir diagramas de caja (box plots). Estos diagramas son fundamentales para visualizar la distribución de datos numéricos, identificar la mediana, los cuartiles, los valores atípicos y la dispersión de una variable. La acción puede procesar grandes volúmenes de datos de manera eficiente en el entorno distribuido de CAS.

percentile.boxPlot { attributes={{name="variable-name", format="string", formattedLength=integer, label="string", nfd=integer, nfl=integer}, ...}, binNum=64-bit-integer, casOut={caslib="string", compress=TRUE|FALSE, indexVars={"variable-name-1", ...}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR"|"INHERIT"|"STANDARD", name="table-name", promote=TRUE|FALSE, replace=TRUE|FALSE, replication=integer, tableRedistUpPolicy="DEFER"|"NOREDIST"|"REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1", ...}}, freq="variable-name", groupByLimit=64-bit-integer, includeMissingGroup=TRUE|FALSE, inputs={{name="variable-name", format="string", formattedLength=integer, label="string", nfd=integer, nfl=integer}, ...}, method="EXACT"|"ITERATIVE", nOutBins=integer, nOutLimit=integer, outliers=TRUE|FALSE, partition=TRUE|FALSE, partKey={"string-1", ...}, pctlDef=64-bit-integer, table={caslib="string", computedOnDemand=TRUE|FALSE, computedVars={{name="variable-name", format="string", formattedLength=integer, label="string", nfd=integer, nfl=integer}, ...}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1, ...}, groupBy={{name="variable-name", format="string", formattedLength=integer, label="string", nfd=integer, nfl=integer}, ...}, groupByMode="NOSORT"|"REDISTRIBUTE", importOptions={fileType="ANY"|"AUDIO"|"AUTO"|"BASESAS"|"CSV"|"DELIMITED"|"DOCUMENT"|"DTA"|"ESP"|"EXCEL"|"FMT"|"HDAT"|"IMAGE"|"JMP"|"LASR"|"PARQUET"|"SOUND"|"SPSS"|"VIDEO"|"XLS", fileType-specific-parameters}, name="table-name", orderBy={{name="variable-name", format="string", formattedLength=integer, label="string", nfd=integer, nfl=integer}, ...}, singlePass=TRUE|FALSE, where="where-expression", whereTable={casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY"|"AUDIO"|"AUTO"|"BASESAS"|"CSV"|"DELIMITED"|"DOCUMENT"|"DTA"|"ESP"|"EXCEL"|"FMT"|"HDAT"|"IMAGE"|"JMP"|"LASR"|"PARQUET"|"SOUND"|"SPSS"|"VIDEO"|"XLS", fileType-specific-parameters}, name="table-name", vars={{name="variable-name", format="string", formattedLength=integer, label="string", nfd=integer, nfl=integer}, ...}, where="where-expression"}}, whiskerPercentile=double };
Parámetros
ParámetroDescripción
attributesEspecifica atributos temporales, como un formato, para aplicar a las variables de entrada.
binNumDefine el número de contenedores (bins) a utilizar en el cálculo de tres pasadas.
casOutEspecifica la tabla de salida CAS donde se almacenarán los resultados del análisis.
freqIndica la variable que contiene la frecuencia de cada observación.
groupByLimitEstablece el número máximo de niveles en un conjunto de agrupación (group-by).
includeMissingGroupSi se establece en Verdadero, permite que los valores perdidos se utilicen como claves de agrupación.
inputsEspecifica las variables de entrada que se utilizarán en el análisis.
methodEspecifica el algoritmo para el análisis de percentiles. Los algoritmos soportados son el método Iterativo y el método Exacto.
nOutBinsEspecifica el número de contenedores a utilizar para reportar valores atípicos. Su especificación implica una solicitud para calcular valores atípicos.
nOutLimitEspecifica el número máximo de valores atípicos a devolver. Se devuelven los valores atípicos reales en lugar de los valores en contenedores.
outliersSi se establece en Verdadero, se calculan los valores atípicos.
partitionSi se establece en Verdadero y la tabla está particionada, los resultados se calculan de manera eficiente para cada partición.
partKeyPermite especificar una clave de partición para calcular los resultados en una única partición específica.
pctlDefEspecifica una de las cinco definiciones para calcular estadísticas de cuantiles (percentiles).
tableEspecifica la tabla de entrada para el análisis.
whiskerPercentileEspecifica el percentil para los bigotes inferior y superior. Por ejemplo, un valor de 10 establece los bigotes en los percentiles 10 y 90.
Preparación de datos
Creación de Datos de Muestra

Este bloque de código crea una tabla CAS de muestra llamada 'cars_test' que contiene datos sobre diferentes modelos de coches, incluyendo su tipo, origen, y especificaciones como MPG y peso. Esta tabla se utilizará en los ejemplos siguientes para demostrar el uso de la acción boxPlot.

1DATA casuser.cars_test;
2 SET sashelp.cars;
3RUN;

Ejemplos

Este ejemplo realiza un análisis de diagrama de cajas para la variable 'MPG_City' de la tabla 'cars_test'. Calcula las estadísticas básicas como la mediana, los cuartiles y los bigotes.

Código SAS® / CAS
¡Copiado!
1PROC CAS; percentile.boxPlot TABLE={name='cars_test'}, inputs={{name='MPG_City'}}; RUN; QUIT;
Resultado :
El resultado es una tabla que muestra las estadísticas del diagrama de cajas para la variable 'MPG_City', incluyendo la media, la desviación estándar, los valores mínimo y máximo, los cuartiles y la mediana.

Este ejemplo calcula las estadísticas del diagrama de cajas para las variables 'MPG_City' y 'Weight', agrupadas por la variable 'Type'. También habilita la detección de valores atípicos y guarda los resultados en una tabla CAS llamada 'boxplot_results'.

Código SAS® / CAS
¡Copiado!
1PROC CAS; percentile.boxPlot TABLE={name='cars_test'}, inputs={{name='MPG_City'}, {name='Weight'}}, casOut={name='boxplot_results', replace=true}, groupBy={'Type'}, outliers=true; RUN; QUIT;
Resultado :
Se genera una tabla de salida 'boxplot_results' que contiene las estadísticas del diagrama de cajas para 'MPG_City' y 'Weight', calculadas para cada categoría de 'Type'. La tabla también incluye información sobre los valores atípicos detectados.

Este ejemplo demuestra cómo definir los bigotes del diagrama de cajas utilizando percentiles específicos. Aquí, los bigotes se establecen en los percentiles 10 y 90 para la variable 'Horsepower'.

Código SAS® / CAS
¡Copiado!
1PROC CAS; percentile.boxPlot TABLE={name='cars_test'}, inputs={{name='Horsepower'}}, whiskerPercentile=10; RUN; QUIT;
Resultado :
La tabla de resultados mostrará las estadísticas del diagrama de cajas para 'Horsepower', donde los bigotes inferior y superior corresponden a los percentiles 10 y 90 de los datos, respectivamente.

Este ejemplo utiliza el método de cálculo 'EXACT' para una mayor precisión y solicita la devolución de hasta 5 valores atípicos reales (no en contenedores) tanto en el extremo inferior como en el superior de la distribución para la variable 'EngineSize'.

Código SAS® / CAS
¡Copiado!
1PROC CAS; percentile.boxPlot TABLE={name='cars_test'}, inputs={{name='EngineSize'}}, method='EXACT', nOutLimit=5; RUN; QUIT;
Resultado :
Los resultados proporcionarán un análisis de diagrama de cajas de alta precisión para 'EngineSize' y listarán hasta 5 de los valores más altos y 5 de los más bajos que se consideran atípicos.

FAQ

¿Para qué sirve la acción `boxPlot` en SAS Viya?
¿Qué especifica el parámetro `method`?
¿Cómo puedo gestionar y visualizar los valores atípicos (outliers)?
¿Qué es el parámetro `pctlDef`?
¿Cómo se determinan los bigotes (whiskers) del diagrama de caja?