

 **Ayude a mejorar esta página** 

Para contribuir a esta guía del usuario, elija el enlace **Edit this page on GitHub** que se encuentra en el panel derecho de cada página.

# Supervisión de datos de clústeres con Amazon CloudWatch
<a name="cloudwatch"></a>

Amazon CloudWatch es un servicio de supervisión que recopila métricas y registros de los recursos en la nube. CloudWatch proporciona algunas métricas básicas de Amazon EKS de forma gratuita cuando se utiliza un clúster nuevo de la versión `1.28` o posterior. Sin embargo, al utilizar el operador de observabilidad de CloudWatch como complemento de Amazon EKS, se obtienen características de observabilidad mejoradas.

## Métricas básicas en Amazon CloudWatch
<a name="cloudwatch-basic-metrics"></a>

En el caso de clústeres de la versión `1.28` o posterior de Kubernetes, obtendrá métricas suministradas por CloudWatch de forma gratuita en el espacio de nombres de `AWS/EKS`. En la siguiente tabla se presenta una lista de las métricas básicas disponibles para las versiones compatibles. Cada métrica que aparece en la lista tiene una frecuencia de un minuto.


| Nombre de métrica | Descripción | 
| --- | --- | 
|  `apiserver_flowcontrol_current_executing_seats`  | El número de plazas que se utilizan actualmente para ejecutar las solicitudes de la API. La asignación de plazas se determina mediante las configuraciones priority\_level y flow\_schema de la [característica](https://kubernetes.io/docs/concepts/cluster-administration/flow-control/) de prioridad y equidad de la API de Kubernetes.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `scheduler_schedule_attempts_total`  | El número total de intentos del programador para programar los pods en el clúster durante un periodo determinado. Esta métrica ayuda a supervisar la carga de trabajo del programador y puede indicar la presión de programación o los posibles problemas relacionados con la ubicación de los pods.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `scheduler_schedule_attempts_SCHEDULED`  | El número de intentos correctos del programador para programar los pods en los nodos del clúster durante un periodo determinado.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `scheduler_schedule_attempts_UNSCHEDULABLE`  | El número de intentos para programar pods que no se pudieron programar durante un periodo determinado debido a restricciones válidas, como la falta de CPU o memoria en un nodo.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `scheduler_schedule_attempts_ERROR`  | El número de intentos para programar pods que no se pudieron programar durante un periodo determinado debido a un problema interno del propio programador, como problemas de conectividad con el servidor de API.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `scheduler_pending_pods`  | El número total de pods pendientes que programará el programador en el clúster durante un periodo determinado.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `scheduler_pending_pods_ACTIVEQ`  | El número de pods pendientes en ActiveQ que están esperando su programación en el clúster durante un periodo determinado.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `scheduler_pending_pods_UNSCHEDULABLE`  | El número de pods pendientes que el programador intentó programar y fallaron, y que se mantienen en un estado no programable para volver a intentarlo.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `scheduler_pending_pods_BACKOFF`  | El número de pods pendientes en `backoffQ` en estado de retroceso a la espera de que venza su periodo de retroceso.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `scheduler_pending_pods_GATED`  | El número de pods pendientes que se encuentran actualmente en espera en un estado cerrado, ya que no se pueden programar hasta que cumplan las condiciones requeridas.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `apiserver_request_total`  | El número de solicitudes HTTP hechas en todos los servidores de API del clúster.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `apiserver_request_total_4XX`  | El número de solicitudes HTTP hechas a todos los servidores de API del clúster que generaron códigos de estado `4XX` (error del cliente).<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `apiserver_request_total_429`  | El número de solicitudes HTTP hechas a todos los servidores de API del clúster que generaron un código de estado `429`, que se produce cuando los clientes superan los límites de umbrales de frecuencia.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `apiserver_request_total_5XX`  | El número de solicitudes HTTP hechas a todos los servidores de API del clúster que generaron códigos de estado `5XX` (error del servidor).<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `apiserver_request_total_LIST_PODS`  | El número de solicitudes pods `LIST` hechas a todos los servidores de API del clúster.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `apiserver_request_duration_seconds_PUT_P99`  | El percentil 99 de latencia de las solicitudes `PUT` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `PUT`.<br /> **Unidades:** segundos<br /> **Estadísticas válidas:** Promedio | 
|  `apiserver_request_duration_seconds_PATCH_P99`  | El percentil 99 de latencia de las solicitudes `PATCH` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `PATCH`.<br /> **Unidades:** segundos<br /> **Estadísticas válidas:** Promedio | 
|  `apiserver_request_duration_seconds_POST_P99`  | El percentil 99 de latencia de las solicitudes `POST` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `POST`.<br /> **Unidades:** segundos<br /> **Estadísticas válidas:** Promedio | 
|  `apiserver_request_duration_seconds_GET_P99`  | El percentil 99 de latencia de las solicitudes `GET` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `GET`.<br /> **Unidades:** segundos<br /> **Estadísticas válidas:** Promedio | 
|  `apiserver_request_duration_seconds_LIST_P99`  | El percentil 99 de latencia de las solicitudes `LIST` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `LIST`.<br /> **Unidades:** segundos<br /> **Estadísticas válidas:** Promedio | 
|  `apiserver_request_duration_seconds_DELETE_P99`  | El percentil 99 de latencia de las solicitudes `DELETE` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `DELETE`.<br /> **Unidades:** segundos<br /> **Estadísticas válidas:** Promedio | 
|  `apiserver_current_inflight_requests_MUTATING`  | El número de solicitudes mutantes (`POST`, `PUT`, `DELETE`, `PATCH`) que se están procesando actualmente en todos los servidores de API del clúster. Esta métrica representa las solicitudes en tránsito y que aún no se han procesado.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `apiserver_current_inflight_requests_READONLY`  | El número de solicitudes de solo lectura (`GET`, `LIST`) que se están procesando actualmente en todos los servidores de API del clúster. Esta métrica representa las solicitudes en tránsito y que aún no se han procesado.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `apiserver_admission_webhook_request_total`  | El número de solicitudes de webhook de admisión hechas en todos los servidores de API del clúster.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `apiserver_admission_webhook_request_total_ADMIT`  | El número de solicitudes mutantes de webhook de admisión hechas en todos los servidores de API del clúster.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `apiserver_admission_webhook_request_total_VALIDATING`  | El número de solicitudes de validación de webhook de admisión hechas en todos los servidores de API del clúster.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `apiserver_admission_webhook_rejection_count`  | El número de solicitudes de webhook de admisión hechas en todos los servidores de API del clúster que se rechazaron.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `apiserver_admission_webhook_rejection_count_ADMIT`  | El número de solicitudes mutantes de webhook de admisión hechas en todos los servidores de API del clúster que se rechazaron.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `apiserver_admission_webhook_rejection_count_VALIDATING`  | El número de solicitudes de validación de webhook de admisión hechas en todos los servidores de API del clúster que se rechazaron.<br /> **Unidades**: recuento<br /> **Estadísticas válidas:** Sum | 
|  `apiserver_admission_webhook_admission_duration_seconds`  | El percentil 99 de latencia de las solicitudes de webhook de admisión de terceros se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes de webhook de admisión de terceros.<br /> **Unidades:** segundos<br /> **Estadísticas válidas:** Promedio | 
|  `apiserver_admission_webhook_admission_duration_seconds_ADMIT_P99`  | El percentil 99 de latencia de las solicitudes mutantes de webhook de admisión de terceros se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes mutantes de webhook de admisión de terceros.<br /> **Unidades:** segundos<br /> **Estadísticas válidas:** Promedio | 
|  `apiserver_admission_webhook_admission_duration_seconds_VALIDATING_P99`  | El percentil 99 de latencia de las solicitudes de validación de webhook de admisión de terceros se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes de validación de webhook de admisión de terceros.<br /> **Unidades:** segundos<br /> **Estadísticas válidas:** Promedio | 
|  `etcd_mvcc_db_total_size_in_bytes`  | El tamaño total de la base de datos de almacenamiento asignada físicamente en bytes. Tenga en cuenta que esta métrica mide la asignación de discos físicos y no se utiliza para aplicar cuotas. (también conocido como apiserver\_storage\_size\_bytes).<br /> **Unidades:** bytes<br /> **Estadísticas válidas:** Máximo | 
|  `etcd_mvcc_db_total_size_in_use_in_bytes`  | El tamaño real de los datos de la base de datos etcd, excluido el espacio libre a la espera de la desfragmentación. Esta métrica indica el uso actual de la base de datos y determina si el clúster superará la cuota de tamaño de la base de datos y pasará al modo de solo lectura.<br /> **Unidades:** bytes<br /> **Estadísticas válidas:** Máximo | 

## Amazon CloudWatch Observability Operator
<a name="cloudwatch-operator"></a>

Observabilidad de Amazon CloudWatch recopila datos de rastreo, métricas y registros en tiempo real. Los envía a [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) y [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html). Puede instalar este complemento para habilitar tanto CloudWatch Application Signals como CloudWatch Container Insights con una observabilidad mejorada para Amazon EKS. Esto le ayuda a monitorear el estado y el rendimiento de su infraestructura y aplicaciones en contenedores. El operador de observabilidad de Amazon CloudWatch está diseñado para instalar y configurar los componentes necesarios.

Amazon EKS admite el operador de observabilidad de CloudWatch como [complemento de Amazon EKS](eks-add-ons.md). El complemento permite Información de contenedores en los nodos de trabajo de Linux y Windows del clúster. Para activar Información de contenedores en Windows, la versión del complemento de Amazon EKS debe ser `1.5.0` o posterior. Actualmente, CloudWatch Application Signals no es compatible con Amazon EKS en Windows.

Los siguientes temas describen cómo comenzar a utilizar el operador de observabilidad de CloudWatch para el clúster de Amazon EKS.
+ Para obtener instrucciones sobre la instalación de este complemento, consulte [Instalación del agente de CloudWatch con el complemento de EKS de observabilidad de Amazon CloudWatch o el gráfico de Helm](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/install-CloudWatch-Observability-EKS-addon.html) en la *Guía del usuario de Amazon CloudWatch*.
+ Para obtener más información sobre CloudWatch Application Signals, consulte [Application Signals](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Application-Monitoring-Sections.html) en la *Guía del usuario de Amazon CloudWatch*.
+ Para obtener más información sobre Container Insights, consulte [Using Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) en la *Guía del usuario de Amazon CloudWatch*.