Настройка Resource Group на основе Audit Log¶

В StarRocks Resource Groups обеспечивают эффективную изоляцию ресурсов путём выделения лимитов CPU, памяти и параллелизма на основе классификаторов, таких как идентичность пользователя и тип запроса. Эта функция критична для эффективного использования ресурсов в multi‑tenant среде.

Традиционная настройка resource group часто опирается на эмпирические оценки. Анализируя исторические данные запросов из таблицы audit log starrocks_audit_db__.starrocks_audit_tbl__, администраторы могут применять data‑driven подход к тюнингу resource groups. Ключевые метрики — CPU time, потребление памяти и параллелизма — дают объективное представление о характеристиках нагрузки.

Такой подход помогает:

Предотвращать рост латентности запросов из‑за конкуренции за ресурсы
Защищать кластер от истощения ресурсов
Повышать общую стабильность и предсказуемость

В этом разделе — пошаговое руководство по выводу корректных параметров resource group на основе паттернов нагрузки, наблюдаемых в audit logs.

Распределение CPU¶

Цель¶

Определить потребление CPU на пользователя и пропорционально выделить CPU с помощью cpu_weight или exclusive_cpu_cores.

Анализ¶

Следующий SQL агрегирует суммарное CPU‑время по пользователю (cpuCostNs) за последние 30 дней, переводит его в секунды и вычисляет долю от общего CPU‑времени.

SELECT 
    user,
    SUM(cpuCostNs) / 1e9 AS total_cpu_seconds,                  -- Query the total CPU time.
    (
        SUM(cpuCostNs) /
        (
            SELECT SUM(cpuCostNs)
            FROM starrocks_audit_db__.starrocks_audit_tbl__
            WHERE state IN ('EOF','OK')
              AND timestamp >= DATE_SUB(CURRENT_DATE(), INTERVAL 30 DAY)
        )
    ) * 100 AS cpu_usage_percentage                             -- Calculate the percentage of total CPU usage per user.
FROM starrocks_audit_db__.starrocks_audit_tbl__
WHERE state IN ('EOF','OK')                                     -- Include queries that are finished only.
  AND timestamp >= DATE_SUB(CURRENT_DATE(), INTERVAL 30 DAY)    -- Query the data of the last 30 days.
GROUP BY user
ORDER BY total_cpu_seconds DESC
LIMIT 20;                                                       -- List the top 20 users with the most CPU resource consumption.

Управление памятью¶

Цель¶

Выявить пользователей, интенсивно потребляющих память, и определить уместные лимиты и предохранители.

Анализ¶

Следующий SQL вычисляет максимальное потребление памяти на пользователя (memCostBytes) для одного запроса за последние 30 дней.

SELECT 
    user,
    MAX(memCostBytes) / (1024 * 1024) AS max_mem_mb            -- Max memory usage (in MB) per query.
FROM starrocks_audit_db__.starrocks_audit_tbl__
WHERE state IN ('EOF','OK')                                    -- Include queries that are finished only.
  AND timestamp >= DATE_SUB(CURRENT_DATE(), INTERVAL 30 DAY)   -- Query the data of the last 30 days.
GROUP BY user
ORDER BY max_mem_mb DESC
LIMIT 20;                                                      -- List the top 20 users with the most memory resource consumption.

Контроль параллелизма¶

Цель¶

Определить пиковый параллелизм запросов на пользователя и задать уместные значения concurrency_limit.

Анализ¶

Следующий SQL анализирует поминутный параллелизм запросов за последние 30 дней и извлекает максимальное значение для каждого пользователя.

WITH UserConcurrency AS (
    SELECT 
        user,
        DATE_FORMAT(timestamp, '%Y-%m-%d %H:%i') AS minute_bucket,
        COUNT(*) AS query_concurrency
    FROM starrocks_audit_db__.starrocks_audit_tbl__
    WHERE state IN ('EOF', 'OK')                              -- Include queries that are finished only.
      AND timestamp >= DATE_SUB(NOW(), INTERVAL 30 DAY)       -- Query the data of the last 30 days.
      AND LOWER(stmt) LIKE '%select%'                         -- Include SELECT statements only.
    GROUP BY user, minute_bucket
    HAVING query_concurrency > 1                              -- Exclude scenarios where concurrency is less than one query per minute.
)
SELECT 
    user,
    minute_bucket,
    query_concurrency / 60.0 AS query_concurrency_per_second  -- Query the per-second concurrency.
FROM (
    SELECT 
        user,
        minute_bucket,
        query_concurrency,
        ROW_NUMBER() OVER (
            PARTITION BY user
            ORDER BY query_concurrency DESC
        ) AS rn
    FROM UserConcurrency
) ranked
WHERE rn = 1                                                  -- Keep the highest record for each user.
ORDER BY query_concurrency_per_second DESC
LIMIT 50;                                                     -- List the top 50 users with the highest concurrency.

Изоляция ресурсов для асинхронных Materialized View¶

Цель¶

Исключить влияние операций обновления асинхронных materialized view на интерактивные запросы.

Анализ¶

Следующий SQL выявляет «ресурсоёмкие» операции обновления MV, обычно выраженные INSERT OVERWRITE.

SELECT 
    user,
    MAX(memCostBytes) / (1024 * 1024) AS max_mem_mb             -- Max memory usage (in MB) per query.
FROM starrocks_audit_db__.starrocks_audit_tbl__
WHERE state IN ('EOF','OK')                                     -- Include queries that are finished only.
  AND timestamp >= DATE_SUB(CURRENT_DATE(), INTERVAL 30 DAY)    -- Query the data of the last 30 days.
  AND LOWER(stmt) LIKE '%insert overwrite%'                     -- Include materialized view refresh operations only.
GROUP BY user
ORDER BY max_mem_mb DESC
LIMIT 20;                                                       -- List the top 20 users with the most memory resource consumption.

Настройка Resource Group на основе Audit Log¶

Распределение CPU¶

Цель¶

Анализ¶

Рекомендации¶

Управление памятью¶

Цель¶

Анализ¶

Рекомендации¶

Контроль параллелизма¶

Цель¶

Анализ¶

Рекомендации¶

Изоляция ресурсов для асинхронных Materialized View¶

Цель¶

Анализ¶

Рекомендации¶