分组健康状态

分组健康状态用于判断调用异常是单个请求问题，还是某个套餐、模型、上游分组或团队成员的集中问题。企业和团队管理员可以用它快速回答三个问题：

哪个分组在指定时间范围内成功率下降
哪个用户或令牌贡献了主要请求量、消耗或错误
错误是集中在单个 Token，还是已经影响整个分组

排查接口异常时，先看分组健康状态，再进入单条使用日志定位具体 request_id。

数据口径

本页嵌入的公开 status 页面查询的是所选时间段内 aicentos 整个平台所有用户正在使用的分组健康状态，反映全平台分组可用性，具备实时性、公正性和稳定性。

控制台内的 使用日志 → 分组健康状态 按当前账号权限统计可见数据。个人用户通常只看到自己的 Token；企业和团队管理员可结合用户、用户名、令牌和分组维度查看团队使用情况。

如果上方状态页未正常加载，可直接打开 aicentos 分组健康状态。

控制台入口：控制台 → 使用日志。在错误日志或统计视图中，按时间范围、模型、Token、分组、错误消息和状态码筛选。

控制台示例

下面是控制台 使用日志 → 分组健康状态 的示例截图，展示分组的成功率、请求数、消耗、缓存命中、平均耗时、最近请求时间和失败原因。

控制台分组健康状态示例

使用原则

先判断影响范围，再处理单条错误。单条日志适合定位具体请求，分组健康状态适合判断问题是否集中发生。

需要解释单条错误消息时，请查看错误日志说明。

列表展示字段

控制台列表和 CSV 导出的展示列保持一致。列表同时展示两类行：

分组行：汇总一个分组在当前时间范围内的整体健康状态。
令牌行：展示某个分组下的用户和令牌明细，便于企业、团队管理员定位成员、项目或服务。

展示字段	适用行	字段说明	使用建议
类型	分组行、令牌行	标识当前行是 `分组` 汇总，还是 `令牌` 明细	先看分组行判断整体状态，再看令牌行定位具体成员或 Token
分组	分组行、令牌行	当前时间段内出现过的分组，包含按量分组、套餐分组、默认分组或特定模型分组	判断问题是否集中在某个套餐、模型或上游资源池
用户ID	令牌行	使用该令牌的用户 ID	企业排查时用于定位成员账号
用户名	令牌行	使用该令牌的用户名	用于团队报表、成员沟通和权限核对
令牌	令牌行	控制台中配置的 Token 名称	判断异常是否只集中在某个 Token
成功率	分组行、令牌行	成功率 = 成功次数 / 总请求数	低于 80% 建议关注；明显低于同组其他行时，优先排查该分组或令牌
请求数	分组行、令牌行	当前时间范围内的总请求数	样本量太小时不要过度解读成功率
成功	分组行、令牌行	返回 2xx 的成功请求次数	与“请求数”“错误”一起判断整体可用性
错误	分组行、令牌行	返回错误（4xx/5xx）的请求次数	错误数升高时，优先查看“失败原因”和错误日志
消耗	分组行、令牌行	当前时间段累计的额度消耗，导出时按金额展示	用于团队成本核算、项目分摊和异常消耗识别
缓存命中率	分组行、令牌行	缓存命中率 = 命中缓存的 Token / 总 Token	越高越省钱；命中部分通常按低价或免费计算
缓存Tokens	分组行、令牌行	当前时间段命中缓存的 Token 数	这部分通常按低折扣计价，越多越省
缓存请求数	分组行、令牌行	至少命中一次缓存的请求次数	衡量有多少请求实际用到了缓存
缓存请求占比	分组行、令牌行	缓存请求占比 = 命中缓存的请求 / 总请求	越高代表越多调用享受到了缓存优惠
平均缓存Tokens	分组行、令牌行	平均每次命中缓存的 Token 数	用于比较不同成员、服务或分组的缓存利用效率
平均耗时	分组行、令牌行	平均每次请求耗时，单位为秒	越低代表上游响应越快；耗时升高时排查长上下文、长输出和工具链路
开始时间	分组行、令牌行	当前时段内该分组或令牌首次出现的时间	定位问题或调用开始时间
最后请求	分组行、令牌行	当前时段内该分组或令牌最近一次出现的时间	判断问题或调用是否仍在持续
失败原因	分组行	出现频率最高的几条失败原因，包含状态码和次数；无错误时为空或 `-`	优先处理次数最多的错误，不要只看最后一条日志

字段来源

展示字段由后台统计数据聚合生成。日常使用以控制台列表和 CSV 导出列为准；只有对接接口或技术排查时，才需要再对照底层字段名。

团队定位

先看分组行判断是否是资源池问题，再看令牌行判断是否由某个用户或令牌造成。如果分组成功率正常但单个令牌错误率高，通常优先排查该成员的 Token、模型名、客户端配置或请求体。

CSV 导出说明

CSV 导出就是把当前列表按相同列导出，适合企业和团队做周报、成本分摊、异常复盘和成员用量对账。

导出后可使用在线 CSV 查看器打开预览。该工具支持拖拽或选择 CSV 文件，也可以粘贴 CSV 文本，适合快速检查列内容和失败原因。

导出表现	说明
分组行	`类型` 为 `分组`，用户 ID、用户名、令牌通常为空，表示该分组的整体汇总
令牌行	`类型` 为 `令牌`，会展示用户 ID、用户名和令牌名称，表示该分组下的成员或 Token 明细
金额格式	`消耗` 以控制台金额格式展示，例如 `¥905.48`
百分比格式	成功率、缓存命中率、缓存请求占比会导出为百分比
数字格式	大数字可能带千分位分隔符，适合直接阅读或导入表格工具
时间格式	开始时间、最后请求会导出为本地时间，便于和问题发生时间对齐
失败原因	多个高频错误会合并展示，并在末尾标出出现次数；无错误时为空或 `-`

排查流程

一、判断影响范围

先看 类型=分组 的汇总行。如果“成功率”接近正常水平，且“错误”很低，通常是偶发错误，可复制单条请求的 request_id 继续排查。

如果某个分组的“成功率”明显低于其他分组，或“错误”集中升高，优先按分组排查模型、Token、上游账号、套餐权限和平台资源状态。

企业或团队场景下，再看该分组下的 类型=令牌 明细行。如果只有某个用户或令牌异常，优先排查该成员的客户端配置、Token、模型名、请求体和并发策略。

二、再看 Top 错误原因

“失败原因”通常按出现次数展示。排查时先处理最高频错误，再看低频错误。高频错误能反映当前时间范围内的主要故障类型。

错误类型	常见日志关键词	初步归因	优先判断
频率限制	`Account RPM limit exceeded`、`Max 10/min`、`Max 5/min`	使用问题或上游限制	并发或每分钟请求数过高
日额度限制	`Account daily limit exceeded`	上游限制	上游账号今日额度已用尽
凭证冷却	`All credentials ... are cooling down`	上游限制	当前模型上游凭证均处于冷却期
请求体过大	`status_code=413`、`openai_error`	使用问题	上下文、文件、图片或工具结果过大
权限或认证	`401`、`403`、`Invalid API key`、`pending admin approval`	使用问题或账号状态	Token、套餐、分组或模型权限异常
无可用资源	`No available accounts`、`No available channel`、`auth_unavailable`	平台问题或配置问题	当前分组没有可用账号、通道或认证资源
上游异常	`502`、`all upstreams failed`、`Upstream request failed`	上游问题	上游服务或中间网络异常
网关超时	`504`、`521`、`522`、`524`	上游问题或链路问题	上游连接、读取或响应超时
平台资源保护	`system disk overloaded`、`Service Unavailable`	平台问题	平台节点或上游资源暂不可用
图像接口格式	`gpt-image-2`、`prompt is required`、`multipart form`	使用问题	图像接口路径、提示词或上传格式错误
工具调用格式	`tool_use`、`tool_result`、`Invalid schema`	使用问题	客户端工具消息或 JSON Schema 不符合要求

三、按影响范围处理

现象	更可能的原因	建议处理
只有单个 Token 报错	Token 配置、权限或本地请求格式问题	重新复制 Token，检查客户端配置和请求体
只有单个模型报错	模型权限、模型通道或上游模型资源问题	切换同类模型，确认当前套餐是否支持该模型
只有单个分组成功率低	分组资源池、套餐权限或上游账号问题	切换分组/模型，联系支持时提供分组名和时间范围
多个分组同时出现 `502`、`504`、`521`、`522`、`524`	上游或网络链路异常	稍后重试，减少长任务；持续出现时联系支持
多个请求都出现 `413`	请求体过大	缩短上下文，拆分文件，压缩图片或减少工具结果
多个请求都出现 `429`	请求频率过高、日额度用尽或凭证冷却	降低并发；根据日志区分 RPM、daily limit 和 cooling down

四、结合消耗和缓存

现象	更可能的原因	建议处理
“消耗”明显高于同组其他令牌	大上下文、长输出、高频调用或重复任务	结合请求数、平均耗时和错误日志，定位具体服务或成员
“缓存命中率”高但“缓存请求占比”低	少量大请求命中缓存	检查是否只有固定任务在复用上下文
“缓存请求占比”高但“平均缓存Tokens”低	很多请求命中缓存，但每次收益较小	检查上下文是否过短或缓存内容不稳定
单个令牌“平均耗时”明显偏高	客户端任务较重、上下文长、输出长或上游慢	对比该令牌的请求数、缓存、失败原因和单条日志

支持排查需要的信息

遇到简单问题时，建议先查看错误日志说明和分组健康状态说明自查。仍无法解决时，可以在 console/log 的错误日志详情中点击复制图标，一键复制排查内容。联系支持时，建议一次性提供以下信息给技术排查，减少来回确认：

用户 ID
时间范围：问题开始和最后出现的时间
分组名：group
模型名：请求使用的模型
状态码：例如 429、413、502、503
错误内容：error_reasons.content
请求 ID：单条日志或接口响应中的 request_id
影响范围：单个 Token、单个模型、单个分组，还是多个分组同时异常

快速结论

401 / 403 多看权限，413 多看请求体，429 多看频率和额度，502 / 504 / 524 多看上游和长任务，503 多看资源是否暂不可用。

分组健康状态 ​

控制台示例 ​

列表展示字段 ​

CSV 导出说明 ​

排查流程 ​

一、判断影响范围 ​

二、再看 Top 错误原因 ​

三、按影响范围处理 ​

四、结合消耗和缓存 ​

支持排查需要的信息 ​