您當前的位置：環球傳媒網>前瞻 > 正文

保姆級 Prometheus PromQL 講解與實戰操作

2023-03-25 22:22:02 來源：騰訊云編輯：

一、PromQL 介紹

PromQL（Prometheus Query Language）為 Prometheus tsdb 的查詢語言。是結合 grafana 進行數據展示和告警規則的配置的關鍵部分。

(相關資料圖)

官方文檔：https://prometheus.io/docs/prometheus/latest/querying/basics/

二、四種指標類型

counter（計數器）gauge （儀表類型）histogram（直方圖類型）summary （摘要類型）

1）counter（計數器）

Counter(只增不減的計數器) 類型的指標其工作方式和計數器一樣，只增不減。常見的監控指標，如 http_requests_total、 node_cpu_seconds_total都是 Counter類型的監控指標。

在 node-exporter 返回的樣本數據中，其注釋中也包含了該樣本的類型。例如：

# HELP node_cpu_seconds_total Seconds the cpus spent in each mode.# TYPE node_cpu_seconds_total counternode_cpu_seconds_total{cpu="cpu0",mode="idle"} 362812.7890625

#HELP：解釋當前指標的含義，上面表示在每種模式下 node 節點的 cpu 花費的時間，以 s 為單位。#TYPE：說明當前指標的數據類型，上面是 counter 類型。

counter是一個簡單但又強大的工具，例如我們可以在應用程序中記錄某些事件發生的次數，通過以時間序列的形式存儲這些數據，我們可以輕松的了解該事件產生的速率變化。PromQL內置的聚合操作和函數可以讓用戶對這些數據進行進一步的分析，例如，通過 rate()函數獲取 HTTP 請求量的增長率：

rate(http_requests_total[5m])

查詢當前系統中，訪問量前 10 的 HTTP 請求：

topk(10, http_requests_total)

2）gauge （儀表類型）

與 Counter不同， Gauge（可增可減的儀表盤）類型的指標側重于反應系統的當前狀態。因此這類指標的樣本數據可增可減。常見指標如：node_memory_MemFree_bytes（主機當前空閑的內存大小）、 node_memory_MemAvailable_bytes（可用內存大小）都是 Gauge類型的監控指標。通過 Gauge指標，用戶可以直接查看系統的當前狀態：

node_memory_MemFree_bytes

對于 Gauge類型的監控指標，通過 PromQL內置函數 delta()可以獲取樣本在一段時間范圍內的變化情況。例如，計算 CPU 溫度在兩個小時內的差異：

delta(cpu_temp_celsius{host="zeus"}[2h])

還可以直接使用 predict_linear()對數據的變化趨勢進行預測。例如，預測系統磁盤空間在 4 個小時之后的剩余情況：

predict_linear(node_filesystem_free_bytes[1h], 4 * 3600)

3）Histogram（直方圖類型）和 Summary（摘要類型）

除了 Counter和 Gauge類型的監控指標以外，Prometheus 還定義了 Histogram和 Summary的指標類型。Histogram和 Summary主用用于統計和分析樣本的分布情況。

在大多數情況下人們都傾向于使用某些量化指標的平均值，例如 CPU 的平均使用率、頁面的平均響應時間，這種方式也有很明顯的問題，以系統 API 調用的平均響應時間為例：如果大多數 API 請求都維持在 100ms 的響應時間范圍內，而個別請求的響應時間需要 5s，那么就會導致某些 WEB 頁面的響應時間落到中位數上，而這種現象被稱為長尾問題。為了區分是平均的慢還是長尾的慢，最簡單的方式就是按照請求延遲的范圍進行分組。例如，統計延遲在 0~10ms 之間的請求數有多少而 10~20ms 之間的請求數又有多少。通過這種方式可以快速分析系統慢的原因。Histogram和 Summary都是為了能夠解決這樣的問題存在的，通過 Histogram和 Summary類型的監控指標，我們可以快速了解監控樣本的分布情況。

例如，指標 prometheus_tsdb_wal_fsync_duration_seconds的指標類型為 Summary。它記錄了 Prometheus Server 中 wal_fsync的處理時間，通過訪問 Prometheus Server 的 /metrics地址，可以獲取到以下監控樣本數據：

# HELP prometheus_tsdb_wal_fsync_duration_seconds Duration of WAL fsync.# TYPE prometheus_tsdb_wal_fsync_duration_seconds summaryprometheus_tsdb_wal_fsync_duration_seconds{quantile="0.5"} 0.012352463prometheus_tsdb_wal_fsync_duration_seconds{quantile="0.9"} 0.014458005prometheus_tsdb_wal_fsync_duration_seconds{quantile="0.99"} 0.017316173prometheus_tsdb_wal_fsync_duration_seconds_sum 2.888716127000002prometheus_tsdb_wal_fsync_duration_seconds_count 216

從上面的樣本中可以得知當前 Prometheus Server 進行 wal_fsync操作的總次數為 216 次，耗時 2.888716127000002s。其中中位數（quantile=0.5）的耗時為 0.012352463，9 分位數（quantile=0.9）的耗時為 0.014458005s。

在 Prometheus Server 自身返回的樣本數據中，我們還能找到類型為 Histogram 的監控指標 prometheus_tsdb_compaction_chunk_range_seconds_bucket：

# HELP prometheus_tsdb_compaction_chunk_range_seconds Final time range of chunks on their first compaction# TYPE prometheus_tsdb_compaction_chunk_range_seconds histogramprometheus_tsdb_compaction_chunk_range_seconds_bucket{le="100"} 71prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="400"} 71prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="1600"} 71prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="6400"} 71prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="25600"} 405prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="102400"} 25690prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="409600"} 71863prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="1.6384e+06"} 115928prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="6.5536e+06"} 2.5687892e+07prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="2.62144e+07"} 2.5687896e+07prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="+Inf"} 2.5687896e+07prometheus_tsdb_compaction_chunk_range_seconds_sum 4.7728699529576e+13prometheus_tsdb_compaction_chunk_range_seconds_count 2.5687896e+07

與 Summary類型的指標相似之處在于 Histogram類型的樣本同樣會反應當前指標的記錄的總數(以 _count作為后綴)以及其值的總量（以 _sum作為后綴）。不同在于 Histogram指標直接反應了在不同區間內樣本的個數，區間通過標簽 le 進行定義。

三、表達式四種數據類型

PromQL 查詢語句即表達式，實現的四種數據類型：

瞬時向量（Instant vector）：一組時間序列，每個時間序列包含單個樣本，它們共享相同的時間戳。也就是說，表達式的返回值中只會包含該時間序列中最新的一個樣本值。區間向量（Range vector）：一組時間序列，每個時間序列包含一段時間范圍內的樣本數據。標量（Scalar）：一個浮點型的數據值，沒有時序。可以寫成[-]（digits）[.（digits）]的形式。需要注意的是，使用表達式 count（http_requests_total）返回的數據類型依然是瞬時向量，用戶可以通過內置函數 scalar()將單個瞬時向量轉換為標量。字符串（String）：一個簡單的字符串值。字符串可以用單引號（""）、雙引號（""）或反引號（``）來指定。

1）瞬時向量（Instant vector）

Instance vector（瞬時向量）表示一個時間序列的集合，但是每個時序只有最近的一個點，而不是線。

2）區間向量（Range vector）

Range vector（范圍向量）表示一段時間范圍里的時序，每個時序可包含多個點。

3）標量（Scalar）

Scalar（標量）通常為數值，可以將只有一個時序的 Instance vector 轉換成 Scalar。

4）字符串（String）

一個簡單的字符串值。字符串可以用單引號（""）、雙引號（""）或反引號（``）來指定。

四、時間序列（向量）

按照時間順序記錄系統、設備狀態變化的數據，每個數據成為一個樣本。

數據采集以特定的時間周期進行，因而，隨著時間流逝，將這些樣本數據記錄下來，將生成一個離散的樣本數據序列。該序列也稱為向量（Vector）,以時間軸為橫坐標、序列為縱坐標，這些數據點連接起來就會形成一個矩陣。

1）時間序列的構成

每條時間序列（Time Series）是通過指標名稱（Metrics name）和一組標簽集（Label set）來命名的。

如果 time 相同，但是指標名稱或者標簽集不同，那么時間序列也不同。

2）樣本構成

矩陣中每一個點都可稱為一個樣本（Sample），樣本主要由 3 方面構成。

指標（Metrics）：包括指標名稱（Metrics name）和一組標簽集（Label set）名稱，如 request_total{path="/status"，method="GET"}。時間戳（TimeStamp）：這個值默認精確到毫秒。樣本值（Value）：這個值默認使用 Float64 浮點類型。

時間序列的指標（Metrics）存儲格式為 key-value。

http_request_total{status="200"，method="GET"}@1434417560938=>94355為例，在 Key-Value 關系中，94355 作為 Value（也就是樣本值 Sample Value），前面的 http_request_total{status="200"，method="GET"}@1434417560938一律作為 Key。

3）key 的組成

Metric Name：指標名（例子中的 http_request_total）Label：標簽（例子中的{status="200"，method="GET"}）Timestamp：時間戳（例子中的@1434417560938）

Prometheus Metrics 兩種表現形式：

五、標簽過濾器 4 種運算符

=：與字符串匹配!=：與字符串不匹配=~：與正則匹配!~：與正則不匹配

1）匹配器（Matcher）

匹配器是作用于標簽上的，標簽匹配器可以對時間序列進行過濾，Prometheus 支持完全匹配和正則匹配兩種模式：完全匹配和正則表達式匹配。

2）完全匹配

1、相等匹配器（=）

相等匹配器（Equality Matcher），用于選擇與提供的字符串完全相同的標簽。下面介紹的例子中就會使用相等匹配器按照條件進行一系列過濾。

node_cpu_seconds_total{instance="ydzs-master"}

2、不相等匹配器（!=）

不相等匹配器（Negative Equality Matcher），用于選擇與提供的字符串不相同的標簽。它和相等匹配器是完全相反的。舉個例子，如果想要查看 job 并不是 HelloWorld 的 HTTP 請求總數，可以使用如下不相等匹配器。

3）正則表達式匹配

1、正則表達式匹配器（=~）

正則表達式匹配器（Regular Expression Matcher），用于選擇與提供的字符串進行正則運算后所得結果相匹配的標簽。Prometheus 的正則運算是強指定的，比如正則表達式 a 只會匹配到字符串 a，而并不會匹配到 ab 或者 ba 或者 abc。如果你不想使用這樣的強指定功能，可以在正則表達式的前面或者后面加上“.*”。比如下面的例子表示 job 是所有以 Hello 開頭的 HTTP 請求總數。

node_cpu_seconds_total{instance=~"ydzs-.*", mode="idle"}

node_cpu_seconds_total直接等效于{__name__="node_cpu_seconds_total"}，后者也可以使用和前者一樣的 4 種匹配器（=，!=，=，!）。比如下面的案例可以表示所有以 Hello 開頭的指標。

{__name__="node_cpu_seconds_total",instance=~"ydzs-.*", mode="idle"}

2、正則表達式相反匹配器（!~）

正則表達式相反匹配器（Negative Regular Expression Matcher），用于選擇與提供的字符串進行正則運算后所得結果不匹配的標簽。因為 PromQL 的正則表達式基于 RE2 的語法，但是 RE2 不支持向前不匹配表達式，所以!~的出現是作為一種替代方案，以實現基于正則表達式排除指定標簽值的功能。在一個選擇器當中，可以針對同一個標簽來使用多個匹配器。比如下面的例子，可以實現查找 job 名是 node 且安裝在/prometheus 目錄下，但是并不在/prometheus/user 目錄下的所有文件系統并確定其大小。

node_filesystem_size_bytes{job="node",mountpoint=~"/prometheus/.*", mountpoint!~ "/prometheus/user/.*"}

六、范圍選擇器

我們可以通過將時間范圍選擇器 range vector selectors 附加到查詢語句中，指定為每個返回的區間向量樣本值中提取多長的時間范圍。每個時間戳的值都是按時間倒序記錄在時間序列中的，該值是從時間范圍內的時間戳獲取的對應的值。

時間范圍通過數字來表示，單位可以使用以下其中之一的時間單位：

s - 秒m - 分鐘h - 小時d - 天w - 周y - 年

比如 node_cpu_seconds_total{instance="ydzs-master",mode="idle"}這個查詢語句，如果添加上 [1m]這個時間范圍選擇器，則我們可以得到如下所示的信息：

node_cpu_seconds_total{instance="ydzs-master",mode="idle"}[5m]

這是因為現在每一個時間序列中都有多個時間戳多個值，所以沒辦法渲染，必須是標量或者瞬時向量才可以繪制圖形。

不過通常區間向量都會應用一個函數后變成可以繪制的瞬時向量，Prometheus 中對瞬時向量和區間向量有很多操作的函數，不過對于區間向量來說最常用的函數并不多，使用最頻繁的有如下幾個函數：

rate(): 計算整個時間范圍內區間向量中時間序列的每秒平均增長率。irate(): 僅使用時間范圍中的最后兩個數據點來計算區間向量中時間序列的每秒平均增長率， irate只能用于繪制快速變化的序列，在長期趨勢分析或者告警中更推薦使用 rate函數。increase(): 計算所選時間范圍內時間序列的增量，它基本上是速率乘以時間范圍選擇器中的秒數。

七、PromQL 運算符

1）數學運算符

數學運算符比較簡單，就是簡單的加減乘除等。

例如：我們通過 prometheus_http_response_size_bytes_sum可以查詢到 Prometheus 這個應用的 HTTP 響應字節總和。但是這個單位是字節，我們希望用 MB 顯示。那么我們可以這么設置：prometheus_http_response_size_bytes_sum/8/1024。

PromQL 支持的所有數學運算符如下所示：

+ (加法)- (減法)* (乘法)/ (除法)% (求余)^ (冪運算)

2）布爾運算符

布爾運算符支持用戶根據時間序列中樣本的值，對時間序列進行過濾。

例如：我們可以通過 prometheus_http_requests_total 查詢出每個接口的請求次數，但是如果我們想篩選出請求次數超過 20 次的接口呢？

此時我們可以用下面的 PromQL 表達式：

prometheus_http_requests_total > 20

從上面的圖中我們可以看到，value 的值還是具體的數值。但如果我們希望對符合條件的數據，value 變為 1。不符合條件的數據，value 變為 0。那么我們可以使用bool 修飾符。

我們使用下面的 PromQL 表達式：

prometheus_http_requests_total > bool 20

目前，Prometheus 支持以下布爾運算符如下：

==（相等）!=（不相等）>（大于）<（小于）>=（大于或等于）<=（小于或等于）

3）集合運算符

通過集合運算，可以在兩個瞬時向量與瞬時向量之間進行相應的集合操作。目前，Prometheus 支持以下集合運算符：

and 與操作or 或操作unless 排除操作

1、and 與操作

vector1 and vector2 進行一個與操作，會產生一個新的集合。該集合中的元素同時在 vector1 和 vector2 中都存在。

例如：我們有 vector1 為 A B C，vector2 為 B C D，那么 vector1 and vector2 的結果為：B C。

2、or 或操作

vector1 and vector2 進行一個或操作，會產生一個新的集合。該集合中包含 vector1 和 vector2 中的所有元素。

例如：我們有 vector1 為 A B C，vector2 為 B C D，那么 vector1 or vector2 的結果為：A B C D。

3、unless 排除操作

vector1 and vector2 進行一個或操作，會產生一個新的集合。該集合首先取 vector1 集合的所有元素，然后排除掉所有在 vector2 中存在的元素。

例如：我們有 vector1 為 A B C，vector2 為 B C D，那么 vector1 unless vector2 的結果為：A。

4）操作符優先級

在 PromQL 操作符中優先級由高到低依次為：

^*, /, %+, -==, !=, <=, <, >=, >and, unlessor

八、PromQL 內置函數

Prometheus 提供了其它大量的內置函數，可以對時序數據進行豐富的處理。某些函數有默認的參數，例如：year(v=vector(time()) instant-vector)。其中參數 v 是一個瞬時向量，如果不提供該參數，將使用默認值 vector(time())。instant-vector 表示參數類型。

1） abs()

abs(v instant-vector) 返回輸入向量的所有樣本的絕對值。

2）absent()

absent(v instant-vector)，如果傳遞給它的向量參數具有樣本數據，則返回空向量；如果傳遞的向量參數沒有樣本數據，則返回不帶度量指標名稱且帶有標簽的時間序列，且樣本值為 1。

當監控度量指標時，如果獲取到的樣本數據是空的，使用 absent 方法對告警是非常有用的。例如：

# 這里提供的向量有樣本數據absent(http_requests_total{method="get"})  => no dataabsent(sum(http_requests_total{method="get"}))  => no data# 由于不存在度量指標 nonexistent，所以 返回不帶度量指標名稱且帶有標簽的時間序列，且樣本值為1absent(nonexistent{job="myjob"})  => {job="myjob"}  1# 正則匹配的 instance 不作為返回 labels 中的一部分absent(nonexistent{job="myjob",instance=~".*"})  => {job="myjob"}  1# sum 函數返回的時間序列不帶有標簽，且沒有樣本數據absent(sum(nonexistent{job="myjob"}))  => {}  1

3）ceil()

ceil(v instant-vector)將 v 中所有元素的樣本值向上四舍五入到最接近的整數。例如：

node_load5{instance="192.168.1.75:9100"} # 結果為 2.79ceil(node_load5{instance="192.168.1.75:9100"}) # 結果為 3

4）changes()

changes(v range-vector)輸入一個區間向量，返回這個區間向量內每個樣本數據值變化的次數（瞬時向量）。例如：

# 如果樣本數據值沒有發生變化，則返回結果為 1changes(node_load5{instance="192.168.1.75:9100"}[1m]) # 結果為 1

5）clamp_max()

clamp_max(v instant-vector, max scalar)函數，輸入一個瞬時向量和最大值，樣本數據值若大于 max，則改為 max，否則不變。例如：

node_load5{instance="192.168.1.75:9100"} # 結果為 2.79clamp_max(node_load5{instance="192.168.1.75:9100"}, 2) # 結果為 2

6）clamp_min()

clamp_min(v instant-vector, min scalar)函數，輸入一個瞬時向量和最小值，樣本數據值若小于 min，則改為 min，否則不變。例如：

node_load5{instance="192.168.1.75:9100"} # 結果為 2.79clamp_min(node_load5{instance="192.168.1.75:9100"}, 3) # 結果為 3

7）day_of_month()

day_of_month(v=vector(time()) instant-vector)函數，返回被給定 UTC 時間所在月的第幾天。返回值范圍：1~31。

8）day_of_week()

day_of_week(v=vector(time()) instant-vector)函數，返回被給定 UTC 時間所在周的第幾天。返回值范圍：0~6，0 表示星期天。

9）days_in_month()

days_in_month(v=vector(time()) instant-vector)函數，返回當月一共有多少天。返回值范圍：28~31。

10）delta()

delta(v range-vector)的參數是一個區間向量，返回一個瞬時向量。它計算一個區間向量 v 的第一個元素和最后一個元素之間的差值。由于這個值被外推到指定的整個時間范圍，所以即使樣本值都是整數，你仍然可能會得到一個非整數值。

例如，下面的例子返回過去兩小時的 CPU 溫度差：

delta(cpu_temp_celsius{host="zeus"}[2h])

11）deriv()

deriv(v range-vector)的參數是一個區間向量,返回一個瞬時向量。它使用簡單的線性回歸計算區間向量 v 中各個時間序列的導數。這個函數一般只用在 Gauge 類型的時間序列上。

12）exp()

exp(v instant-vector)函數，輸入一個瞬時向量，返回各個樣本值的 e 的指數值，即 e 的 N 次方。當 N 的值足夠大時會返回 +Inf。特殊情況為：

Exp(+Inf) = +InfExp(NaN) = NaN

13）floor()

floor(v instant-vector)函數與 ceil() 函數相反，將 v 中所有元素的樣本值向下四舍五入到最接近的整數。

14）histogram_quantile()

histogram_quantile(φ float, b instant-vector)從 bucket 類型的向量 b 中計算 φ (0 ≤ φ ≤ 1) 分位數（百分位數的一般形式）的樣本的最大值。（有關 φ 分位數的詳細說明以及直方圖指標類型的使用，請參閱直方圖和摘要）。向量 b 中的樣本是每個 bucket 的采樣點數量。每個樣本的 labels 中必須要有 le 這個 label 來表示每個 bucket 的上邊界，沒有 le 標簽的樣本會被忽略。直方圖指標類型自動提供帶有 _bucket 后綴和相應標簽的時間序列。可以使用 rate() 函數來指定分位數計算的時間窗口。

例如：一個直方圖指標名稱為 employee_age_bucket_bucket，要計算過去 10 分鐘內第 90 個百分位數，請使用以下表達式：

histogram_quantile(0.9, rate(employee_age_bucket_bucket[10m]))

{instance="10.0.86.71:8080",job="prometheus"} 35.714285714285715

這表示最近 10 分鐘之內 90% 的樣本的最大值為 35.714285714285715。

15）holt_winters()

holt_winters(v range-vector, sf scalar, tf scalar)函數基于區間向量 v，生成時間序列數據平滑值。平滑因子 sf 越低, 對舊數據的重視程度越高。趨勢因子 tf 越高，對數據的趨勢的考慮就越多。其中，0< sf, tf <=1。holt_winters 僅適用于 Gauge類型的時間序列。

16）hour()

hour(v=vector(time()) instant-vector)函數返回被給定 UTC 時間的當前第幾個小時，時間范圍：0~23。

17）idelta()

idelta(v range-vector)的參數是一個區間向量, 返回一個瞬時向量。它計算最新的 2 個樣本值之間的差值。這個函數一般只用在 Gauge 類型的時間序列上。

18）increase()

increase(v range-vector)函數獲取區間向量中的第一個和最后一個樣本并返回其增長量, 它會在單調性發生變化時(如由于采樣目標重啟引起的計數器復位)自動中斷。由于這個值被外推到指定的整個時間范圍，所以即使樣本值都是整數，你仍然可能會得到一個非整數值。

例如：以下表達式返回區間向量中每個時間序列過去 5 分鐘內 HTTP 請求數的增長數：

increase(http_requests_total{job="apiserver"}[5m])

increase 的返回值類型只能是計數器類型，主要作用是增加圖表和數據的可讀性。使用 rate 函數記錄規則的使用率，以便持續跟蹤數據樣本值的變化。

19）irate()

irate(v range-vector)函數用于計算區間向量的增長率，但是其反應出的是瞬時增長率。irate 函數是通過區間向量中最后兩個兩本數據來計算區間向量的增長速率，它會在單調性發生變化時(如由于采樣目標重啟引起的計數器復位)自動中斷。這種方式可以避免在時間窗口范圍內的“長尾問題”，并且體現出更好的靈敏度，通過 irate 函數繪制的圖標能夠更好的反應樣本數據的瞬時變化狀態。

例如：以下表達式返回區間向量中每個時間序列過去 5 分鐘內最后兩個樣本數據的 HTTP 請求數的增長率：

irate(http_requests_total{job="api-server"}[5m])

20）label_join()

label_join(v instant-vector, dst_label string, separator string, src_label_1 string, src_label_2 string, ...)函數可以將時間序列 v 中多個標簽 src_label 的值，通過 separator 作為連接符寫入到一個新的標簽 dst_label 中。可以有多個 src_label 標簽。

例如：以下表達式返回的時間序列多了一個 foo 標簽，標簽值為 etcd,etcd-k8s：

up{endpoint="api",instance="192.168.123.248:2379",job="etcd",namespace="monitoring",service="etcd-k8s"}=> up{endpoint="api",instance="192.168.123.248:2379",job="etcd",namespace="monitoring",service="etcd-k8s"}  1label_join(up{endpoint="api",instance="192.168.123.248:2379",job="etcd",namespace="monitoring",service="etcd-k8s"}, "foo", ",", "job", "service")=> up{endpoint="api",foo="etcd,etcd-k8s",instance="192.168.123.248:2379",job="etcd",namespace="monitoring",service="etcd-k8s"}  1

21）label_replace()

為了能夠讓客戶端的圖標更具有可讀性，可以通過 label_replace 函數為時間序列添加額外的標簽。label_replace 的具體參數如下：

label_replace(v instant-vector, dst_label string, replacement string, src_label string, regex string)

該函數會依次對 v 中的每一條時間序列進行處理，通過 regex 匹配 src_label 的值，并將匹配部分 relacement 寫入到 dst_label 標簽中。如下所示：

label_replace(up, "host", "$1", "instance",  "(.*):.*")

函數處理后，時間序列將包含一個 host 標簽，host 標簽的值為 Exporter 實例的 IP 地址：

up{host="localhost",instance="localhost:8080",job="cadvisor"}   1up{host="localhost",instance="localhost:9090",job="prometheus"}   1up{host="localhost",instance="localhost:9100",job="node"}   1

22）ln()

ln(v instant-vector) 計算瞬時向量 v 中所有樣本數據的自然對數。特殊情況：

ln(+Inf) = +Infln(0) = -Infln(x < 0) = NaNln(NaN) = NaN

23）log2()

log2(v instant-vector)函數計算瞬時向量 v 中所有樣本數據的二進制對數。特殊情況同上。

24）log10()

log10(v instant-vector)計算瞬時向量 v 中所有樣本數據的十進制對數。特殊情況同上。

25）minute()

minute(v=vector(time()) instant-vector)函數返回給定 UTC 時間當前小時的第多少分鐘。結果范圍：0~59。

26）month()

month(v=vector(time()) instant-vector)函數返回給定 UTC 時間當前屬于第幾個月，結果范圍：0~12。

27）predict_linear()

predict_linear(v range-vector, t scalar)函數可以預測時間序列 v 在 t 秒后的值。它基于簡單線性回歸的方式，對時間窗口內的樣本數據進行統計，從而可以對時間序列的變化趨勢做出預測。該函數的返回結果不帶有度量指標，只有標簽列表。

例如，基于 2 小時的樣本數據，來預測主機可用磁盤空間的是否在 4 個小時候被占滿，可以使用如下表達式：

predict_linear(node_filesystem_free{job="node"}[2h], 4 * 3600) < 0

28）rate()

rate(v range-vector)函數可以直接計算區間向量 v 在時間窗口內平均增長速率，它會在單調性發生變化時(如由于采樣目標重啟引起的計數器復位)自動中斷。該函數的返回結果不帶有度量指標，只有標簽列表。

例如，以下表達式返回區間向量中每個時間序列過去 5 分鐘內 HTTP 請求數的每秒增長率：

rate(http_requests_total[5m])結果：{code="200",handler="label_values",instance="120.77.65.193:9090",job="prometheus",method="get"} 0{code="200",handler="query_range",instance="120.77.65.193:9090",job="prometheus",method="get"}  0{code="200",handler="prometheus",instance="120.77.65.193:9090",job="prometheus",method="get"}   0.2...

rate() 函數返回值類型只能用計數器，在長期趨勢分析或者告警中推薦使用這個函數。

注意：

當將 rate() 函數與聚合運算符（例如 sum()）或隨時間聚合的函數（任何以 _over_time 結尾的函數）一起使用時，必須先執行 rate 函數，然后再進行聚合操作，否則當采樣目標重新啟動時 rate() 無法檢測到計數器是否被重置。

29）resets()

resets(v range-vector)的參數是一個區間向量。對于每個時間序列，它都返回一個計數器重置的次數。兩個連續樣本之間的值的減少被認為是一次計數器重置。

這個函數一般只用在計數器類型的時間序列上。

30）round()

round(v instant-vector, to_nearest=1 scalar)函數與 ceil 和 floor 函數類似，返回向量中所有樣本值的最接近的整數。to_nearest 參數是可選的,默認為 1,表示樣本返回的是最接近 1 的整數倍的值。你也可以將該參數指定為任意值（也可以是小數），表示樣本返回的是最接近它的整數倍的值。

31）scalar()

scalar(v instant-vector)函數的參數是一個單元素的瞬時向量,它返回其唯一的時間序列的值作為一個標量。如果度量指標的樣本數量大于 1 或者等于 0, 則返回 NaN。

32） sort()

sort(v instant-vector)函數對向量按元素的值進行升序排序，返回結果：key: value = 度量指標：樣本值[升序排列]。

33）sort_desc()

sort(v instant-vector)函數對向量按元素的值進行降序排序，返回結果：key: value = 度量指標：樣本值[降序排列]。

34） sqrt()

sqrt(v instant-vector)函數計算向量 v 中所有元素的平方根。

35）time()

time()函數返回從 1970-01-01 到現在的秒數。注意：它不是直接返回當前時間，而是時間戳

36）timestamp()

timestamp(v instant-vector)函數返回向量 v 中的每個樣本的時間戳（從 1970-01-01 到現在的秒數）。

該函數從 Prometheus 2.0 版本開始引入。

37）vector()

vector(s scalar)函數將標量 s 作為沒有標簽的向量返回，即返回結果為：key: value= {}, s。

38）year()

year(v=vector(time()) instant-vector)函數返回被給定 UTC 時間的當前年份。

39）_over_time()

下面的函數列表允許傳入一個區間向量，它們會聚合每個時間序列的范圍，并返回一個瞬時向量：

avg_over_time(range-vector) : 區間向量內每個度量指標的平均值。min_over_time(range-vector) : 區間向量內每個度量指標的最小值。max_over_time(range-vector) : 區間向量內每個度量指標的最大值。sum_over_time(range-vector) : 區間向量內每個度量指標的求和。count_over_time(range-vector) : 區間向量內每個度量指標的樣本數據個數。quantile_over_time(scalar, range-vector) : 區間向量內每個度量指標的樣本數據值分位數，φ-quantile (0 ≤ φ ≤ 1)。stddev_over_time(range-vector) : 區間向量內每個度量指標的總體標準差。stdvar_over_time(range-vector) : 區間向量內每個度量指標的總體標準方差。12345678

注意：

即使區間向量內的值分布不均勻，它們在聚合時的權重也是相同的。

八、PromQL 聚合操作

Prometheus 還提供了聚合操作符，這些操作符作用于瞬時向量。可以將瞬時表達式返回的樣本數據進行聚合，形成一個新的時間序列。目前支持的聚合函數有：

sum (求和)min (最小值)max (最大值)avg (平均值)stddev (標準差)stdvar (標準方差)count (計數)count_values (對 value 進行計數)bottomk (后 n 條時序)topk (前 n 條時序)

1）sum 求和

用于對記錄的 value 值進行求和。

例如：sum(prometheus_http_requests_total)表示統計所有 HTTP 請求的次數。

sum(prometheus_http_requests_total)

2）min 最小值

返回所有記錄的最小值。

例如：min(prometheus_http_requests_total)表示獲取數據集合中的最小值。

min(prometheus_http_requests_total)

3）max 最大值

返回所有記錄的最大值。

例如：maxmetheus_http_requests_total)` 表示獲取數據集合中的最大值。

max(prometheus_http_requests_total)

4）avg 平均值

avg 函數返回所有記錄的平均值。

例如：avg(metheus_http_requests_total)表示獲取數據集合中的平均值。

avg(prometheus_http_requests_total)

5）stddev 標準差

標準差（Standard Deviation）常用來描述數據的波動大小。

例如：統計出不同 HTTP 請求的數量波動情況。

stddev(prometheus_http_requests_total)

6）count 計數

count 函數返回所有記錄的計數。

例如：count(prometheus_http_requests_total)表示統計所有 HTTP 請求的次數。

count(prometheus_http_requests_total)

7）bottomk 后幾條

bottomk 用于對樣本值進行排序，返回當前樣本值后 N 位的時間序列。

例如：獲取 HTTP 請求量后 5 位的請求，可以使用表達式：

bottomk(5, prometheus_http_requests_total)

8）topk 前幾條

topk 用于對樣本值進行排序，返回當前樣本值前 N 位的時間序列。

例如：獲取 HTTP 請求量前 5 位的請求，可以使用表達式：

topk(5, prometheus_http_requests_total)

九、PromQL 非法總結

由于所有的 PromQL 表達式必須至少包含一個指標名稱，或者至少有一個不會匹配到空字符串的標簽過濾器，因此結合 Prometheus 官方文檔，可以梳理出如下非法示例。

{job=~".*"} # 非法！.*表示任意一個字符,這就包括空字符串，且還沒有指標名稱{job=""}    # 非法！{job!=""}   # 非法！

相反，如下表達式是合法的。

{job=~".+"}               # 合法！.+表示至少一個字符{job=~".*",method="get"}  # 合法！.*表示任意一個字符{job="",method="post"}    # 合法！存在一個非空匹配{job=~".+",method="post"} # 合法！存在一個非空匹配

關于 Prometheus PromQL 講解就先到這里了，其實官網介紹的很清楚，也不難，多使用就很容易掌握了，有疑問的小伙伴歡迎給我留言，后續會持續更新【云原生+大數據】的文章，請小伙伴耐心等待~

關鍵詞：