k8s搭建高可用pg集群

1. 下载csi

wget https://gh-proxy.com/github.com/CrunchyData/postgres-operator-examples/archive/refs/heads/main.zip
tar xvf main.zip

2. 修改部署

2.1 修改helm/postgres/values.yaml

# 修改持久存储
instanceSize: 10Gi
instanceStorageClassName: "default-cephfs"
instanceReplicas: 3
backupsSize: 10Gi
backupsStorageClassName: "default-cephfs"
# 修改service
service:
  type: NodePort
# 修改pg配置，启用远程登录
patroni:
  dynamicConfiguration:
    # synchronous_mode: true
    postgresql:
      pg_hba:
      - host replication repl 0.0.0.0/0 md5
      - host all all 0.0.0.0/0 md5

2.2 部署

helm install postgres /disk2/shared/build_offline_origin/pg/postgres-operator-examples-main/helm/install -n postgres
helm install postgres /disk2/shared/build_offline_origin/pg/postgres-operator-examples-main/helm/postgres -n postgres

3. 登录

3.1 获取账户和密码

# 获取登录uri
kubectl -n postgres get secrets postgres-pguser-postgres -o go-template='{{.data.uri | base64decode}}'
# 获取登录账户
kubectl -n postgres get secrets postgres-pguser-postgres -o go-template='{{.data.user | base64decode}}'
# 获取登录密码
kubectl -n postgres get secrets postgres-pguser-postgres -o go-template='{{.data.password | base64decode}}'

3.1 连接查看

注意，需要使用pg版本为17的client，ubuntu24安装的版本为16，不匹配

psql postgresql://postgresroot:E6%5Ea3%29zVD48mMNYaA%29bF%40wPv@localhost:32635
# 查看所有数据库
\l
# 新增数据库
create database argo_workflows;
# 删除数据库
drop database argo_workflows;

4. 拓展

4.1 Auto-Grow

Auto-Grow

# 修改helm/install/values.yaml
features:
  AutoGrowVolumes: true

4.2 Logical Replication（PG性质，与PGO没什么关系）

Logical Replication

# 与backups平级，在需要发布的集群上设置
  users:
    - name:  logic
       databases:
        - zoo
      options: "REPLICATION"


# 创建发布
kubectl exec -it -n postgres-operator -c database $(kubectl get pods -n postgres-operator --selector='postgres-operator.crunchydata.com/cluster=rhino,postgres-operator.crunchydata.com/role=master' -o name) -- psql zoo
# 创建权限
CREATE TABLE abc (id int PRIMARY KEY);
INSERT INTO abc SELECT * FROM generate_series(1,10);
GRANT SELECT ON abc TO logic;
# 发布
CREATE PUBLICATION zoo FOR ALL TABLES;
# 获取登录密钥
kubectl -n postgres-operator get secrets rhino-pguser-logic -o go-template='{{.data.host | base64decode}}'
kubectl -n postgres-operator get secrets rhino-pguser-logic -o go-template='{{.data.user | base64decode }}'
kubectl -n postgres-operator get secrets rhino-pguser-logic -o go-template='{{.data.password | base64decode }}'

# 创建订阅
kubectl exec -it -n postgres-operator -c database $(kubectl get pods -n postgres-operator --selector='postgres-operator.crunchydata.com/cluster=hippo,postgres-operator.crunchydata.com/role=master' -o name) -- psql
# 创建数据库
CREATE TABLE abc (id int PRIMARY KEY);
# 订阅
CREATE SUBSCRIPTION zoo
    CONNECTION 'host=rhino-primary.postgres-operator.svc user=logic dbname=zoo password=$LOGIC_PASSWORD'
    PUBLICATION zoo;

4.3 Major Version Upgrade

Postgres Major Version Upgrade

# 创建pgUpgrade对象，填入需要更新的集群名称
apiVersion: postgres-operator.crunchydata.com/v1beta1
kind: PGUpgrade
metadata:
  name: hippo-upgrade
spec:
  postgresClusterName: hippo
  fromPostgresVersion: 16
  toPostgresVersion: 17

# 修改cluster注释，允许pgUpgrade对象更新，字段value为pgUpgrade对象的名称
kubectl -n postgres-operator annotate postgrescluster hippo postgres-operator.crunchydata.com/allow-upgrade="hippo-upgrade"

# 关闭集群，修改values.yaml并使用helm更新
shutdown: true

# 等待pgUpgrade进度完成，可以通过查看其状态来看


# 重启集群，修改values.yaml并使用helm更新
shutdown: false

4.4 备份、克隆、回滚、恢复与快照

备份将数据保存至pgbackrest指定的位置

回滚从pgbackrest中回滚

克隆、恢复从dataSource中克隆或恢复（仅限创建集群时）

快照将保存到快照的pvc中（指pv的快照）

# 备份
## 关闭自动备份，给集群打下面的注释
postgres-operator.crunchydata.com/authorizeBackupRemoval="true"
## 多种备份方式，可以选volume，s3或gcs等，甚至可以多处同时备份
### 自己定义multiBackupRepos部分
## 修改备份频率
### 在template中找到
repos:
      - name: repo1
        volume:
          volumeClaimSpec:
            {{- if .Values.backupsStorageClassName }}
            storageClassName: {{ .Values.backupsStorageClassName | quote }}
            {{- end }}
            accessModes:
            - "ReadWriteOnce"
            resources:
              requests:
                storage: {{ default "1Gi" .Values.backupsSize | quote }}
  {{- end }}

### 在与volume平级添加：
schedules:
          full: "0 1 * * 0"
          differential: "0 1 * * 1-6"
## 手动备份
### 在repos平级添加
manual:
        repoName: repo1
        options:
         - --type=full

### 触发备份
kubectl annotate -n postgres-operator postgrescluster hippo postgres-operator.crunchydata.com/pgbackrest-backup="$(date)"


# 克隆
## 在values中添加dataSource指定如下
dataSource:
    postgresCluster:
      clusterName: hippo
      repoName: repo1
      options:
      - --type=time
      - --target="2021-06-09 14:15:11-04"

# 回滚，在values中添加pgBackRestConfig
restore:
        enabled: true
        repoName: repo1
        options:
        - --type=time
        - --target="2021-06-09 14:15:11-04" # 指定时间


        - --db-include=hippo  # 可以指定特定的数据库

## 触发回滚
kubectl annotate -n postgres-operator postgrescluster hippo --overwrite postgres-operator.crunchydata.com/pgbackrest-restore="$(date)"

## 关闭回滚
restore:
        enabled: false

# 恢复
## 修改helm/postgres/values.yaml，其中三个部分分别对应pgdata相对于PVC挂载根目录，pgwal如果与pgdata属于同一个pvc那么可以去掉，pgBackRestVolume对应上面的备份结果
## 当集群建立后，应该移除valume字段并重新部署
dataSource:
  volumes:
    pgDataVolume:
      pvcName: oldhippo
      directory: oldhippo
    pgWALVolume:
      pvcName: oldhippo-wal
    pgBackRestVolume:
      pvcName: oldhippo-pgbr-repo
      directory: oldhippo-backrest-shared-repo



# 快照
## 检查或安装CRD
kubectl get crd volumesnapshotclasses.snapshot.storage.k8s.io             
kubectl get crd volumesnapshotcontents.snapshot.storage.k8s.io             
kubectl get crd volumesnapshots.snapshot.storage.k8s.io                 
## https://github.com/kubernetes-csi/external-snapshotter

## 启用PGO特性，修改helm/install/values.yaml
PGO_FEATURE_GATES="VolumeSnapshots=true"

## 在template中定制
spec:
  backups:
    snapshots:
      volumeSnapshotClassName: <name of the snapshot class>

4.5 standby（只读集群）

从pgbackrest中读取

在values.yaml中修改即可

# 从repo中建立
  backups:
    pgbackrest:
      repos:
      - name: repo1
        s3:
          bucket: "my-bucket"
          endpoint: "s3.ca-central-1.amazonaws.com"
          region: "ca-central-1"
  standby:
    enabled: true
    repoName: repo1


# 从流中建立
   pgbackrest:
      repos:
      - name: repo1
        volume:
          volumeClaimSpec: { accessModes: [ReadWriteOnce], resources: { requests: { storage: 1Gi } } }
  customTLSSecret:
    name: cluster-cert
  customReplicationTLSSecret:
    name: replication-cert
  standby:
    enabled: true
    host: "192.0.2.2"
    port: 5432


# 从流与repo中建立，注意repo必须是来自流的备份
  backups:
    pgbackrest:
      repos:
      - name: repo1
        s3:
          bucket: "my-bucket"
          endpoint: "s3.ca-central-1.amazonaws.com"
          region: "ca-central-1"
  customTLSSecret:
    name: cluster-cert
  customReplicationTLSSecret:
    name: replication-cert
  standby:
    enabled: true
    repoName: repo1
    host: "192.0.2.2"
    port: 5432


# 转换standby为可读集群
  standby:
    enabled: false

4.6 Synchronous Replication

Synchronous Replication

patroni:
  dynamicConfiguration:
    synchronous_mode: true

功能：当写入另外一个节点时才会返回成功

4.7 PostGIS

PostGIS教程一：PostGIS介绍 - 知乎

使得pg可以记录地理信息

4.8 pgBouncer

# 只需要启用即可
pgBouncerReplicas: 1

4.9 Monitoring

monitoring: true

创建service

apiVersion: v1
kind: Service
metadata:
  creationTimestamp: "2025-03-19T07:37:18Z"
  name: postgres-monitoring
  namespace: postgres
spec:
  ports:
  - name: monitoring
    port: 9187
    protocol: TCP
    targetPort: 9187
  sessionAffinity: None
  type: NodePort
  selector:
    postgres-operator.crunchydata.com/role: master

现在即可在prometheus中设定job

- job_name: postgres
        static_configs:
          - targets:
            - postgres.service.com:32480

4.10 分离式WAL设计

# 需要修改template
spec:
  instances:
    - name: instance
      walVolumeClaimSpec:
        accessModes:
        - "ReadWriteOnce"
        resources:
          requests:
            storage: 1Gi

4.11 大页

启用PG大页

apiVersion: postgres-operator.crunchydata.com/v1beta1
kind: PostgresCluster
metadata:
  name: hippo
spec:
  postgresVersion: 17
  instances:
    - name: instance1
      resources:
        limits:
          hugepages-2Mi: 16Mi
          memory: 4Gi


spec:
  patroni:
    dynamicConfiguration:
      postgresql:
        parameters:
          huge_page_size: 1GB

当在有大页的节点上不启用大页时将崩溃，解决方法除了启用PG大页之外还可以：

spec:
  patroni:
    dynamicConfiguration:
      postgresql:
        parameters:
          shared_buffers: 128MB

4.12 Patroni

【DB宝89】PG高可用集群之Patroni + etcd + HAProxy + keepalived+普罗米修斯监控部署-腾讯云开发者社区-腾讯云

patroni是单主多备份架构（只有一个节点允许写入，其余通过流方式做备份，可读）

通过etcd中使用raft协议进行选主

在pgo架构中，首先有一个服务postgres-pods连接了所有节点，服务postgres-replicas连接了所有的备份（从节点），服务postgres-ha连向主节点，postgres-primary连向postgres-ha，而postgres-pgbouncer连向postgres-primary

Introduction — Patroni 4.0.5 documentation

synchronous_mode: on
synchronous_node_count: 2  # 设置同步时有多少个节点收到即可返回成功

4.13 PgBouncer

参数PgBouncer config

pool_mode：决定何时返回到连接池中，session结束后、transaction结束后、statement结束后
max_client_conn：最大连接数
default_pool_size：池大小
min_pool_size：当池剩余小于此数时补充
max_db_connections：允许连接到同一个数据库的服务端最大数目
max_db_client_connections：允许连接到同一个数据库的客户端最大值
server_round_robin：启用RR连接策略

5. 单节点pg

5.1 手动版本

配置如下：

apiVersion: v1
kind: Service
metadata:
  name: postgres
spec:
  type: NodePort
  ports:
  - port: 5432
  selector:
    app: postgres
---
apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: postgres
spec:
  replicas: 1
  selector:
    matchLabels:
      app: postgres
  serviceName: "postgres"
  template:
    metadata:
      labels:
        app: postgres
    spec:
      containers:
      - image: postgres:16
        name: postgres
        env:
         - name: "POSTGRES_PASSWORD"
           value: 'password' # 指定密码
         - name: "PGDATA"
           value: /var/lib/postgresql/data/pgdata
        ports:
        - containerPort: 5432
          name: postgres
        volumeMounts:
        - name: postgres-persistent-storage
          mountPath: /var/lib/postgresql/data
        resources:
          requests:
            memory: "100Mi" # 指定 Memory 占用
          limits:
            memory: "1200Mi" # 指定 Memory 上限
  volumeClaimTemplates:
  - metadata:
      name: postgres-persistent-storage
    spec:
      accessModes: [ "ReadWriteOnce" ]
      storageClassName: "local-path"  # 指定 StorageClass 名称
      resources:
        requests:
          storage: 10Gi # 指定 Storage 占用

部署

k apply -f postgres.yaml

5.2 bitnami版本

5.2.1 简介

bitnami存在两个pg版本，一个是HA版本，一个是普通版本。区别可以详见charts/bitnami/postgresql-ha/README.md at main · bitnami/charts

主要区别在于，HA版本提供一个连接池，并且Repmgr模块能够让slave成为primary。但是总归上，不如potroni成熟和高可用。

普通版本的helm包见：

charts/bitnami/postgresql/README.md at main · bitnami/charts

5.2.2 部署方式

下载helm包

# 下载整个仓库，或者也可以使用git clone
wget https://codeload.github.com/bitnami/charts/zip/refs/heads/main
# 进入postgres路径
cd bitnami/charts-main/bitnami/postgresql
# 进入charts目录下载依赖
# helm dependency build # 由于无法下载而失败
mkdir charts && cd charts
wget https://charts.bitnami.com/bitnami/common-2.30.0.tgz
tar xvf common-2.30.0.tgz
cd ..

5.2.3 修改values文件

primary.service.type: NodePort
primary.persistence.storageClass: "local-path"
readReplicas.replicaCount: 0
auth.postgresPassword: "password"
architecture: standalone

5.2.4 部署

helm install pg ./ -n pg
# 查看密码
export POSTGRES_PASSWORD=$(kubectl get secret --namespace default pg-postgresql -o jsonpath="{.data.postgres-password}" | base64 -d)
echo $POSTGRES_PASSWORD