童建平-照片

童建平

云原生 / DevOps / SRE | 运维工程师
男|已婚|1978年4月 13850001943 [email protected] xmyy.com github.com/eagleos

个人优势(云原生 / DevOps / SRE)

  • 24年运维与平台经验,主攻云原生、交付自动化与稳定性治理,擅于从0到1搭建平台并持续优化。
  • Kubernetes:kubeadm/EKS;Helm;Ingress;HPA/资源配额;RBAC/NetworkPolicy。
  • DevOps:GitLab/Jenkins + Ansible/Terraform + GitOps/ArgoCD,落地构建、灰度、回滚、环境一致性与发布可追溯。
  • 可观测性:Prometheus/Grafana/Zabbix/CloudWatch + ELK/Loki,推动 MTTR、可用性与容量治理。
  • 全栈开发:熟悉LLM等AI本地化部署。具备网站、Android/iOS、微信小程序、PHP、Python、Go、Java等全栈独立开发。

基本信息

教育背景

2002年毕业
福建农林大学
全日制本科
专业:林学
点击查看证书    学信网学历在线查询

证书荣誉

2008年下半年软考
网络工程师(中级)
全省第15名 (查看截图)|管理号:08224350143 (查看证书) (官网验证)
全国大学英语四级(CET-4)

专业技能

云平台与基础设施运维

  • 私有云:熟悉vCenter、OpenStack H3C CAS等虚拟化及云平台的部署、运维和资源管理。熟悉 OpenLDAP 统一身份认证体系建设及企业级开源平台(如Gitlab、Confluence、Zimbra、Nextcloud、Phabricator、SonarQube、Archery/Yearning、Minio等)搭建整合。
  • 公有云:熟悉 AWS、阿里云、腾讯云、华为云、Cloudflare 等主流云平台。熟悉 EC2、ECS、EKS、RDS、SLB/ALB/NLB、VPC、Route 53、CloudFront、S3、EFS、ECR、OSS、CDN、WAF、IAM、CloudWatch 等云服务的规划、部署及运维管理。具备云上业务迁移、跨地域部署、弹性扩容、高可用架构设计及灾备建设能力。

容器化与云原生技术

  • 容器化:熟悉 Docker 容器技术及容器生命周期管理。熟悉 Dockerfile、Docker Compose 镜像构建与容器编排。熟悉 Harbor 等镜像仓库的部署与运维管理。
  • 云原生:具备独立部署 Kubernetes 集群能力。熟悉 Kubernetes 核心组件、网络模型、存储管理及资源调度机制。熟悉 Deployment、StatefulSet、DaemonSet、Ingress、Service、ConfigMap、Secret 等资源对象管理。熟悉 K3s、Helm、Metrics Server 等云原生生态组件。

DevOps与自动化运维

  • CI/CD持续集成与持续交付:熟悉 GitLab、Jenkins、Maven、Nexus、NPM、Nacos、ArgoCD 等 DevOps 工具链的部署及运维管理。能独立设计和实施 CI/CD 流程,实现代码构建、测试、发布、灰度发布、回滚等自动化交付体系。
  • 自动化运维:熟悉 Ansible、SaltStack、Puppet 等自动化运维工具。熟练编写 Playbook 实现服务器批量管理、配置管理、应用部署及自动化巡检。熟悉 IaC理念,具备Terraform自动化基础设施管理经验。熟悉 Shell、Python、Go 语言开发,可结合 API、SDK 实现运维自动化平台建设及运维工具开发。

监控体系与可观测性建设

  • 监控平台:熟悉 Zabbix、Prometheus、Grafana等监控平台的部署与运维,构建主机、应用、中间件、数据库及业务指标监控体系。
  • 日志与链路追踪:熟悉 ELK(Elasticsearch、Logstash、Kibana)日志平台建设。熟悉 SkyWalking、Pinpoint 等 APM 性能监控工具,实现日志采集、链路追踪、性能分析及故障定位。
  • 可观测性:熟悉 Metrics、Logs、Traces 三大可观测性体系建设。熟悉告警平台对接,实现邮件、短信、钉钉、企业微信、飞书、Telegram等多渠道告警通知。

网络与安全

  • 网络:熟悉华为、H3C 路由器及交换机、山石防火墙、博科光纤交换机的配置管理。熟悉 VLAN、VPN、ACL、NAT、路由策略、负载均衡等网络技术,具备企业级网络规划、组网实施及故障排查能力。熟悉 SAN 存储、LUN 映射及数据中心网络架构。
  • 信息安全:熟悉 Linux 安全加固、访问控制及漏洞修复。熟悉 WAF、防火墙、堡垒机、安全审计等安全产品的运维管理。熟悉常见 Web 安全风险及防护措施,包括 SQL 注入、XSS、CSRF、文件上传漏洞等。了解渗透测试、漏洞扫描、入侵检测及安全事件应急响应流程。

项目经验

基于AWS EKS云原生架构的高可用微服务平台建设与运维

华海云谷

项目描述

负责公司核心业务系统云原生架构设计、部署、运维及持续优化工作。系统采用 Vue + Spring Cloud 微服务架构,运行于 AWS 云平台,基于 Kubernetes(EKS)实现容器编排,并结合 Aurora、MSK、DocumentDB 等云原生服务构建高可用、高扩展、高安全的生产环境。

主要职责

云原生架构设计与实施

  • 负责 AWS 生产环境整体架构设计与实施,包括计算、网络、存储、数据库、容器平台及安全体系建设。
  • 基于 Amazon EKS 搭建企业级 Kubernetes 平台,实现业务系统容器化部署与统一编排管理。
  • 利用 Helm 实现应用标准化部署、版本管理及快速回滚。
  • 构建 Aurora MySQL、MSK(Kafka)、DocumentDB(MongoDB)等高可用数据服务平台。
  • 设计基于 ALB + CloudFront + Route53 + Lambda的全球访问加速与流量调度架构。

DevOps与自动化运维

  • 建立基于 GitLab、Jenkins(后改为GO语言自编脚本)、ECR、Kubernetes、ArgoCD 的 CI/CD 自动化发布体系。
  • 推动应用容器化改造,实现镜像构建、镜像仓库管理及自动化部署。
  • 结合 Terraform、CloudFormation 实现基础设施即代码(IaC)管理。
  • 实现环境标准化、自动化交付及配置统一管理。

可观测性建设

  • 建设基于 Prometheus、Grafana、CloudWatch、Loki 的统一监控与日志平台。
  • 实现 Kubernetes 集群、应用服务、数据库、中间件及云资源的全链路监控。
  • 建立告警分级与故障响应机制,提升系统稳定性与可维护性。

高可用与安全体系建设

  • 构建跨可用区(Multi-AZ)高可用架构。
  • 实施 IAM、Security Group、VPC 网络隔离等安全控制措施。
  • 建立数据库备份、跨区域灾备及容灾恢复机制。
  • 制定并实施RTO/RPO策略及灾难恢复演练。

技术栈

AWS、EKS、Docker、Kubernetes、Helm、Aurora MySQL、MSK Kafka、DocumentDB、CloudFront、ALB、Route 53、ECR、EFS、S3、CloudWatch、Prometheus、Grafana、Loki、Terraform、Spring Cloud

项目成果

  • 完成核心业务系统云原生改造及 Kubernetes 平台迁移。建立标准化 DevOps 流程及 GitOps 自动化交付体系。
  • 构建企业级监控告警与日志分析平台。实现生产环境高可用架构及容灾体系建设。

Kubernetes 微服务平台化:交付自动化与稳定性治理

多家公司

项目描述

负责公司 Kubernetes 容器云平台建设与运维管理,为微服务架构提供统一运行环境,实现资源调度、服务治理、自动扩缩容、监控告警及安全管理能力。

主要职责

Kubernetes平台建设

  • 基于 kubeadm 独立搭建生产级 Kubernetes 集群。
  • 实现 Master 高可用、Etcd 集群及负载均衡架构设计。
  • 负责集群升级、扩容、故障恢复及生命周期管理。

应用交付与服务治理

  • 使用 Helm 构建统一部署模板,实现应用标准化发布。
  • 实施 HPA 自动扩缩容、资源配额管理及调度优化。
  • 基于 Ingress Controller 实现统一流量入口管理及 HTTPS 证书自动化管理。
  • 支撑 Spring Cloud 微服务在 Kubernetes 平台稳定运行。

可观测性建设

  • 搭建 Prometheus + Grafana 监控体系。
  • 建设 EFK 日志平台,实现日志集中采集与分析。
  • 建立统一告警平台,实现故障快速发现与定位。

安全治理

  • 实施 RBAC 权限管理体系。
  • 配置 Network Policy 网络隔离策略。
  • 建立镜像安全扫描及漏洞修复流程。
  • 推动容器安全基线建设。

性能优化与故障处理

  • 负责资源调优、网络优化及性能分析。
  • 处理 Pod 异常、服务不可用、资源竞争等生产问题。
  • 优化调度策略,提高资源利用率及平台稳定性。

技术栈

Kubernetes、Docker、Helm、Prometheus、Grafana、ELK/EFK、Ingress Nginx、RBAC、Calico、HPA、Linux

项目成果

  • 建立标准化 Kubernetes 运维体系。成功支撑公司核心业务微服务化部署。
  • 提升应用交付效率与资源利用率。完善监控告警及故障应急响应机制。

从 0 到 1 建设私有云与 DevOps 平台

多家公司

项目描述

主导公司私有云基础设施建设,完成数据中心网络、服务器、虚拟化平台、DevOps平台、监控体系及自动化运维体系建设,为研发团队提供稳定、高效、安全的基础设施服务。

主要职责

数据中心与私有云建设

  • 负责服务器、存储、交换机、防火墙等基础设施选型与部署。
  • 设计企业网络架构、存储架构及安全区域划分。
  • 基于 VMware vCenter/Proxmox VE 构建企业级私有云平台。
  • 建设无人值守安装系统,实现批量自动化装机。

DevOps平台建设

  • 搭建 GitLab、Jenkins、Nexus、SonarQube、Confluence、禅道等研发支撑平台。
  • 基于 OpenLDAP 实现统一身份认证(SSO)。
  • 建设 CI/CD 自动化交付平台,实现构建、测试、发布及灰度发布流程自动化。

自动化运维建设

  • 使用 Ansible、Shell、Python、Go 开发自动化运维工具。
  • 开发云资源管理工具,实现 DNS、云主机等资源自动化管理。
  • 使用 Terraform 实现私有云及公有云资源统一编排。

可观测性与安全体系建设

  • 搭建 Zabbix、Prometheus、Grafana 监控平台。
  • 建立邮件、短信、钉钉等多渠道告警体系。
  • 部署 JumpServer、SysPass 等堡垒机系统,实现运维审计与权限管理。
  • 建立安全基线及运维规范体系。

技术栈

VMware vCenter、Proxmox VE、OpenLDAP、GitLab、Jenkins、Ansible、Terraform、Zabbix、Prometheus、Grafana、JumpServer、Python、Go、Shell

项目成果

  • 完成企业私有云及DevOps平台从0到1建设。建立统一研发交付与自动化运维体系。
  • 显著提升软件交付效率与运维管理水平。实现基础设施标准化、自动化及可视化管理。

DDoS 应急处置:DNS 架构重构与业务恢复

东南融通(2009)

项目描述

公司权威DNS平台遭受超大规模DDoS攻击,影响大量互联网业务访问。负责应急响应、架构重构及服务恢复工作。

主要职责

  • 分析攻击流量特征及攻击路径。
  • 重构原有单点DNS架构,设计分布式DNS部署方案。
  • 开发自动化同步机制,实现多节点数据实时同步。
  • 优化DNS服务可用性与容灾能力。
  • 参与应急响应及故障恢复全过程。

技术栈

Linux、DNS、BIND、Shell、TCP/IP、DDoS防护、网络安全

项目成果

  • 建立高可用分布式DNS架构。成功恢复DNS服务并快速消除攻击影响。显著提升DNS服务稳定性及抗攻击能力。
  • 为公司减少经济损失损失逾400万元,获得东南融通集团级通报表彰。

软件开发与运维工具平台建设

多家公司

项目描述

结合运维管理实际需求,独立设计开发多套内部管理系统及移动应用,提升运维效率、数据库安全管理能力及终端用户网络安全体验。

主要职责

SQL审核平台开发

  • 基于 PHP + MySQL 独立开发企业级 SQL 审核平台。
  • 实现 SQL 提交、审批、执行、审计全流程管理。
  • 集成企业微信,实现移动端实时审批与通知推送。
  • 提供开放 API 接口与业务系统集成。

员工上网行为管理系统开发

  • 基于 PHP + MySQL 独立开发员工上网行为审计平台。
  • 实现用户行为采集、日志分析、审计查询及报表统计。
  • 提供可视化管理后台及权限控制体系。

SikkerBox移动应用开发

  • 基于 Flutter(Dart)独立开发跨平台移动应用。
  • 采用模块化架构设计及 Provider 状态管理模式。
  • 开发两因素认证(2FA)管理模块,支持 TOTP 动态口令生成。
  • 集成 DNS 查询、IP检测、端口检测、网络诊断等网络工具模块。
  • 采用现代化UI设计,打造面向安全与运维场景的移动工具平台。

技术栈

Flutter、Dart、PHP、MySQL、Hive、Provider、REST API、企业微信API

项目成果

  • 建立企业数据库变更审核管理体系。实现员工上网行为审计自动化。
  • 完成跨平台移动应用独立研发与上线。提升运维管理效率及安全治理能力。

工作经历

厦门华海云谷数字科技有限公司

2025.08 - 2026.06
技术专家
  • 主导业务系统架构升级,完成 CloudFront + Nginx + Docker 架构向 CloudFront + S3 + ALB + ECS,再到 CloudFront + ALB + EKS 云原生架构的演进与优化。
  • 负责 AWS 云平台整体架构规划与运维管理,包括 VPC、EKS、ALB、CloudFront、Aurora、MSK、DocumentDB、S3、ECR、CloudWatch 等核心服务。
  • 负责 Kubernetes(Amazon EKS)平台建设与运维,包括集群部署、扩容升级、网络治理、Ingress管理、证书管理、Secret管理及应用生命周期管理。
  • 建设并维护 GitHub Actions / GitLab CI /ArgoCD 自动化交付体系,实现持续集成、自动化测试、安全扫描及零停机发布。
  • 建设 Prometheus、Grafana、CloudWatch、Loki 等可观测性平台,实现全链路监控、日志分析及告警管理。

厦门屯粮积草网络科技有限公司(信用家)

2023.06 - 2024.11
高级运维工程师
  • 负责 Spring Cloud 微服务平台运维,管理 MySQL、MongoDB、Redis、Kafka、RabbitMQ、Nacos、Seata、Canal、Elasticsearch、MinIO 等中间件集群。
  • 建立 CI/CD 自动化交付体系,完善 Zabbix 监控平台及运维规范建设。
  • 推动数据库安全治理,实施生产库只读访问控制及 Archery 数据脱敏管理。
  • 持续进行 MySQL 参数调优、慢SQL优化及系统架构优化,解决历史高峰期系统宕机问题,提升系统稳定性及并发处理能力。
  • 负责呼叫中心录音平台架构优化及功能开发,重构录音文件访问架构与代码逻辑,加载耗时 17.1s → 564ms,大幅提升文件访问性能。
  • 基于 Go 语言开发 UDP 文件传输测试工具,用于呼叫中心网络质量评估与故障分析。

联生活(厦门)科技集团有限公司

2021.01 - 2023.06
运维工程师
  • 负责 Spring Cloud 微服务平台建设与运维,管理 MySQL、Redis、Nacos、RocketMQ、SkyWalking、Sentinel、XXL-Job 等核心组件。
  • 建设 CI/CD 自动化发布体系,实现灰度发布及自动化交付。
  • 建立 Prometheus、Grafana、Zabbix 多维度监控体系,实现业务监控与预警管理。
  • 主导公司容器化改造,负责 Docker 镜像体系建设及 Kubernetes 平台落地。
  • 搭建 Harbor、Rancher 等云原生管理平台,推动业务系统平稳迁移至 Kubernetes 环境。

厦门海西医药交易中心有限公司

2018.08 - 2020.08
运维主管
  • 运维体系与SOP:从零开始设计 CI/CD 流水线的经验,Kafka/ES/FastDFS/Doris/TiDB大数据平台,完善监控告警,效率提升约 35%
  • 平台与稳定性:多云(私有云+阿里云+腾讯云+政务云) + 微服务组件运维与故障响应,保障 7×24 稳定运行。
  • 交付自动化与合规:医保行业项目多环境交付,交付周期缩短约 90%;参与 ISO9001/CMMI4/等保2.0 落地。运维团队管理(5人)。

厦门贰叁肆玖互联网服务有限公司

2017.11 - 2018.03
运维主管
  • 推行 Git 规范与 Zabbix 监控告警(含二次开发),协同研发处置线上问题与性能优化。
  • 组织应用安全扫描/渗透测试,跟踪风险并推动修复闭环。后因公司注销而离职。

厦门市美亚柏科信息股份有限公司(7年)

2010.11 - 2017.11
运维主管
  • 大型基础设施运维:完成厦门超算中心近 1000 台机架式服务器(含GPU)网络改造、容灾备份与监控落地,提升稳定性与服务质量。
  • 自动化与标准化:Cobbler + 无人值守安装实现批量交付,效率提升约 90%;沉淀标准化手册与应急预案。
  • 安全与保障:主导信息安全整改与漏洞治理,合规性经验(SOC 2、PCI DSS、ISO 27001),安全事件发生率降低约 70%;参与重大活动保障与应急协调;独立开发员工上网行为管理系统(业界硬件设备无法实现之需求)。

早期工作概览

2002 - 2010
网宿科技 / 东南融通(6年) / 重庆热点 / 数字引擎 等
  • 负责DNS、CDN、mysql、mssql、java等服务器的运维管理,积累了丰富的故障排除、优化、迁移、数据备份等经验。
  • 从事服务器运维、Linux系统管理、网络安全及Web应用开发工作,服务器批量部署、监控体系建设、运维流程改造与自动化脚本沉淀,服务器安全配置规范初具雏形,为后续大型互联网及云平台运维工作奠定技术基础。

论文发表(点击下面链接查看)