- 4年以上K8S项目容器化经验,多次从0到1的项目实践经历,抗压能力强;
- 对工作有责任心,对前沿技术有追逐心态,善于沟通和跨部门协作;
- 追求稳定简洁高效的DevOps工程理念和价值观,并根据公司需求灵活应变;
简介
教育经历
南京邮电大学通达学院(统招)
信息管理与信息系统 - 学士
2014 - 2018
吴江中学(高中)
2011 - 2014
课程和证书
思科网络工程师CCIE(RS方向)
Cisco
大学生英语四级
技能
开发能力
熟悉利用Shell/Python/Golang等语言工具,精通shell脚本编写
熟悉ansible-playbook和saltstack自动化任务编排,主要用于一键部署/自动升级/配置变更等交付场景
中间件
Nginx/Haproxy/Keepalive/Consul等常用功能配置部署和参数调优
mysql/redis/postgres等数据库中间件的高可用部署方案,并针对特殊场景(如灾备/迁移/告警等)有独立实施经验
制定国家等保合规方案,有过国产数据库highgoDB的部署交付经验
容器化
k8s高可用集群部署以及基于prometheus+grafana+pushgateway的监控落地,负责过超过百台集群节点的运维工作
docker和容器网络,熟悉calico以及flannel相关问题分析和排查
rancher/kubesphere/kubepi等k8s运管平台,并通过编写helm chart或kustomize实现项目交付流程
CICD方面
gitlab+jenkins+harbor+ansible(/helm)+dingdingAlert项目持续交付,熟悉两种风格pipeline的编写,实现任意版本整状态回滚;
tekton(/jenkins) + argocd + helm(/kustomize)的gitops流程实践能力,通过buildpacks减少传统docker build的时间成本;
大数据方面
熟悉CDH管理平台及Sentry权限管理,通过集成Kerberos插件加固集群安全
HDFS/Zookeeper/Kudu/Presto/Hive/Mapreduce/Kafka等,通过DN HeartBeat实现HDFS无感知升级
工作经历
中亿丰数字科技集团有限公司
运维主管
十一月 2023 - 现在
- 负责公司内外部k8s/k3s的搭建及EXSI虚拟化平台的运维工作,通过k3s实现项目交付的标准化和轻量化;
- 负责腾讯云/阿里云/华为云相关的业务(包含不限于备案/实例迁移/应用部署/域名/弹性IP等相关运维任务);
- 项目相关解决方案制定以及技术选型工作(包含不限于安全等保/项目服务器配置评估等);
- 部分HelpDesk工作,包括维修故障办公主机实现资源再利用,以降低成本;
同程旅游
大数据运维工程师
三月 2021 - 六月 2023
- Kudu业务架构负责人: 负责kudu组件运维体系,推进完成业务集群版本迭代,实现kudu业务用量计费新模式,实现减少近50%的集群维护成本;推进kudu集群容器化部署;
- 跨中心集群迁移:负责包含不限于kudu/yarn/hdfs/zk在内的服务异地迁移任务;通过统计集群每周RPC压力以及资源用量,同时创意性地提出“以虚替实“的kudu迁移方案,完成“0中转资源”条件下的kudu迁移,较快实现kudu业务的整体搬迁;
- Hadoop版本升级:负责Hadoop升级工作;升级作为高保障且长尾的任务,常伴随回滚不及时/升级进度卡顿以及单点压力过载导致的请求夯死等问题;为此,首先由于HDFS特性,通过go并发锁去控制升级并发,根据心跳作为节点健康判定的主要标准,同时针对存在文件句柄/RPC异常的DN节点进行自动熔断,最终生成一份升级汇总,信息包含成功升级以及熔断记录,实现1000+DN节点的更新操作控制在小时级(6H),极大节省了人力和时间成本。
- Pipeline任务管理:通过saltstack api接口开发常用运维任务管理平台;向上,对接云平台,提供任务套餐,由上层告警事件驱动/定时/周期性调用pipeline模版,支持人工审核,保障运维过程有序可控;向下,通过saltstack自带的salt-api下放实际任务调度指令,弥补了传统云平台对于基础硬件缺少感知导致的短缺,为云平台SLA提供保障。
苏州朗动企查查
大数据运维工程师
六月 2019 - 三月 2021
- 研发效能提升:推动 DevOps 工具链的落地实施,基于一套完整的 GitOps 工作流( GitLab+Jenkins+ansible/helm)、SonarQube 质量平台、Harbor 镜像仓库、Nexus 制品管理、通过Helm部署K8S等 ,实现运维和开发人员的高效协同,结合Ansible 工具实现版本发布的完全自动化,通过开发告警插件对CICD流程环节可审计;同时,负责Prometheus+ELK+Kafka的监控体系建设;
- 大数据技术支持:负责HDFS/HIVE以及HUE取数平台的维护工作,负责hive UDF自动化构建和版本控制,集群监控以及以及业务解决方案制定;通过CDH开源大数据管理平台维护和检测集群状态和配置变更,为了安全考虑,大数据集群集成Kerberos可靠的安全访问协议;
- K8S & TIDB落地:完成K8S高可用集群部署和TIDB的落地任务;独立负责完成TIDB v2到v3的版本升级;编写运维文档,制定使用白皮书;
苏州超集信息科技有限公司
技术支持(实习)
七月 2018 - 六月 2019
- 负责产线硬件的Troubleshooting工作;
- 自学ansible,编写playbook实现服务器产品初始化和测试的自动化流程,以及部分开源软件的一键部署;
项目经验
新海宜异地迁移【同程旅行】
运维负责人
六月 2020 - 六月 2021
负责跨机房的大数据组件搬迁任务,负责迁移方案设计和验收工作,跨部门(IDC部门)沟通任务进度和问题汇总,另外也独立负责kudu和hdfs组件的迁移工作,从立项到完全收尾历时12个月,为公司节省近千万的运维成本;
大数据任务调度平台on K8S【企查查】
运维工程师
负责公司离线任务调度平台容器化,将SpringBoot项目改造成容器化,涉及CICD项目发布流水线改造/大数据组件的衔接方式等中间过程;
水利闸站三级等保【中亿丰数字】
项目运维负责人
负责等保合规性检测及整改,涉及安全准入/入侵检测/权限管理和审计在内的部署;
Hadoop大版本升级【同程旅行】
运维负责人
负责HDFS v2到v3的主版本升级,通过开发脚本(1. 采集DN HeartBeat实时数据,用于减少升级过程中的数据副本缺失;2. 采集DN节点RPC和句柄数据,针对升级过程中数据偏移导致的夯死现象做主动熔断策略;)实现用户无感的升级流程;