个人优势

  • 5年互联网运维经验,熟悉大数据及云运维:先后参与完成数据中心级迁移工作,独立负责完成公司新组件从调研到落地维护等工作,熟悉大数据组件部署和使用流程,也擅长微服务容器化实践;
  • 立足根本,乐观探索,享受给团队带来的价值实现:目前已婚已落户,稳中求进,有足够的条件和信心为团队和企业稳定和创新作出突破性的贡献;
  • 认真负责,积极进取,快速学习的能力:早在实习阶段自学ansible,为公司产线产品初始化编写剧本,克服定制化的复杂性,提效20%+,经过多次迭代后,沿用到售后上门服务的必备工具中;

毕业院校

南京邮电大学通达学院

毕业年份

2018

学历

本科

年龄

28

课程和证书

CCIE 思科网络工程师(RS方向)

大学英语四级

技能亮点

  • 熟悉自动化运维工作

    使用ansible编排复杂部署剧本,开发自定义功能模块,迁移学习TiDB v2编排风格,也应用到公司私有化产品部署中,为C端小白用户提供便利;

    熟悉saltstack底层执行原理,为公司千余台物理节点提供自动化运维能力;

  • 熟悉Docker/Kubernetes容器化生态

    k8s集群部署/调优,熟悉大规模集群治理流程,有排查api-server核心rpc指标异常的工作经历,有关于local-pv-provisioner问题排查组内分享经历;

    了解operator功能开发,独立完成关于大数据组件的operator开发任务;

    熟悉Prometheus及Grafana监控技术栈,掌握自定义的exporter开发工作;

  • 熟悉大数据生态组件

    熟悉基本Hadoop数据处理流程,有离在线任务处理经历;

    熟悉HDFS/ZK/Hive等维护经历,有丰富的运维工作经验,完成Namenode和ZK等核心组件等迁移和升级工作;

  • 熟练使用Golang/Python等语言工具,掌握Shell脚本语言

    熟悉Gin/Gorm等开发框架,借助salt-api作为自动化任务平台执行引擎,独立完成任务调度模块的开发任务;

    熟练使用mysql以及zk/redis/kafka等中间件,包含不限于分布式主从选举;

工作经历

苏州同程旅行

大数据运维开发工程师

三月 2021 - 六月 2023

  1. Kudu组件负责:负责kudu组件运维,通过http接口跟踪表用量信息,将单一的计费模式改为按量计费,消灭成本统计障碍,有效推进了业务优化,同时为新用户提供容器化kudu解决方案支持,将kudu集群使用成本控制到原来的50%;
  2. 异地集群迁移:负责kudu/yarn/hdfs在内的服务迁移任务;通过统计集群一周RPC压力以及资源用量,创意性地提出“以虚替实“的kudu迁移方案,完成“0中转资源”条件下的kudu迁移,最终kudu率先成为异地迁移的”领头羊“;通过采集datanode节点心跳指标,解决了hdfs迁移过程中的热点难以监测问题,有效减少迁移过程中热点导致的业务反馈频次;
  3. Hadoop升级:负责Hadoop升级工作;升级作为高保障且长尾的任务,常伴随回滚不及时/升级进度卡顿以及单点压力过载导致的请求夯死等问题;为此,首先由于HDFS特性,通过go并发锁去控制升级并发,根据心跳作为节点健康判定的主要标准,同时针对存在文件句柄/RPC异常的DN节点进行自动熔断,最终生成一份升级汇总,信息包含成功升级以及熔断记录,实现1000+DN节点的更新操作控制在小时级(6H),极大节省了人力和时间成本。
  4. Pipeline任务管理:通过saltstack api接口开发常用运维任务管理平台;向上,对接云平台,提供任务套餐,由上层告警事件驱动/定时/周期性调用pipeline模版,支持核心人员审核,保障运维过程有序可控;向下,通过saltstack自带的salt-api下放实际任务调度指令,弥补了传统云平台对于基础硬件缺少感知导致的短缺,为云平台SLA提供保障。
  5. 容器云平台开发:基于Operator实现多种大数据组件能够在Kubernetes中自运维,用户在了解资源配置及组件血缘关系的情况下,即可快速接入组件,省去了复杂构建流程,同时提供常用的运维操作窗口;

苏州朗动企查查

大数据运维开发工程师

六月 2019 - 三月 2021

  1. CICD流程演进:负责CICD工作,通过Jenkins+Ansible的构建项目,负责SpringBoot项目(离线任务调度平台,统称A项目)的测试/构建/发布/告警等工作;熟悉Ansible Playbook编排设计;
  2. 大数据组件支持:大数据组件通过CDH开源平台管理,通过CDH完成一站式的大数据运维服务;
  3. 容器化改造:早期A项目主要以JAVA命令在物理节点上启动,为降低运维成本,将大数据底层组件和A项目通过k8s实现容器化管理;难点在于兼容项目复杂的底层依赖(主要包含系统层面以及大数据服务依赖)。
  4. TIDB落地:完成TIDB在公司落地;负责完成TIDB v2到v3的大版本升级;跟踪运维记录,制定使用白皮书;

项目经验

<TIDB落地:从0到1的实践指南>

企查查-运维工程师

负责TIDB组件落地,完成TIDB大版本升级以及日常运维管理;

<新海宜机房迁移:降本增效>

同程旅行-运维开发

一方面主要负责大数据主要服务组件迁移方案和流程文档,独立负责hdfs/zk以及kudu服务组件的迁移;另一方面负责双机房IDC方面有效对接,减少各环节信息差;

<Pipeline任务管理模块开发>

同程旅行-运维开发

通过Gin开发Pipeline任务管理功能,实现声明式的任务流水线风格。

<Hadoop升级:千余台规模>

同程旅行-运维开发

负责HDFS和Yarn相关核心组件自动化升级,将1000+节点的DN更新任务从天级别缩至小时级;通过云平台实现Yarn计算资源的快速切换,只需部分中转资源即可灵活切换版本。