简介

熟练掌握Kubernetes、Docker等技术。擅长自动化部署、系统监控和故障排查,注重团队合作,持续用技术创建价值的运维人。

年龄

31

性别

应聘岗位

运维工程师

工作地点

北京

学历

本科

工作性质

全职

技能

  • 熟悉 kubernetes 容器平台原理以及相关生态,熟悉kubeadm,独立完成集群部署,管理和配置

    熟悉 gitlab、Jenkins 等 ci/cd 系统,独立配置构建任务和脚本,熟练编写Dockerfile, .gitlab-ci.yml文件。

    熟悉运维自动化工具ansible、ansibe-tower,可独立编写ansible playbook和role, 批量配置服务器

    熟悉常见的监控系统,如prometheus 套件, zabbix,grafana ,实现系统和服务的监控和报警

    熟悉常见的nosql(redis持久化、主从,sentinel, mongodb 副本集 )和mysql集群的搭建,优化,高可用,备份

    熟悉版本控制系统git, 主要使用git进行代码的版本控制

    熟悉使用常见基础服务,nginx,keepalive,nfs,vsftp,samba,iptable,ldap,rsync,mail,jumpserver

    熟练使用shell脚本编程,并熟悉运用awk、sed, grep等脚本辅助工具;

    熟悉python web(flask框架),了解前端基础知识和vue框架

    熟悉 Linux系统环境,ubuntu/centos,故障排查和性能优化sysstat,sar

    熟悉阿里云等公有云的服务和操作,并有实际的系统应用经验;

    熟悉helm,了解helmfile管理工具,管理集群应用的chart、release

    了解dragonfly 镜像加速,rook/ceph的分布式存储,pv扩容

    了解terraform,基于此配置云上基础设施和迁移

    了解GPU服务器在k8s集群中的基本使用

工作经历

原力跃新(重庆)科技有限公司

运维工程师

十二月 2024 - 现在

  • 维护业务的jenkins 自动流水线发布,维护内部ops平台,推进项目转型devops。
  • 事业部内部matrix集群的维护,独立完成集群升级,节点扩缩容、监控告警,故障排查,备份恢复,故障演练等,维护harbor私有仓库
  • 使用 ansible playbook批量完成服务器配置更新。
  • 随时响应开发组内和项目现场的突发问题和日常需求,并进行系统故障分析以及问题解决,确保环境的正常运行。

杭州壹悟科技有限公司

运维工程师

一月 2022 - 十二月 2023

  • 公司电商k8s自有集群的维护,独立完成集群升级,节点扩缩容、监控告警,故障排查,备份恢复,故障演练等,全程参与完成了公司应用容器化,解决集群各类节点,pod异常,维护harbor私有仓库和多可区。
  • 基于阿里云GPU云服务器保障算法组物流调度系统和视觉识别算法的训练
  • 使用 ansible playbook批量完成服务器配置更新。
  • 利用 terraform 实现基础设施即代码,完成智能物流业务平台基础设施的构建和备份,通过gitlab作为唯一信任源协作
  • 配合组内人员进行轮值 on-call,并进行系统故障分析以及问题解决,确保环境的正常运行。

北京云动九天科技有限公司

运维工程师

六月 2019 - 十二月 2021

  • 维护内部发布平台、集成发版审批工单模块,sql优化,日志查询,虚拟机申请,跳板机登陆等功能,提升研发效率,统一各类需求。
  • 公司电商k8s自有集群的维护,独立完成集群升级,节点扩缩容、监控告警,故障排查,备份恢复,故障演练等,全程参与完成了公司应用容器化,解决集群各类节点,pod异常,维护harbor私有仓库和多可区。
  • 维护 gitlab 代码平台,并基于 gitlab 的 cicd 功能,通过编写.gitlab-ci.yml,并以模板的形式提供开发引入,实现代码开发到测试部署的工具统一化,方便升级与回滚;
  • 维护私有云和公有云的 ansible 部署流程,并根据需求对 ansible 进行扩展,满足多样化的部署需求;
  • 针对公司不同的需求,开发相关的自动化运维效率工具;

清大紫育(北京)教育科技股份有限公司

运维工程师

六月 2016 - 五月 2019

  • 在线教育业务集群的维护, 通过调用阿里云slb api来便捷添加增删节点,应对变化的业务需求;定制配置nginx反向代理规则,实现应用迭代发布;针对数据库参数、查询优化、php、mysql、nginx 的优化,进一步提升用户体验;
  • 基础服务维护,包括wiki,jira,代码仓库,域名证书,定制化监控报警;
  • 编写维护jenkins job,不断优化发版流程,提升发版速度。

Projects

构建高可用k8s集群

运维工程师

为增强集群稳定性,提高集群资源利用率,灵活扩缩容。业务系统全面容器化,构建了100+节点的v1.28 k8s集群,配置5节点控制面高可用。实现了节点,业务自动扩容,大大增强了业务的可移植性,扩展性和自愈能力.

  1. 预先集群规划。根据业务规模划分网络cidr、需要的持久化类型,节点的连通性和网络策略需求,对硬件的特定需求。
  2. 通过kubeadm部署和管理k8s集群。定制kubeadm config文件,ansible批量配置节点系统环境,按需灵活版本升级,上下线节点,管理证书,集群迁移等。
  3. 集群控制平面多节点高可用部署 ,针对etcd集群进行物理节点和配置优化,提升性能,定期备份;
  4. 集群节点二层网络互通,网络插件采用calico bgp 模式
  5. 部署高可用prometheus,共享远端InfluxDB存储,结合grafana展示,alertmanager多通道告警
  6. 节点默认配置了containerd容器运行时和私有仓库证书,地址配置
  7. 部署efk日志系统,收集和展示日志
  8. 附加安装了kubesphere borad来统一集群资源查看。
  9. 附加安装了metric server,kube-event,node-problem-detector,coredns,kube-proxy(ipvs)组件

对于coredns域名解析延迟问题部署了NodeLocal DNSCache,调大节点Conntrack值。集群管理,预先配置ResourceQuota,limitrange,对重要服务设置pdb,hpa,PriorityClass;利用velero备份k8s集群并定期进行故障演练;

集群整体稳定性增强,应用副本可以快捷扩展,自动伸缩,负载均衡; 扩展性增强,容器化保证了环境一致,k8s集群可以快速方便的增减节点,灵活配置。

构建cicd发布平台

运维工程师

随着公司业务的快速发展,jenkins发版平台对于k8s支持不足,权限分布在不同的平台,因此配置了以gitlab 为中心 发布平台。其中配置gitlab作为单一信任源,基于其cicd的能力,灵活配置gitlab runner, 通过.gitlab-ci.yml,实现开发人员push或者pr后根据workflow条件出发,自动执行代码风格检查、覆盖率、单元测试、镜像构建、镜像push、k8s部署清单或helm部署到k8s集群。实现了流水线多阶段,多环境持续集成,持续交付。开发,测试,运维多角色统一到gitlab进行协作,自主查看构建进度。

  • 灵活配置多种gitlab runner搭配使用,配置runner自动扩展;搭建了高可用制品库。部署了高可用harbor仓库,配置基于trivy的容器镜像扫描和仓库复制。配置了nexus私服;
  • 配置gitlab agent ,简化部署,避免kubeconfig文件暴露的风险。

教育

廊坊师范学院

生物技术 - 学士学位

2012 - 2016

课程和证书

英语四级证书