华为在职工程师,主要从事语言大模型算法预研和开发。
简介
教育
美国东北大学
数据科学 - 硕士
2018 - 2020
美国明尼苏达大学双城分校
工业工程 - 学士
2014 - 2018
工作经历
华为科技有限公司
算法工程师
三月 2021 - 现在
- 负责华为盘古大模型电信行业垂直领域模型训练的训练工程,搭建百卡分布式训练集群,制定分布式训练策略,实现训练过程记录打点,断点续训功能,稳定支撑盘古模型垂直领域增量预训练。
- 负责华为盘古电信垂域大模型增量预训练,指令微调,RLHF算法开发,采用数据增强,多专家模型,领域词表叠加,增量训练损失函数优化,RLHF/IPO算法等,优化盘古大模型在电信垂直领域的问答效果,在电信领域评测集上已达到chatgpt3.5的70.6分位数。成果支撑华为ICT产品线在华为产品与解决方案发布会上首发华通信大模型,在UBBF,HC大会和中国移动合作伙伴大会发布通信网络大模型。
- 负责华为盘古电信垂域大模型数据处理流水线搭建,包括数据筛选,数据增强,数据去重,大幅提升模型在电信领域问答的专业性。
- 搭建电信垂直领域评测算法框架,克服语言模型知识问答评测难度高的问题,为算法效果穿刺提供稳定的度量指标。
- 开发华为Battery Management System中的充电场站异常检测模型,通过Transfomer架构+自编码器结构,学习充电场数据的正常模式,再根据重构loss判断输入数据是否为异常。经业务方测试达到80%准确率和1.6%误报率。
- 负责深度学习/机器学习模型可解释性算法开发,根据shapley value理论,计算模型输入对模型输出的影响度,上线商用UC,落地15个商用局点。
Human Movement Neuroscience Lab
计算机视觉工程师
一月 2020 - 六月 2020
-
开发3D重建算法,通过目标检测算法,从4个2D平面视图中重构目标的3D坐标。
-
使用4台GoPro,Openpose算法和OpenCV构建了一个高度便携的3D运动追踪系统。
技能
Python, Huggingface, Deepspeed, Pytorch