team member:
PB22111627 殷一鸣
PB22111649 何跃强
PB22111636 彭晗
PB22111631 郭泽
项目阶段 | 时间 | 项目进展 | 工作安排 |
---|---|---|---|
选题阶段 | 3.3 - 3.9 | 研究往届选题,对可选题方向进行大致讨论后确定每个人细细调研方向 | 小组分工:1. 殷一鸣:分布式内存管理与进程管理。2. 郭泽:AI+OS 3. 彭晗:虚拟化 4.何跃强:网络系统 |
选题阶段 | 3.17 - 3.31 | 确定选题为GPU显存优化,完成调研报告 | 小组分工:1. 殷一鸣:立项依据+整合。2. 郭泽:项目背景 3. 彭晗:前瞻性分析 4.何跃强:相关工作 |
选题阶段 | 4.8 - 4.10 | 更改研究选题为RAY+大模型,紧急进行相关方向调研 | 小组分工:1. 殷一鸣:Ray。2. 郭泽:Deepzero 3. 彭晗:Spark 4.何跃强:vllm |
可行性报告 | 4.10 - 4.12 | 可行性报告内容及分工讨论,报告范围为:Ray+大模型的可行性分析,相关优化方向对比:Deepzero,spark,vllm | 分工:殷一鸣:vllm可行性测试 郭泽:ray可行性测试 彭晗:spark 何跃强:deepzero |
期中汇报 | 4.15 - 4.21 | 会议主要任务:规划PPT内容和分工、交流项目进展和困难。我们将PPT分成了What: Ray 介绍。Why:为什么使用ray, deepzero与spark等技术的比较,使用ray+大模型相关工作的介绍。 How:未来研究计划,一些必做于可选项的安排 | 分工: 演讲:殷一鸣 PPT制作: 郭泽:why 彭晗: how 何跃强:what 可行性演示:殷一鸣:vllm测试,郭泽:ray测试 |
Ray+大模型基础部分 | 5.4 - 5.10 | 学习Ray的结构和原理,进行环境的搭建和配置,为其在大模型上的部署做准备,学习vllm框架的使用及测试代码的编写 | 进行模型训练相关的学习与框架搭建 |
Ray+大模型基础部分 | 5.10 - 5.31 | 完成RAY+大模型单机部署,后在小组三台PC上实现异构部署 | 进行模型训练相关的学习与框架搭建 |
Ray+大模型基础部分 | 6.1 - 6.12 | 期末考前复习间隙学习deepspeed/zero/vllm源码 | 进行模型训练相关的学习 |
Ray+大模型优化部分 | 6.24 - 6.30 | 尝试ray+llm的优化 (vllm,deepspeed) | 彭晗,郭泽:学习ray-llm官方仓库,尝试ray+vllm部署 殷一鸣,何跃强:学习deepspeed,完成相关baseline测试(samples/s) |
Ray+大模型优化部分 | 7.1 - 7.6 | 尝试ray+llm的优化 (自动数据分发),优化结果测试(吞吐量,时间) | 每日分工由当日开会决定 |