再见2024,2025再见

再见, 2024

2025, 再见

seek logic, seek technology, seek detail

再见2024

西藏行

每年一次的背重远行,是生活最好的调节器

本来是号称最美西藏的7月份打算去,一拖再拖延就到10月份才走成(打工人果然没办法说走就走),在西藏呆了半个月, 想起那句话: 在西藏, 可以缺氧, 但不缺信仰.
我跟同事调侃道: 花钱去高原拉练, 名其曰是去度假, 却选了条比上班还累的路,但远离城市的喧嚣, 身处大自然, 无比放松, 祖国的大好河山, 是值得花时间去品尝, 西藏,我想我还会再去N+1(N>0)次

打工人

2024整年我负责的算力规模已是年初规模的2倍有余,目前还处于扩容状态,几个数据:

  1. 年底将达4.5w核心,2025Q1达5w核心, 2025年将再次翻倍, GPU可能达千卡规模
  2. 集群每天承载的任务数(按容器算)大约在5万+,全集群资源申请率可达90%
  3. 全年没有发生过P1故障(因集群宕机导致的ROI损失)
算力

因为没有多余的人力维持多个集群,因此最开始规划的就是一个大的集群(我们不是没有考虑隔离不隔离的问题,但我还是比较有信心可以做到业务层隔离),这个大的集群里面混部着各类工作负载:生产态任务,研究态任务,训练/推理任务,微服务等等

由于业务对时间非常敏感,敏感体现在两个方面

  1. 上下游任务必须在规定时间内完成,任何一环任务delay都将影响全局产物交付,但凡有一环delay,都将对下游产生数量级的delay。
  2. 生产推理在毫秒级完成,这就要求在混部场景下集群各类agent组件不能有性能问题

2024规划/完成了以下的生产保障:

  1. 控制面

    • 扩容:集群目标承载能力在10万核心左右,任务容器数10万+
    • 优化:全面对控制面组件做了优化
    • 隔离:容器数5w的规模下,会产生数倍的事件数据,这些数据又在很多地方都有嵌套,这导致了某些操作变得缓慢,所以先将非核心object从etcd集群中剥离出来,如果仍有必要,下一步将剥离更核心object
  2. 数据面

    • 优化:节点也做了相关的优化,主要聚焦在OS及kubelet
  3. 网络

    • 容器网络:cilium做了必要优化
    • 物理网络:IDC全量切换至spine leaf网络,集群节点的网卡都是context X5+级网卡,但是我们一直都是用的以太网模式,有点暴殄天物,训练在网络传输上也确实是遇到了瓶颈,近期做了ROCE相关的调研准备落地,
开发

开发方面主要做了以下几件事,涉及golang,python,shell:

  1. 更符合业务的多租户模型
  2. 所见即所得的监控体系
  3. GPU工作负载按型号分配
  4. kubelet cpu-manager cpu隔离逻辑
  5. kube中resourcequota的统计逻辑
  6. gitlab runner支持亲和性、自定义GPU调度逻辑
  7. 一些业务上的协同开发。。。
调研

做了一些技术调研工作,这里只提几个未落地的topic,种种原因吧:

  1. 集群ITTT(if this then that)
  2. nvidia GDS
  3. RoCEV2

不足

回顾整个2024,还是有些不足:

  1. 专注度不够:工作上总有一些时间花在不必要的事情上:,这里说的不必要是我认为的没必要,这类不必要的事情可能由很多原因导致,比如他人专业性不够,比如前期规划不足等等。但又不可避免地需要去配合,需求永远在变化,你不可能指望他人负责的领域完美无瑕,想起很经典的一句话:每个打工的牛马多多少少会有些驴该干的活
  2. 拖延症显现:工作时心无旁物的状态不在,多了些懒散,应该可以有更多/更多的产出,可能这是年过33的人的必经之路吧
  3. 其他客观因素。。。

规划展望

本来想写规划来着,想想还是改成展望吧。
规划是一个很清晰的蓝图,而展望概念上相对模糊一些,这样包袱没那么重,以四象限原则:

  1. 重要且紧急:保障运动量,发量不可少,发际线不可移
  2. 重要不紧急:持续可以拿到结果
  3. 紧急不重要:拥抱AI, 深入prompt
  4. 不重要不紧急:反向管理,PUA老板至少一次

身心健康永远放第一

以上涉及的技术细节我都点到为止不细说。目前所有由我既定的技术选型与业务都很匹配,可能是因为我的过往经验很贴合目前的工作方向。

2024,75分。

博客

最后说一说我的博客,今年也没有更新几篇,开了一个新的系列volcano如何应对大规模任务,其实还有几篇一直处于草稿阶段一拖就是几个月没有整理,羞愧。
好些人通过博客加上了我的微信,有人探讨技术,有人催更,有人希望我开通rss,还有一个同学想付费让我给他培训,这出乎了我的意外,不过我婉拒了他,我没有准备好。
关于为什么我的博客一直保持着级简单风格,原因就:Less is More
博客内容大多数是我的生产/实战经验,由点及面的分析,我觉得这是它唯一可以吸引别人的地方,实战嘛,本也不需要太过华丽的辞藻,本质上我的工作并不具有创造性,大多是踩在巨人的肩膀,如果我的经验可以当成肩膀让别人踩一踩,通过我的博客内容让他人少踩坑,那么这就是它的价值,也是我的初衷,其他徒有其表的东西不值一提。
我非常乐意能与大家做深入的技术探讨。
最后感谢那些给我打赏的宝子们。

2025再见

随着世界格局倒向右翼发展, 我想2025也将是不确定的一年。

祝各位发量永存,Bug不在,专心搞钱。

参考文章: