在HPC场景下,底层网络的性能直接影响最终的结果,HPC往往会伴随海量的数据交换,特别是在跨Node之间,10Gb的以太网网络传输肯定要比100Gb的IB网络传输慢,本人所负责的训练平台也是如此,在一次训练过程中,GPU存在海量数据交换,虽然是在GPU之间,但本质还是通过网络进行传输,但是以太网的传输在HPC场景下往往显得不那么高效,因此可以通过RDMA或者如果预算够的话,通过硬件IB实现数据交换,能大大提高训练质量

阅读全文 »

最近由于业务需要,在做一些关于国产化相关的事情,需要将平台从x86架构迁移到arm64上run起来,最重要的环节则在于镜像都需要rebuild一遍,在这个过程中还是碰到一些问题,拿出来分享一下,希望对其他人会有所帮助.

阅读全文 »

目前团队使用argo-cd做为统一发布平台,承接所有的环境的发布,最近碰到一个很有意思的问题(下文描述),跟随这个问题引出另一个问题: argo-cd是如何绑定资源的呢?用了argo-cd这么久了,感叹自己从来都没细致研究过,呵呵了.

阅读全文 »

argocd配合GitOps,可以实现对kubernetes多集群的应用版本管理,目前已用于我负责的业务环境中实现统一发布平台.

在这里记录下使用argocd踩过的坑, 不定期更新

阅读全文 »

接上篇,主要介绍了kube-batch中两个重要的对象,queue及podgroup,这次主要讲讲kube-batch的核心的几个模块

阅读全文 »

上篇简单说了下在集群中安装kube-batch且成功运行起来之后, 现在开始对kube-batch中的一些概念进行阐明, 先从podgroup及queue说起

阅读全文 »

记录下遇到的有趣的shell代码, 可能是一些常用的snippet, 也可能是使用的时候不经意踩到的坑

不定时更新

阅读全文 »
0%