Z.S.K.'s Records

Kubernetes学习(k8s基于InfiniBand实现HPC高性能容器网络组网方案实践一)

发表于 2021-07-02 分类于 HPC 本文字数： 2.1k 阅读时长 ≈ 2 分钟

在HPC场景下，底层网络的性能直接影响最终的结果，HPC往往会伴随海量的数据交换，特别是在跨Node之间，10Gb的以太网网络传输肯定要比100Gb的IB网络传输慢，本人所负责的训练平台也是如此，在一次训练过程中，GPU存在海量数据交换，虽然是在GPU之间，但本质还是通过网络进行传输，但是以太网的传输在HPC场景下往往显得不那么高效，因此可以通过RDMA或者如果预算够的话，通过硬件IB实现数据交换，能大大提高训练质量

阅读全文 »

Kong学习(代理多grpc后端)

发表于 2021-05-15 分类于 CloudNavi 本文字数： 1.6k 阅读时长 ≈ 1 分钟

kong在v1.3的版本原生支持了grpc协议, 这里说说使用kong来代理多个grpc请求.

阅读全文 »

Docker之交叉编译

发表于 2021-04-05 分类于 CloudNavi 本文字数： 5.5k 阅读时长 ≈ 5 分钟

最近由于业务需要，在做一些关于国产化相关的事情，需要将平台从x86架构迁移到arm64上run起来，最重要的环节则在于镜像都需要rebuild一遍，在这个过程中还是碰到一些问题，拿出来分享一下，希望对其他人会有所帮助.

阅读全文 »

argoCD学习(argocd是如何绑定资源的)

发表于 2021-04-02 分类于 CloudNavi 本文字数： 1.8k 阅读时长 ≈ 2 分钟

目前团队使用argo-cd做为统一发布平台，承接所有的环境的发布，最近碰到一个很有意思的问题(下文描述)，跟随这个问题引出另一个问题: argo-cd是如何绑定资源的呢？用了argo-cd这么久了，感叹自己从来都没细致研究过，呵呵了.

阅读全文 »

argoCD学习(argocd踩坑记)

发表于 2021-04-02 分类于 CloudNavi 本文字数： 1.9k 阅读时长 ≈ 2 分钟

argocd配合GitOps，可以实现对kubernetes多集群的应用版本管理，目前已用于我负责的业务环境中实现统一发布平台.

在这里记录下使用argocd踩过的坑, 不定期更新

阅读全文 »

Kube-batch学习(核心模块)

发表于 2021-03-27 分类于 Kubernetes 本文字数： 4.5k 阅读时长 ≈ 4 分钟

接上篇，主要介绍了kube-batch中两个重要的对象，queue及podgroup，这次主要讲讲kube-batch的核心的几个模块

阅读全文 »

Kube-batch学习(核心模块)

发表于 2021-03-27 分类于 HPC 本文字数： 4.5k 阅读时长 ≈ 4 分钟

接上篇，主要介绍了kube-batch中两个重要的对象，queue及podgroup，这次主要讲讲kube-batch的核心的几个模块

阅读全文 »

Kube-batch学习(kube-batch踩坑记)

发表于 2021-03-27 分类于 HPC 本文字数： 2.4k 阅读时长 ≈ 2 分钟

由于kube-batch经久未修，导致在引入kube-batch到环境中验证期间fix了很多问题，记录于此

阅读全文 »

Kube-batch学习(queue及podgroup)

发表于 2021-03-21 分类于 HPC 本文字数： 5k 阅读时长 ≈ 5 分钟

上篇简单说了下在集群中安装kube-batch且成功运行起来之后，现在开始对kube-batch中的一些概念进行阐明, 先从podgroup及queue说起

阅读全文 »

有趣的Shell Snippet

发表于 2021-03-21 分类于 Shell 本文字数： 7k 阅读时长 ≈ 6 分钟

记录下遇到的有趣的shell代码, 可能是一些常用的snippet, 也可能是使用的时候不经意踩到的坑

不定时更新

阅读全文 »

0%