Z.S.K.'s Records

再见2025,2026再见

发表于 2025-12-31 分类于随淑笔记本文字数： 248 阅读时长 ≈ 1 分钟

再见, 2025

2026, 再见

唯有进,才有退路

阅读全文 »

RDMA初探(DMA/RDMA)

发表于 2025-04-04 分类于 HPC 本文字数： 1.7k 阅读时长 ≈ 2 分钟

在多机训练场景下, 如何加速多机间的数据交换是绕不开的话题, 作者之前负责的集群是以IB网络为载体, 但由于其昂贵的成本及超高的专业性往往让人退而却步,基于以太网的RoCE则具有很高的性价比。
作者经过一段时间的学习及落地,也算是对RoCE(英文读音类Rocky)技术有些了解,简单记录一下。

阅读全文 »

RDMA初探(以太网网卡数据)

发表于 2025-04-01 分类于 HPC 本文字数： 3.1k 阅读时长 ≈ 3 分钟

在多机训练场景下, 如何加速多机间的数据交换是绕不开的话题, 作者之前负责的集群是以IB网络为载体, 但由于其昂贵的成本及超高的专业性往往让人退而却步,基于以太网的RoCE则具有很高的性价比。
作者经过一段时间的学习及落地,也算是对RoCE(英文读音类Rocky)技术有些了解,简单记录一下。

阅读全文 »

博客新功能2025

发表于 2024-12-31 分类于捣鼓手册本文字数： 232 阅读时长 ≈ 1 分钟

最近花了一点时间重新整理了一下博客:

阅读全文 »

Kubernetes学习(Kubernetes踩坑记)

发表于 2024-12-25 分类于 Kubernetes 本文字数： 17k 阅读时长 ≈ 15 分钟

记录在使用Kubernetes中遇到的各种问题及解决方案, 好记性不如烂笔头

不定期更新

阅读全文 »

再见2024,2025再见

发表于 2024-12-25 分类于随淑笔记本文字数： 2.1k 阅读时长 ≈ 2 分钟

再见, 2024

2025, 再见

seek logic, seek technology, seek detail

阅读全文 »

Kubernetes学习(再谈kubernetes中的各种内存OOM)

发表于 2024-11-30 分类于 Kubernetes 本文字数： 7.9k 阅读时长 ≈ 7 分钟

本篇内容主要围绕kubernetes中的各种内存，对以下灵魂话题进行深入剖析:

为什么容器没有到达limit后却被OOM了?
容器中产生的PageCache如何统计?
容器中emptydir类型为medium=Memory是否会引起OOM?
如何更好地监控容器内存?
PageCache相关参数

说明: 为了方便，这里不对容器与pod进行区分.

阅读全文 »

cilium在kubernetes中的生产实践六(cilium排错指南)之api-rate-limit

发表于 2024-08-10 分类于 CloudNavi 本文字数： 4.7k 阅读时长 ≈ 4 分钟

在前东家的时候其实就有意将cilium强大的链路追踪能力集成到生产环境中,各种因素导致没有很大信心落地, 经过深入调研(也就把官网docs翻了四五遍)及测试, 终于有机会在生产kubernetes集群中(目前一个集群规模不算很大,2w+核心,持续增长)使用cilium做为cni,同时替换kube-proxy, 到现在已经有一段时间了，也算是有生产经验可以跟大家聊一聊这个工具，使用体验总结一句话: 轻松愉悦.
分享一下整个落地过程,同时也总结下方方面面, 工作之余尽量更新.
此篇归属于: cilium在kubernetes中的生产实践六(cilium排错指南)

阅读全文 »

volcano如何应对大规模任务系列之volcano插件系统

发表于 2024-05-31 分类于 HPC 本文字数： 5.8k 阅读时长 ≈ 5 分钟

volcano做为CNCF目前唯一一款应对大规模资源批调度工具被大家熟知.
作者负责的kubernetes集群每天都有大量的任务需要运行, GPU任务、短任务、长任务等等，同时还存在多租户场景、复杂的调度策略等, 依托volcano的高度可插拔能力, 同时结合业务场景进行相应的优化,极大提高了资源使用效率，结果导向明显
在此也分享一下整个落地过程,也做为现阶段的一个工作总结, 工作之余尽量更新.

注: 业务各有不同, 作者的选型及观点可能并不适用其它人
此篇为: volcano如何应对大规模任务系列之volcano插件系统

阅读全文 »

再见2023,2024再见

发表于 2023-12-29 分类于随淑笔记本文字数： 343 阅读时长 ≈ 1 分钟

再见, 2023

2024, 再见

阅读全文 »

0%