最过在深入排查oom问题时有幸看到一个在kubernetes中探讨oom-killer问题的文章,我觉得写得非常详尽且解答了本人的诸多疑惑,遂决定翻译成中文,方便日后求解。
在翻译的过程中,我会尽可能地使用原文的意思,同时也会补充一些知识,同时会添加一些的本人的理解
最过在深入排查oom问题时有幸看到一个在kubernetes中探讨oom-killer问题的文章,我觉得写得非常详尽且解答了本人的诸多疑惑,遂决定翻译成中文,方便日后求解。
在翻译的过程中,我会尽可能地使用原文的意思,同时也会补充一些知识,同时会添加一些的本人的理解
Linuxs利用Cgroup实现了对容器的资源限制,但在容器内部依然缺省挂载了宿主机上的procfs(内存文件系统)的/proc目录,其包含如:meminfo, cpuinfo,stat, uptime等资源信息。一些监控工具如free/top或遗留应用还依赖上述文件内容获取资源配置和使用情况。当它们在容器中运行时,就会把宿主机的资源状态读取出来,引起错误和不便。
emptyDir这种local storage在Kubernetes中使用频率还是比较高的,今天就来详细说一说emptyDir中使用共享内存的相关知识,同时也会结合源码,希望可以帮助大家更好的理解emptyDir
在使用python写web框架时,经常会碰到需要对request参数进行检验或者过滤,如果将诸多的校验逻辑都堆积在业务逻辑中,会显得很臃肿,在flask中,推荐一个很棒的库,可以写法变得很清晰.
最近在研究kubernetes下NUMA架构的支持, 看到一篇关于NUMA的博文,就尝试翻译成了中文, 原文地址: Understanding NUMA Architecture
模型训练除了算法侧需要优化之外,工程师也可以做很多落地来加速这个过程,今天就结合作者在落地训练平台的经验来聊一聊其中常用技术.
业务中使用的日志架构是基于Loki来搭建的,最近发现了一个很诡异的问题,有些log的label与label之间对应不上,经过一番尝试后虽然解决了问题,但不知道原由。
grafana出品的loki日志框架完美地与kubernetes的label理念结合,相对于EFK来说更加轻量级,非常适合不需要日志聚合的场景.目前新上集群考虑都彩loki做为基础工具, 直接在grafana中展示
在这里记录下使用Loki踩过的坑, 不定期更新
Mpi: Message Passing Interface,消息传递接口
由于AI业务中使用到了MPI, 网上看MPI教程写的也是云里雾里,很难理解清楚,作者这里结合自身负责的业务来理解MPI的实现方式.
如果有理解存在有遗留或者错误的地方,请各位过客不吝赐教.