Z.S.K.'s Records

工程侧如何加速模型训练

发表于 2022-05-29 分类于分布式架构本文字数： 5k 阅读时长 ≈ 5 分钟

模型训练除了算法侧需要优化之外，工程师也可以做很多落地来加速这个过程，今天就结合作者在落地训练平台的经验来聊一聊其中常用技术.

阅读全文 »

Grafana学习(loki日志存在错误的label)

发表于 2022-05-15 分类于 CloudNavi 本文字数： 3.4k 阅读时长 ≈ 3 分钟

业务中使用的日志架构是基于Loki来搭建的，最近发现了一个很诡异的问题，有些log的label与label之间对应不上，经过一番尝试后虽然解决了问题，但不知道原由。

阅读全文 »

Grafana学习(Loki踩坑记)

发表于 2022-05-15 分类于 CloudNavi 本文字数： 2.5k 阅读时长 ≈ 2 分钟

grafana出品的loki日志框架完美地与kubernetes的label理念结合，相对于EFK来说更加轻量级，非常适合不需要日志聚合的场景.目前新上集群考虑都彩loki做为基础工具, 直接在grafana中展示

在这里记录下使用Loki踩过的坑, 不定期更新

阅读全文 »

MPI框架学习一(架构组件)

发表于 2022-04-20 分类于分布式架构本文字数： 4.1k 阅读时长 ≈ 4 分钟

Mpi: Message Passing Interface，消息传递接口

由于AI业务中使用到了MPI, 网上看MPI教程写的也是云里雾里，很难理解清楚，作者这里结合自身负责的业务来理解MPI的实现方式.

如果有理解存在有遗留或者错误的地方，请各位过客不吝赐教.

阅读全文 »

Flannel Vxlan封包原理剖析

发表于 2022-03-25 分类于 Kubernetes 本文字数： 4.7k 阅读时长 ≈ 4 分钟

flannel在kubernetes中算是比较常用的cni, 其中vxlan又是flannel中常用的模式,最近又详细地看了一遍vxlan的实现方式, 每看一次都会发现新大陆，听的太多人说flannel的vxlan需要封包解包，但并不是所有的人都知道到底是把什么封到包里，包指的又是什么？

阅读全文 »

pod的状态出现UnexpectedAdmissionError是什么鬼?

发表于 2022-01-27 分类于 Kubernetes 本文字数： 7k 阅读时长 ≈ 6 分钟

今天在排查集群一个问题时，发现相关的pod的状态为UnexpectedAdmissionError,在这之前从未没遇到过pod还有这种状态的，一脸好奇，在解决问题的过程中，发现越挖越深, 里面涉及到的信息也是相当的多，特此记录一下.

阅读全文 »

再见2021,2022再见

发表于 2021-12-27 分类于随淑笔记本文字数： 170 阅读时长 ≈ 1 分钟

再见, 2021

2022, 再见

阅读全文 »

Opentelemetry调研实践四(k8s中golang应用接入opentelemetry实现可观测性)

发表于 2021-11-07 分类于 CloudNavi 本文字数： 5.2k 阅读时长 ≈ 5 分钟

历史文章:

可观测性到底在说什么

opentelemetry架构及名词介绍

全链路追踪的TraceID与SpanID

整个opentelemetry体系还是相当复杂的，这里没办法将所有opentelemetry的东西讲清楚，直接通过case顺带opentelemetry里的概念来拆解会比较直观

这里通过一个简单的golang demo来介绍怎么接入opentelemetry以实现Metrics跟Trace的传递

阅读全文 »

Opentelemetry调研实践三(全链路追踪的TraceID与SpanID)

发表于 2021-10-31 分类于 CloudNavi 本文字数： 5.7k 阅读时长 ≈ 5 分钟

历史文章:

可观测性到底在说什么

opentelemetry架构及名词介绍

在opentelemetry架构及名词介绍中就引出了一个问题: 无论在数据平面如何做流量劫持，如何透传信息，以及如何生成或者继承Span，入口流量和出口流量之间的链路都存在无法串联的问题，这个问题要解决还是需服务来埋点透传，将链路信息透传到下一次请求当中去

阅读全文 »

Opentelemetry调研实践二(opentelemetry架构及名词介绍)

发表于 2021-10-27 分类于 CloudNavi 本文字数： 4.2k 阅读时长 ≈ 4 分钟

历史文章:

可观测性到底在说什么

上文简单说了下可观测性，然后引出了主角: opentelemetry

可观测性一个很重要的领域Trace有两个业界标杆: 一个是OpenTracing，另一个OpenCensus，OpenTracing其实是一个规范，jeager就是基于opentracing实现的开源工具，而OpenCensus则是由google开源的度量工具，简单来说，这两者在可观测性领域功能高度重合，因此，在CNCF主导下进行了合并形成opentelemetry项目，OpenTracing跟penCensus共同推进opentelemetry，两者的官网也赫赫表达基本不再维护，同时opentelemetry也致力于trace、logging、metrics间的关联性.

阅读全文 »

0%