Lustre Exporter
存储系统有很多,在并行文件系统中,Lustre 基本是翘楚,在 HPC 领域,Lustre 基本是事实标准,类似 Kubernetes 在容器编排领域的地位。
Lustre 有一段时间是开源,后来被 Intel 收购了,最近几年又开源了出来。
针对 Lustre 的监控,惠普开源了一个 Lustre Exporter,官方仓库地址是 https://github.com/HewlettPackard/lustre_exporter ,这个工具挺好用的。最新版本是 v2.0.0,发布于 2017 年 12月 05 ,到现在 3 年多没有更新了,我在 2019 年的时候还在这个版本监控 v2.10 的 Lustre,应该问题不大。如果真的出现问题,那么只能自己修复或者联系作者了。不过惠普对这个的力度不大,有一些 Issue 不太回应。
安装运行
Lustre Exporter 直接下载二进制文件包,就可以。
./lustre_exporter <flags>
命令行参数有这些:
- collector.ost=disabled/core/extended
- collector.mdt=disabled/core/extended
- collector.mgs=disabled/core/extended
- collector.mds=disabled/core/extended
- collector.client=disabled/core/extended
- collector.generic=disabled/core/extended
- collector.lnet=disabled/core/extended
- collector.health=disabled/core/extended
当用户没有提交参数的值的时候,上述命令行参数的默认值为"extended"。
一个简单的例子,将 ost 的采集关闭了,mdt 的设置为了 core,其他全部是 extended 。
./lustre_exporter --collector.ost=disabled --collector.mdt=core --collector.mgs=extended
disabled 表示关闭该项采集 core 表示采集这一项核心的,关键的指标。 extended 表示采集这一项所有的指标。
小结
这个 Lustre 的插件是惠普公司开源的,挺好使用的,之前还有同事对这个 Exporter 提交过 Fix,也合并了。Lustre 方面有问题尽量找 李希 的文章去看,李希 作为开发者在网络上分享了大量的一手资料和文档,另外现在也有 Lustre 用户大会了,DDN 主办的,可以和 李希 面对面交流。2019 年有幸和李希面对面交流了一些 Lustre 监控相关的内容,他们也推出了一个监控的 Agent 的,叫 LustrePerfMon ,基于 Influxdb 做的,仓库地址是 https://github.com/DDNStorage/LustrePerfMon 。LustrePerfMon 最近也 2 年多没有更新了,不过里边的监控指标和思路值的作为 Lustre 监控的教科书来进行参考。
针对 HPC 集群,Lustre Exporter 、Node Exporter、Infinband Exporter、Slurm Exporter 这些加起来,差不多就全了,差啥补啥就行。