Proxmox VE 磁盘健康状况监控


即使使用了健康且冗余的存储设备,但存储设备的运行状况仍然需要监控,如:温度、异常等
从Proxmox VE 4.3开始, 已安装并需要软件包smartmontools。这是一组监视和控制本地硬盘的SMART系统的工具。

使用smartctl命令

您可以通过发出以下命令来获取磁盘的状态:

smartctl -a /dev/sdX

/dev/sdX是您的本地磁盘之一的路径。

如果显示

SMART support is: Disabled

说明S.M.A.R.T 检测守护程序关闭状态

您可以使用以下命令启用它:

smartctl -s on /dev/sdX

有关如何使用smartctl的更多信息,请参见man smartctl。

默认情况下,smartmontools守护程序smartd是活动的并已启用,并且每30分钟扫描一次/dev/sdX/dev/hdX下的磁盘以查找错误和警告,并在检测到问题时向root发送电子邮件。

有关如何配置smartd的更多信息,请参见man smartdman smartd.conf

如果将硬盘与硬件RAID控制器一起使用,则最有可能的工具可以监视RAID阵列中的磁盘以及阵列本身。有关此的更多信息,请咨询您的RAID控制器的供应商。

smartmontools主页 https://www.smartmontools.org

来源:https://pve.proxmox.com/wiki/Disk_Health_Monitoring

实战

smartctl -a /dev/sda

输出(部分信息)

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   106   100   006    Pre-fail  Always       -       148512244
  3 Spin_Up_Time            0x0003   093   092   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       542
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   077   060   030    Pre-fail  Always       -       56713082
  9 Power_On_Hours          0x0032   073   073   000    Old_age   Always       -       23693
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       542
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   088   088   000    Old_age   Always       -       12
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0 0 0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   059   044   045    Old_age   Always   In_the_past 41 (Min/Max 25/41 #23)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       47
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       662040
194 Temperature_Celsius     0x0022   041   056   000    Old_age   Always       -       41 (0 6 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       18254h+09m+53.724s
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       27805599684
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       19277290

解读

从日常关注温度的情况下 以上信息可知道
Airflow_Temperature_Cel 41 Min/Max 25/41 气流温度 41摄氏度 最小25 最大41
Temperature_Celsius 41 硬盘温度 41摄氏度
其他按需解读即可...

点赞

发表评论

电子邮件地址不会被公开。必填项已用 * 标注