面議(經常性薪資達4萬元或以上) 高雄市前鎮區 2年工作經驗 1天前更新
我們正在招募雲平台 Site Reliability Engineer(SRE),負責私有雲平台(OpenStack + Ceph)的穩定性、可用性與可擴展性。
此角色將深度參與雲平台的設計、維運、自動化與事件管理,透過工程方法提升系統可靠度,而非單純人工作業。
核心職責(Responsibilities)
1.負責 OpenStack 雲平台 的穩定性與可用性維運 與 Ceph 分散式儲存 的健康度、效能與容量管理
2.建立與維護:
監控(Monitoring)
告警(Alerting)
事件回應流程(Incident Response)
3.進行:
故障排查(Troubleshooting)
根因分析(RCA)
問題事後改善(Postmortem)
4.透過 Shell / Python 進行自動化,降低人工操作風險
5.與平台開發、網路、硬體團隊協作,改善整體系統可靠度
展開