APIシステムのトラブルの分析及び改善の実施
概要
国内最大手の EC マーケットプレイスの API システムにおいて、大規模イベント時に発生した Redis キャッシュのフェイルオーバー不具合に対応しました。暫定措置(手動再起動)で対処されていた状態から、根本原因を特定して恒久的な解決を実施することで、サービスの安定性向上に貢献しました。
技術的な課題と解決
- 根本原因の特定:外部ライブラリのバグが起因であるとの仮説を立て、ライブラリの変更ログを詳細に調査することで、バグが混入したバージョンを特定しました。
- リスクの最小化:闇雲にアップデートするのではなく、後方互換性を考慮し、影響範囲を慎重に調査した上で安全なバージョンアップ方針を策定しました。
- 解決策の検証:不具合が再現する環境を構築し、入念なテストを通じて修正が正しく機能することを検証した上で本番に適用しました。
実績
- 暫定対応に留まっていた本番障害を恒久的に解決し、次回イベントでの再発リスクを排除
- メイン担当として、システム安定性の向上に貢献
詳細
- 期間: 2021年2月〜2021年3月
- 担当:トラブルの再現環境構築、原因調査、改善策の立案・実施、テスト計画・実行までを主導。メイン担当として問題解決を推進。
- 関連技術:Redis, Java, Spring Boot, Linux
- 規模:2名(私:メイン担当、もう1名:アドバイザー)