APIシステムのトラブルの分析及び改善の実施

概要

ECサービスを展開する会社のAPIシステムで、キャッシュシステムの停止後のフェイルオーバーが効かないという問題が発生しました。原因の特定が困難な状況でしたが、私はこの問題の分析と改善を担当しました。原因の特定と解決策の実施により、サービスの安定性向上に貢献しました。

  • 根本原因の特定: 外部ライブラリのバグが不具合の起因であると仮説を立て、ライブラリの変更ログを詳細に調査することで、仮説を立証しました。
  • リスクの最小化: 安全に不具合を解消するため、ライブラリを闇雲にアップデートするのではなく、影響範囲を調査した上で適切なバージョンを決定しました。
  • 解決策の検証: 解決策が有効であることを証明するため、不具合が再現する環境を構築し、入念なテストを通じて修正が正しく機能することを検証しました。

詳細

  • 2021年2月〜2021年3月
  • 担当:トラブルの再現環境構築、原因調査、改善策の立案・実施、テスト計画・実行までを主導。メイン担当として問題解決を推進しました。
  • 関連技術:Redis, Java, Spring Boot, Linux
  • 規模:2名(私:メイン担当、もう1名:アドバイザー)