はじめに
公式リンクは以下。
sre-next.dev
参加したセッション
【早期来場者特典】SRE NEXT 特別ヨガプログラム
オープニング前にヨガがデリバリされていた。
到着。どうやってヨガやるんだろ。 #srenext
— kheiakiyama (@kheiakiyama) 2020年1月25日
RoomA, Bで11:50から椅子に座ったまま行いますー。
— SRE NEXT (@srenext) 2020年1月25日
ヨガしている間は Tweet するのもったいなかったので集中して取り組んでた。
ヨガ初体験。
ヨガはストレッチやトレーニングと違って呼吸を意識するのね。よかった。 #srenext
— kheiakiyama (@kheiakiyama) 2020年1月25日
集中力が切れるであろう夕方、もう一度ヨガやりたさある。 #srenext
— kheiakiyama (@kheiakiyama) 2020年1月25日
大満足。
[A0] 分散アプリケーションの信頼性観測技術に関する研究
まさに SRE の "Next" で、どういう分野に課題があって研究が進められているか、という話が中心。
興味深い内容だった。
自動化の皮肉、作業負荷が減っても自動化したシステムを認知する負荷が高まると。たしかに。複雑性保存の法則だよなあ。 #srenext
— kheiakiyama (@kheiakiyama) 2020年1月25日
なるほど。CDN 事業者が解決すると思っていたレイテンシの課題。さくらインターネットでは小型データセンターを大量に用意するような構想があるとか。 #srenext
— kheiakiyama (@kheiakiyama) 2020年1月25日
NewSQL 聞いたことなかった。2011年頃から記事に出てるな。。
— kheiakiyama (@kheiakiyama) 2020年1月25日
#srenext
QuorumCache 、なるほど。どこまでがアプリ実装で意識することになるかが気になるよなあ。 #srenext
— kheiakiyama (@kheiakiyama) 2020年1月25日
[A1] 40000 コンテナを動かす SRE チームに至るまでの道
技術的な情報はこちらの記事参照とのこと。
Yahooさんといえど、運用あるあるな感じ。
— kheiakiyama (@kheiakiyama) 2020年1月25日
- 安定化にかけるコストが不透明
- アラートとサービス影響の関係性が不透明
- 新規メンバー学習コスト高い#srenexta
尊い。 “サービス影響が明確ではないアラートは架電しないか思い切って削除” #srenext #srenexta
— kheiakiyama (@kheiakiyama) 2020年1月25日
あー、こういうの作りたいんだよな。 “SLOダッシュボード" #srenext #srenexta
— kheiakiyama (@kheiakiyama) 2020年1月25日
ポストモーテムとロールプレイで教育。 #srenext #srenexta
— kheiakiyama (@kheiakiyama) 2020年1月25日
[B2] 計画的に負荷リスクを排除するためのキャパシティプランニング
負荷試験環境を本番同等にしているとのこと。リリース時しかやらないことが多い気がするので、定期的にやるのはよさそう。特にサービスだとそうだよなあ。 #srenext #srenextb
— kheiakiyama (@kheiakiyama) 2020年1月25日
SLOを決めるために利害関係者に遅延した状態を体験させて、そこから数字を導いたとのこと。 #srenext #srenextb
— kheiakiyama (@kheiakiyama) 2020年1月25日
[D3] Practices for Making Alerts Actionable
クラウド移行 -> アラート増加 #srenext #srenextd
— kheiakiyama (@kheiakiyama) 2020年1月25日
検知したいだけのアラートにより、On-call アラートの増加 #srenext #srenextd
— kheiakiyama (@kheiakiyama) 2020年1月25日
はじめに On-call の数を集計、それから内容の精査、と。 #srenext #srenextd
— kheiakiyama (@kheiakiyama) 2020年1月25日
振り分け。
— kheiakiyama (@kheiakiyama) 2020年1月25日
- 検知だけは Slack に通知
- 即時対応不要、後でいいものは JIRA
- 即時対応必要はそのまま#srenext #srenextd
AWS SSM を使ってプロセス再起動などは自動復旧にしていると。副作用がない入れやすいところから。 #srenext #srenextd
— kheiakiyama (@kheiakiyama) 2020年1月25日
休憩
早くも疲れて離脱。。一旦休憩室へ。セッション会場と違ってやや寒い。 #srenext
— kheiakiyama (@kheiakiyama) 2020年1月25日
[C5] スクラムを1年回してSREと開発組織がどう変わったのか
— kheiakiyama (@kheiakiyama) 2020年1月25日
SREのタスクを優先順位つけるためにそのための指標をつくった、と。変数は稼働率やセキュリティなど。 #srenext #srenextc
— kheiakiyama (@kheiakiyama) 2020年1月25日
計測と改善、これはどの分野でもつきまとうサイクルだよなあ。 #srenext #srenextc
— kheiakiyama (@kheiakiyama) 2020年1月25日
おわりに
ここまででセッションはほぼ半分だが、力尽きて途中退場した。
なんかもう疲れたし眠い。もうだめなので離脱。
— kheiakiyama (@kheiakiyama) 2020年1月25日
WillPowerの上限増やしたい。