دسترسی نامحدود
برای کاربرانی که ثبت نام کرده اند
برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید
در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید
برای کاربرانی که ثبت نام کرده اند
درصورت عدم همخوانی توضیحات با کتاب
از ساعت 7 صبح تا 10 شب
ویرایش:
نویسندگان: Ayelet Sachto and Adrienne Walcer. with Jessie Yang
سری:
ISBN (شابک) : 9781098113728
ناشر: O’Reilly Media, Inc.
سال نشر: 2022
تعداد صفحات:
زبان: English
فرمت فایل : EPUB (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود)
حجم فایل: 3 Mb
در صورت تبدیل فایل کتاب Anatomy of an Incident: Google’s Approach to Incident Management for Production Services به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.
توجه داشته باشید کتاب آناتومی یک حادثه: رویکرد گوگل به مدیریت حوادث برای خدمات تولید نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.
وقتی صحبت از طراحی سیستم می شود، شکست اجتناب ناپذیر است. دانشمندان و مهندسان راه حل هایی را بر اساس اطلاعات موجود و بدون آگاهی کامل از آینده پیاده سازی می کنند. همیشه نمیتوانید رویداد روز صفر بعدی، روند رسانههای ویروسی، فاجعه آبوهوا یا تغییر فناوری را پیشبینی کنید. اما شما می توانید آماده باشید تا زمانی که حوادثی مانند این بر سیستم شما تأثیر می گذارد، پاسخ دهید. با این گزارش، متخصصان SRE و DevOps، مدیران فناوری اطلاعات و رهبران مهندسی روشهایی را بررسی میکنند که به سازمان شما کمک میکنند تا در برابر حوادث آماده شود، به آن واکنش نشان دهد و پس از آن بهبود یابد. با توصیه های آیلت ساچتو، آدرین والسر و جسی یانگ، می آموزید که چگونه برای مقابله با شکست در صورت وقوع و زمانی که اتفاق می افتد، آماده باشید. مراحل چرخه حیات مدیریت حادثه را بیاموزید: آمادگی، پاسخ، بازیابی و کاهش برخورد فعالانه با حوادث: مسائلی که فراتر از معیارها و هشدارها تشدید می شوند آماده باشید: تمرینات ایفای نقش در بلایا و واکنش به حادثه را تمرین کنید ویژگی های ساختار سازمانی واکنش به حادثه را بیاموزید مراحل بهبود و کاهش پس از وقوع یک حادثه را بررسی کنید برای تجزیه و تحلیل اشتباهات، آزمایشات پس از مرگ انجام دهید یک مثال واقعی از گوگل را کاوش کنید: آخرالزمان مایاها نحوه اندازه گیری و کاهش تأثیر حوادث را بیاموزید از پس از مرگ به عنوان ابزاری برای پیشگیری و ایمنی روانی استفاده کنید
When it comes to system design, failure is inevitable. Scientists and engineers implement solutions based on the available information, without a complete knowledge of the future. You can’t always anticipate the next zero-day event, viral media trend, weather disaster, or shift in technology. But you can be prepared to respond when incidents like these affect your systems. With this report, SRE and DevOps practitioners, IT managers, and engineering leaders will explore methods to help your organization prepare for, respond to, and recover from incidents. With advice from Ayelet Sachto, Adrienne Walcer, and Jessie Yang, you’ll learn how to be prepared to handle failure if and when it happens. Learn the stages of the incident management lifecycle: preparedness, response, recovery, and mitigation Deal proactively with incidents: issues that escalate beyond metrics and alerts Be prepared: practice disaster role playing and incident response exercises Learn the characteristics of the incident-response organizational structure Examine steps to recovery and mitigation after an incident has occurred Conduct postmortems to analyze what went wrong Explore a real-world example from Google: The Mayan Apocalypse Learn how to measure and reduce incidents impact Use postmortems as a tool for prevention and psychological safety
Cover Google Copyright Table of Contents Chapter 1. Introduction What Is an Incident? Not Everything Is an Incident Monitoring Alerting The Importance of Actionable Alerts The Incident Management Lifecycle Chapter 2. Practicing Incident Response Readiness (Preparedness) Disaster Role-Playing and Incident Response Exercises Regular Testing Nuanced Testing and Automation Preparing Responders Writing Incident Response Tests Chapter 3. Scaling Incident Management (Response) Component Responders System-of-System (SoS) Responders Incident Response Organizational Structure Common Protocol Trust Respect Transparency Managing Risk The Function of Incident Management and Risk Chapter 4. Mitigation and Recovery Urgent Mitigations Reducing the Impact of Incidents Calculating the Impact of Incidents Reducing the Time to Detect Reducing the Time to Repair Increasing the Time Between Failures Chapter 5. Postmortems and Beyond Psychological Safety Psychological Safety When Implementing Incident Management Practices Psychological Safety When Handling Incidents Additional Tips for Fostering a Psychologically Safe Environment Writing Postmortems Systems Analysis for Organizational Improvement Root Cause Versus Trigger Isolated System Versus Holistic Stack Point-in-Time Versus Trajectory Chapter 6. The Mayan Apocalypse: A Real-World Example Chapter 7. Conclusion and Moving Forward Additional Reading Bibliography Acknowledgments About the Authors