SRE là gì ? Vai trò của kỹ sư Site Reliability Engineer là gì ?man-city.net | Lúc bấy giờ, cùng rất DevOps, tư tưởng Site Reliability Engineer (SRE), lâm thời dịch là Kỹ sư làm chủ độ tin cậy của khối hệ thống hoặc Kỹ sư ổn định hệ thống, càng ngày càng được nghe biết nhiều hơn thế nữa.

Bạn đang xem: Sre là gì

*

Nhiệm vụ của SRE là vận dụng các tinh tế cùng kỹ năng và kiến thức của technology ứng dụng vào quản lý và vận hành (Operation) nhằm mục tiêu kim chỉ nam tạo nên những khối hệ thống phần mềm/hình thức dịch vụ có chức năng mở rộng và tin cậy cao. Bài viết này vẫn so sánh chi tiết phương châm của SRE với các kiến thức và kỹ năng quan trọng để phụ trách tốt nhất có thể phương châm này.


Contents


1. Công vấn đề của SRE

*
Công việc của SRE

Theo Ben Treynor, công ty tạo nên team SRE của Google, thì SRE là “số đông kỹ sư phần mềm có tác dụng các công việc tương quan mang lại vận hành”. Họ Chịu trách nát nhiệm bảo đảm độ chuẩn bị với năng suất của website/dịch vụ/phần mềm, bên cạnh đó thống kê giám sát với đối phó sự rứa xẩy ra bởi những căn nguyên và các dịch vụ nhưng chủ thể cung ứng hoặc thực hiện.


Hiệu suất của đội ngũ SRE được thống kê giám sát bởi thời gian khắc phục và hạn chế lỗi trung bình (mean time lớn recover – MTTR) và thời hạn Chịu lỗi vừa phải (mean time to failure – MTTF). Nói cách khác, chúng ta đề nghị search giải pháp tạo nên các dịch vụ của bản thân chuyển động quay trở về nhanh khô nhất lúc chạm chán sự cố kỉnh và lần mắc lỗi tiếp theo (nếu có) bí quyết càng xa càng tốt.

2. Runbook là gì? Vai trò của Runbook với SRE

*
Runbook là gì?

Nói một giải pháp dễ dàng và đơn giản, Runbook là một tập đúng theo những lí giải số đông vấn đề cần triển khai hoặc đánh giá Khi có sự cầm xẩy ra với bất kỳ hình thức, áp dụng hoặc căn nguyên nào đó. Runbook yêu cầu được viết sẵn trước lúc ứng dụng được triển khai với chính thức được đưa vào và sử dụng.

Nội dung của Runbooks hướng về không hề ít chủ thể như hạn chế sự cố gắng hạ tầng, hệ thống lưu trữ hoặc bất kỳ hình thức và căn cơ khác đang rất được thực hiện. Nếu ai đang thao tác làm việc mang lại một nhóm chức chưa có Runbook, thì hãy từ bản thân đánh dấu nó vào quá trình hạn chế sự thay.

Runbook đặc trưng có lợi cho các SRE new chưa có nhiều tay nghề cách xử trí sự gắng xẩy ra cùng với các phần mềm mới hoặc các gốc rễ lạ lẫm.

Xem thêm: Ý Nghĩa Của Từ Keep Calm Nghĩa Là Gì, Bạn Có Biết Ý Nghĩa Từ

3. Báo cáo đối phó sự cố

*
Báo cáo đối phó sự cố

Sau Lúc giải quyết sự cố, nhằm tách xẩy ra ngôi trường vừa lòng tựa như, chúng ta nên lưu lại vừa đủ, đúng chuẩn đông đảo gì vẫn xẩy ra, công việc triển khai cũng như tất cả các câu lệnh cơ mà chúng ta sẽ sử dụng, dù bọn chúng có bổ ích hay không. Đây đó là thao tác đánh dấu báo cáo ứng phó sự vắt.

Ai đã thông tin về vấn đề các dịch vụ dứt hoạt động?Ai đã trợ giúp khắc phục vấn đề?Ai sẽ bị ảnh hưởng bởi sự nắm đó? Sự nỗ lực rất lớn đến hơn cả như thế nào, với dịch vụ sẽ ngừng vận động vào bao lâu?

Những báo cáo bên trên giao hàng đến việc tìm kiếm ra ngulặng nhân gốc rễ của sự nỗ lực. khi xác định được nguyên ổn nhân, chúng ta cũng có thể sửa chữa hoặc thay đổi một vài chi tiết quan trọng để tăng cường mức độ tin yêu của nền tảng gốc rễ. Điều này sẽ giúp tinh giảm thời hạn hồi sinh Lúc xẩy ra sự nắm một lần nữa.

4. Báo cáo sau sự cố

*
Báo cáo sau sự cố

Đối cùng với SRE, giải quyết sự cố gắng chỉ là 1 trong nửa quá trình. Nhóm đề xuất bảo vệ sự cầm đó ko xảy ra nữa bằng cách phân tích nguyên ổn nhân căn cơ của việc gắng.

Từ báo cáo đối phó sự vậy sẽ ghi thừa nhận từ trước, SRE yêu cầu tạo thành báo cáo sau sự cố gắng, bao gồm các bước xử lý sự ráng tại thời điểm này, nguyên ổn nhân của sự việc ráng, biện pháp khắc phục và hạn chế với chống đề phòng sự nạm, phương án phục sinh vận động thông thường của hình thức.

5. Giám sát cùng chình ảnh báo

*
Gigiết hại với chình họa báo

Gigiết hại và lưu ý là hai trách nhiệm rất cần thiết cơ mà SRE nên tiến hành. Họ bắt buộc theo dõi mọi số liệu hoàn toàn có thể có trong căn cơ của chính mình nhằm đọc chính xác về chứng trạng của hệ thống phần lớn thời gian. Đồng thời, chiến lược đo lường và thống kê nên được tạo nên cùng rất xây đắp hệ thống hoặc cùng với từng các dịch vụ nhưng đơn vị hỗ trợ.

Trong thực tiễn, SRE đang quan sát và theo dõi các số liệu cụ thể, đặt ngưỡng và kích hoạt chú ý dựa vào những ngưỡng đó. Tuy nhiên về sau, SRE yêu cầu nghiên cứu cải tiến và phát triển các khối hệ thống tính toán và giải pháp xử lý tự động những sự núm, chỉ gửi chú ý đến kỹ sư trong những trường hợp quan trọng.

6. Ttuyệt đổi phương pháp quản lí lý

*
Ttuyệt thay đổi cách quản ngại lý

Các SRE liên tiếp chạm chán đề nghị ngôi trường phù hợp nền tảng bị thay đổi mà lại không theo bất kỳ lý giải cấu hình thiết lập cùng xúc tiến như thế nào. Thậm chí họ cũng ko được thịnh hành kiến thức về phần nhiều biến hóa đó. Đây đó là nguyên do tại vì sao quan trọng lập tiến trình thống trị những đổi khác của nền tảng gốc rễ, và số đông bên trở nên tân tiến cần phải tuân thủ tiến trình này.

SRE là thành phần quan trọng đóng góp thêm phần tùy chỉnh các phép tắc đó và tạo thành những lao lý quan trọng nhằm tự động hóa tổng thể quy trình. Đồng thời chế tạo ĐK tiến hành với Phục hồi các hình thức dịch vụ bắt đầu, hoặc đổi khác những hình thức hiện tại bao gồm. Quy trình làm chủ này thường bao gồm những nhân tố chính sau:

Sơ đồCác mặt liên quanKế hoạch giám sátRunbookDanh sách công ty sở hữuChiến lược sẵn sàngQuá trình triển khai và rollbackLưu giữ dữ liệuTài liệuSLA

Kết luận

Việc ra đời những đội kỹ sư SRE vào chủ thể là một trong bước tiến to, giúp căn nguyên ngày 1 hoàn thành rộng rộng. Để đảm nhiệm giỏi các bước, mọi SRE đề xuất học tập biện pháp auto hóa quá trình hoàn toàn có thể, và ghi chxay lại đều bước quan yếu auto hóa được. Cũng dựa vào bao gồm mục đích của SRE, những sự thế xảy ra với hệ thống vẫn giảm thiểu đáng kể!