Site Reliability Engineering

Dit is een belangrijke publicatie. Onderwerp is een radicaal andere aanpak voor IT Operations waarin bij Google hoog gekwalificeerde engineers worden ingezet in plaats van operators op Level 1 niveau.

Rik Lammers | 7 september 2017 | 3-4 minuten leestijd

Een boek dat door iedere IT professional betrokken bij de operationele kant zou moeten worden gelezen. Sterker nog, eigenlijk door iedere IT Service Management professional of leidinggevende die zich afvraagt hoe het vakgebied zich verder zal ontwikkelen.

Uitgangpunt is de gedachte dat in het ideale geval alle routinematige handelingen in een productie omgeving geautomatiseerd zouden moeten worden. Dat is niet alleen het starten en controleren van bijvoorbeeld Batch jobs, maar ook het automatisch voorkomen en/of afhandelen van verstoringen en fouten. Eigenlijk wil je alle routinematige handelingen uitsluiten. Dat is dus inclusief de meeste Service Management activiteiten zoals bijv het verzorgen van rapportages of het goedkeuren van changes.

Dit is natuurlijk de kerngedachte achter Cloud. Maar ook vanuit High Availability oogpunt is deze ontwikkeling onmisbaar. De Nederlandse Bank zet bijvoorbeeld de grote banken onder druk om de beschikbaarheid van de belangrijkste betalingssystemen op te schroeven naar 99.88%. Ook in andere sectoren is een dergelijke hoge 24x7 beschikbaarheid steeds belangrijker. En dat zal alleen maar kunnen door volledige geautomiseerde systemen die geregeld worden bijgewerkt door mensen die echt weten waar het over gaat.

Dit klinkt makkelijk, maar dat is het natuurlijk niet. Heel veel software is oud en complex. Maar ook het bouwen van nieuwe systemen gaat bepaald niet vlekkeloos. Alle fouten uitsluiten is onmogelijk en vreselijk kostbaar, dus je zal altijd verstoringen houden. Wat je wel kan doen is systematisch proberen om fouten voortijdig te signaleren en zo effectief mogelijk af te handelen. Ook het design van een oplossing speelt natuurlijk een belangrijke rol.

Kern van de gedachte bij Google is dat er hooggekwalificeerde engineers met een brede achtergrond worden ingezet voor Operations in plaats van mensen die vooral vooraf gedocumenteerde activiteiten uitvoeren en anderen gaan inschakelen als het complex wordt. Ten eerste is dit noodzakelijk omdat je domweg steeds minder tijd hebt als er iets foutgaat om specialisten te gaan inzetten. Ten tweede is een engineer over het algemeen zeer gemotiveerd om een terugkerende routinehandeling te voorkomen. Dat vinden ze niet leuk.

‘Site Reliability Engineering’ is eigenlijk te vergelijken met het enige jaren geleden verschenen ‘Continuous Delivery’ van Jeff Humble en anderen. Dat werk was en is fundamenteel voor een ieder betrokken bij DevOps en Agile development. Dit boek verdient dezelfde rol voor elke Service Management professional.

Het engelstalige boek bestaat uit een groot aantal losse artikelen, gegroepeerd in vijf gedeelten en een appendix. Eerst een introductie, de principes en dan practices; een groot aantal practische onderwerpen zoals montoring, post mortem analyses en technische onderwerpen die soms wel erg ver gaan. Daarna als vierde een aantal onderwerpen onder de noemer Management gevolgd door een conclusie en een appendix met bijvoorbeeld voorbeelden van formulieren.

De lezer moet zich wel realiseren dat Google natuurlijk niet een gemiddeld bedrijf representeert. Non-functionele aspecten zoals schaalbaarheid, performance spelen een veel grotere rol in de omgevingen met enorme aantallen systemen waarmee Google werkt. De meeste organisaties, bijvoorbeeld banken, zullen een diversere omgeving hebben met veel meer verschillende applicaties. Dat betekent dat de Google gedachten niet zomaar kunnen worden toegepast in een andere omgeving. Hoe bijvoorbeeld de integratie met DevOps teams en het Agile denken in het algemeen zou moeten verlopen komt niet echt aan bod.

Belangrijkste aspect van het boek is echter de denkrichting. En die is van toepassingen op alle grotere organisaties. Het stelselmatige terugdringen van ‘Toil’ en de inzet van brede hooggekwalifeerde professionals met inhoudelijke kennis in Operations wordt steeds crucialer.

Over Rik Lammers

Rik Lammers is senior (Lead) IT Architect gespecialiseerd in Architecture Governance en IT Management implementatie met meer dan 30 jaar ervaring. Lammers is een van IBM's leidende professionals en innovatieve thought leaders op het gebied van Architecture Governance en IT Management in de Cloud en Services oriented IT omgevingen. Hij is Certified Open Group Master IT Architect en ITIL 2011 Expert.

Alle recensies van Rik Lammers

Deel dit artikel

Wat vond u van dit artikel?

Boek bij dit artikel

Betsy Beyer, Chris Jones, Jennifer Petoff

Site Reliability Engineering

Paperback | Engels68,44

Uw winkelwagen

Recensie

Site Reliability Engineering

Over Rik Lammers

Deel dit artikel

Wat vond u van dit artikel?

Boek bij dit artikel

Personen

Trefwoorden

Recensie

Site Reliability Engineering

Over Rik Lammers

Deel dit artikel

Wat vond u van dit artikel?

Boek bij dit artikel

Uw cookie-instellingen

Personen

Trefwoorden