Вторият интересен случай, за който научих миналата седмица, е описан много подробно в Computerworld. Случва се на 31 Август, в U.S. Department of Veterans Affairs. Това е огромна организация с огромна IT инфраструктура. IT инфраструктурата се управлява от VA Office of Information & Technology (OI&T). В OI&T тече едно голямо преструктуриране, започнало октомври 2005 и с идея за завърши в рамките на 3 години (до октомври 2008). Много неща се променят драстично – целият модел на работа, системите и т.н.
Една от промените е централизирането на IT отделите. До преди всеки от около 150 медицински центъра си е имал собствен IT отдел, който е вземал решения за всичко – имат си бюджет, имат си визия за развитие и си действат. Естествено, това нещо е кошмарно за управление и консолидация на данните на по-горно ниво, стандартизация на процедурите и т.н. Идеята е всички IT мощности да се преместят в 4 центъра, 2 в източната и 2 на западната част на щатите. Западните са съответно в Сакраметно и Денвър.
На 31 Август в центъра в Сакраменто има консултанти от HP, които правят диагностика Alpha сървъра им. По същото време, потребители от медицинските центрове в Северна Калифорния започват работа и откриват, че не могат да влязат в системите с данни за пациентите: Veterans Health Information Systems and Technology Architecture (Vista) и Computerized Patient Record System (CPRS). Всички в IT центъра започват да диагностицират какъв е проблема. Няма видима причина за липсата на достъп до приложението – всичко си работи.
Засегнатите медицински заведения задействат процедурата за работа при отпадане на центъра. Процедурата има 3 нива
– първо ниво: Failover към центъра в Денвър
– второ ниво: достъп до readonly копие на данните, което е налично във всяко медицинско заведение
– трето ниво: данните за пациентите за следващите 2 дни са налични на локалните дискове.
Логично е да се действа по плана на първо ниво. Но не става така. Проблема е, че между двата центъра има синхронна репликация. Ако единия център отпадне пореди липса на свързаност, или се сринат сървъри, или нещо друго – работата минава на другия. Но в настоящия случай няма видим проблем. Специалистите се опасяват, че докато не знаят причината за проблема, не бива да минават към втория център. Ако проблема е софтуерен, може да се повреди и Денвър, който в този момент си работи. За това решават засегнатите медицински заведения да минат направо на второ ниво, докато открият какво става в Сакраменто.
Така и правят, в 16 от 17-те засегнати сгради. В 17-тата, обаче, локалното read-only копие е изключено по-рано през седмицата за рутинна поддръжка. Там трябва да преминат на трето ниво – четене на данни от локалните дискове.
Настава голяма суматоха – няма възможнсот да се видят данните от изследвания, направени предния ден; не могат да се назначават нови изследвания; кардиолозите не могат да четат ЕКГ, понеже те излизат online. Всички започват да пишат на хартия, да се обменят данни написани на карирани листи и т.н.
Постепенно в Сакраметно откриват какъв е проблема: един екип поискал от друг екип да направят промяна в един мрежов порт; вторият екип го е направил, и понеже е нещо толкова минимално, не са го записали в changelog-а. От там последват всички беди. Хората, заети с борбата със ситуацията, нямат информация за промяната. И за това трябва да прегледат цялото приложение, на всички нива, за да видят какво става. На практика това им отнема почти целия ден (мога дамо да се досещам каква лудница е станала, със стотици хора, които нагнетяват обстановката).
При наличие за информация в changelog-а, всичко би било много лесно: виждаш кога системата отказва, поглеждаш какво е правено тогава и го връщаш. Всичко е въпрос на процедура.
След като са открили проблема, специалистите в Сакраметно изключили всички системи с Vista и започнали да ги включват една по една. Всичко минало гладко. Но всички данни, написани на хартия, трябвало да се вкарат в системата. Работниците в лабораториите и аптеките въвеждали до късо през нощта в петък; администраторите въвеждали данни за пациентите, минали през съответните заведения в продължение на 2 седмици; допълването на всички данни ще отнеме месеци.
Изводите са като при другия случай, за който писах. Ще добавя само един: може да имаш най-перфектния софтуер, най-добрия хардуер, но ако нямаш най-добрата организация, с процедури които са разписани и наистина се следват, рано или късно ще изгърмиш.