17 июня 2009 г.

8 мая в пультовой детектора ATLAS

В ленте новостей детектора ATLAS (ATLAS e-News) рассказывается о поучительной истории, которая случилась в пультовой детектора ATLAS 8 мая. Детектор работал в нормальном режиме, софт собирал данные и рутинно их обрабатывал, а потом вдруг софт упал. И целые сутки его не могли поднять. На графике видно, что количество процессов резко росло при каждой попытке перезапустить систему.

Оказалось, причина была вот в чём. Один из процессов обращался к базе данных о состоянии детектора из-под пользователя с админскими правами, который физически уже полгода как покинул ЦЕРН. Срок действия его аккаунта в какой-то момент истек, но никто почему-то этого раньше не отследил. В результате база данных отказалась обслуживать запрос из-под устаревшего аккаунта, но процесс делал запрос за запросом, каждый раз открывая новую сессию. В какой-то момент бахза данных говорила, что слишком много сессий, и переставала отвечать на запросы.

Да уж, как всё там действительно сложно в организационном плане, раз такие вещи случаются.

11 комментариев:

  1. Анонимный17/6/09 02:56

    Скорее со сроками там у них сложно.. вот наколенке и пишут

    ОтветитьУдалить
  2. Анонимный17/6/09 07:41

    Возможно, просто организовать там некому :)

    А те, кто организовывают - как и везде - делают это на 3+

    ОтветитьУдалить
  3. Анонимный17/6/09 07:51

    Увы, это не от сложности, это обычная расхлябанность. Подобные истории с устаревшим аккаунтом происходят независимо от численности организации. Просто лень кому-то было запускать процедуру создания специального аккаунта для этого процесса (ведь это надо его создать, прописать права и прочее), ведь гораздо проще вбить свой логин/пароль (и сделать пометку в голове, мол, это надо будет потом переделать)...

    ОтветитьУдалить
  4. Анонимный17/6/09 07:59

    ну и как шутка: "Да, аккаунт найти, это не хиггса обнаружить"... как-то так :)

    ОтветитьУдалить
  5. Довольно странно, что такую тривиальную причину целые сутки искали.
    По логах БД можно было б в 5 минут узнать, что кто-то из юзеров досит базу.

    Возможно, причина не совсем та, что написали?

    added: Прочитал оригинал. Мда, как у них все запущено...

    ОтветитьУдалить
  6. Если не сложно, прошу посмотреть: насколько переврано в популярном изложении на GZT.RU. http://gzt.ru/science/243621.html

    Совсем не упоминать всякие идиотские страшилки не вышло, к сожалению.

    ОтветитьУдалить
  7. Да я, честно говоря, подробностей кроме той заметки и не знаю.

    "Когда он уволился, через какое-то время ничего не подозревающий администратор удалил его учетную запись, и в этот момент работающее с его паролем программное обеспечение вызвало паралич компьютеров."
    В заметке вроде бы не так описано, там сказано, что аккаунт просто истёк. А остальное ну вроде нормально.

    ОтветитьУдалить
  8. Спасибо! Поправлю - меня сбило то, что обычно аккаунт человека продлевается до тех пор, пока он работает, да и найти бы сотрудника было проще (интуитивно; хотя пятница-вечер, конечно, делает это не столь очевидным).

    ОтветитьУдалить
  9. Прописывать пароль прямо в код программ - обычная практика, все программисты так делают (в т.ч. мой начальник). Но эта практика очень порочная, т.к. паролю там не место, хотя бы по той причине что сами исходники программ как-то не хорошо секретить (они либо ДСП, либо вовсе открытые), а стоит рассекретить исходник (да хоть коллегам показать), как можно по случайности слить личный пароль.
    Да и из скомпилированной программы пароль выдёргивается легче лёгкого, что тоже сводит его ценность к величине, близкой к 0.

    ОтветитьУдалить
  10. PavelS: "Прописывать пароль прямо в код программ - обычная практика, все программисты так делают (в т.ч. мой начальник)."

    Не бросайте тень на программистов. В профессиональной среде так не делает никто.

    ОтветитьУдалить
  11. Анонимный10/7/09 13:53

    Сразу вспомнил, что первая ПРО в США :)в прошлом тысячелетии) объявила БОЕВУЮ тревогу, как только взошла Луна... З павагай= уважением

    ОтветитьУдалить