スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

ミスセッティング

ここ2週間位、ず~~~と新サーバーのセッティングをしていました。

セッティングや一部プログラミングにおいて、何が大変かというと。
セッティングミスの修正とバグフィックスが一番大変だと思う。

それも、エラーが出ているうちはまだ良い。
エラーの箇所を探してそれらを修正していけば良いだけだから。

一番怖いのが、エラーが出ない動作不良である。
今回はハマりました。

現象は、
『エラーが全く出ないのにサーバー起動からしばらくすると、Webサーバーの一部とメールサーバーが動かなくなる。』
というもの。

それも、起動から10分でおかしくなる事もあれば、数時間後ということもあり、いまひとつ原因を特定できない。
ログを見てもエラーっぽいものは出ていない。エラーは出ないが、ある時刻を境に両サーバーにアクセスできなくなる。

最初に思ったのは
「これがウワサに聞いていた『キャッシュオーバーフロー』なのでは・・・」という事

【キャッシュオーバーフロー】
サーバーに処理限界を超えた処理をさせてしまうことで起こる動作不良。
ハッキングなどでもよく使われる。

でもね、キャッシュオーバーフローならキャッシュを空にして再起動すれば一時的にせよ直るハズ・・・だが再起動しても直らない。
外部から常に攻撃をかけられているとすればログに痕跡が残らないわけがない。それに、メールとWeb両方ほぼ同時にイカれるというのはちょっとおかしい。

イライラしながら検証すること約2週間。
イチからセッティングしなおしてみたり、不要なアプリケーションを落として稼動させてみたり、いろいろ試したが現象がなくならない。
イチからサーバーをセッティングするだけでほとんど一日仕事なんすよ。
それを何十回と・・・・年末の貴重な時間だけがどんどんと経過していくわけで。

そして今日、やっと原因をつきとめたのです!
やはり原因は内部的なものでした。現象から見てもほぼ間違いない。
ソフトウェアの自動アップデートがONになっておりました。
自動アップデートでアップデートしちゃいけないアプリまでアップデートされておりました。

詳しく原因を書くと
cron.dailyにyum.cronが入っておりました。
オイオイ、入れた覚えねーぞヽ(`Д´)ノ

yum-updatesdも切ってたしアプリケーションもexcludeしてたんで安心してました。
yum.cronはナゼかexcludeもおかまいナシにアップグレードしちゃってました。ナゼでしょうね。
つまりは自分の所為ですね。

原因が分かればこんなものです(汗)
しばらくテスト稼動させてみて、不具合がないようなら本稼動することにする。
というかaroundt.comに限っては既に新サーバで稼動している。お客さんのドメインはもうちっと様子を見てから。

コメント

わかりにくいエラーは原因究明も大変だよねえ。
まずわかりやすいエラーって無いんだけどね(^-^;

2008/12/29 (月) 23:54:25 | URL | ぶぶたん #79D/WHSg [ 編集 ]

そうなんすよ。
原因が分かってしまえばたいしたことではない場合が多いのですがねぇ。
よくニュースで企業の不手際を取り上げて
『企業はナゼこんな単純なミスを・・・・』
というような事がありますが
ニュースは原因から辿ってるから『単純なミス』になるんだよねぇ。
コメントありがとうねぇ♪

2008/12/30 (火) 02:12:55 | URL | まさかす #79D/WHSg [ 編集 ]

コメントの投稿


管理者にだけ表示を許可する