システム監視のイメージ

システム監視とは?

サーバを監視しているイメージ

企業はビジネスの推進や管理、業務改善、効率化など様々な目的でITシステムを活用しています。それが基幹システムであったり、売上や利益に直結するようなサービスに関わるシステムであれば、限りなく100%に近い稼動を必要とします。そのためにはハードウェアやソフトウェアの保守管理はもちろん、システムそのものが常に正常に稼動しているかを見守る必要があります。そして、もしもシステムに問題が発生したときにはいち早くそれを発見して対応する必要があります。システム監視とは、システム内で動作しているサーバ、アプリケーション、ネットワークなどが正常に稼働しているか定期的に確認することによって、システムで発生した障害やリソース不足を検知し、システム管理者に通知を行うための作業や仕組みのことです。

システム監視の必要性と目的

システム障害は、機器やソフトウェアの問題のほかサイバー攻撃や自然災害、また停電などが原因になる場合があります。企業のインフラになっているシステムに障害が発生するとビジネスに大きな影響をおよぼす可能性があります。日常的にシステム障害を回避する対策を講じるとともに、想定外のシステム障害発生に常に備えることも必要です。そのためにシステム監視をすることは非常に重要です。

システム監視をしないと、どのようなリスクがあるのか?

ITは日々高性能、高機能になっています。障害に対するリスクも低減しているでしょう。それでも日常的に小さなトラブルは発生します。そして、それは企業活動だけではありません。様々な場面でITシステムを基にしたサービスが普及しており、そのような社会インフラに近いシステムの障害発生は、時にニュースで大きく伝えられ、私たちの日常生活にも影響を与えます。システム監視をしないリスクは、このような大きなシステム障害になる前の段階での兆候を見逃してしまうことです。

  • 夜間や年末年始休暇などでアラートメールが気が付かなく初期の対応に遅れてしまう

    休暇中のメールに気が付かなく、アラートに気が付かない様子

    長期休暇中はシステムに障害があった場合の初期段階に生じる異常検知のアラートに気が付かなく放置されてしまい初期対応の遅れから事態が拡大され、収束に時間がかかってしまいます。

    最近の表現を使うならばシステム障害の「あるある」と言えるのが、「システム障害はなぜか夜間や長期休暇期間中に発生する」ということです。企業では、情報システム部門の担当者がなんらかのかたちでシステムの監視を行っていると思いますが、システム障害は、なぜか人員が手薄になっていたり、連絡体制が整っていないような時間、時期に発生します。その結果として、システム障害の状態が長くなり復旧までに時間がかかることになります。もしもシステム監視をしていなかったら、さらに初期対応が遅れる事になり、ビジネスへの直接的な影響はもちろん、顧客への信頼を失いかねません。

  • CPU、メモリ、ストレージ、ディスク使用率などのリソースの使いすぎに気が付かなく
    サーバダウンの恐れがある

    リソースグラフに以上がある様子

    コンピュータには限られた資源があり、それに気づかず利用しているとハードウェアに過度な負荷がかかりコンピュータが停止してしまう恐れがあります。その為、図のようなリソースグラフで監視をしコンピュータの正常性を保つことが重要です。

    ITシステムを人間で考えてみましょう。それまで毎日健康だった人が、突然病に襲われることもあるでしょう。しかし、多くの場合は、それまでに体調に異変があったり、自分では気づいていないうちに病気の元になるようなものが進行している場合があります。私たちは、日々自分の体調を管理し、年に一度は人間ドックで検診するなどして病気にならないように注意しています。ITシステムも同じです。システム障害が発生する予兆というのは、システムを構成する様々な要素のなかにすでに潜んでいる場合が多くあります。例えばそのひとつがCPU、メモリ、ストレージ、ディスク使用率などのリソースの管理です。システム監視をしないと、主要なリソースの使いすぎなどに気づかず、最終的にはサーバがダウンしてシステムが停止してしまう可能性を見逃す事になります。

  • 大規模障害に発展してしまう恐れがある

    日本の主要拠点に影響がある様子

    大規模システムの場合は日本の各地に主要拠点があり共に連動している為、小さな障害も放っておくと取り返しのつかない事態に発展してしまう可能性もあります。

    システム障害がまったく発生しなければよいのですが、残念ながら、何らかの障害は必ず発生します。大切なのは、できればその障害が発生する予兆をあらかじめ把握し問題を回避すること。そしてもしも障害が発生した場合でも、迅速に対応して、問題を最小限に食い止め、最短時間で復旧させることです。ITシステムは企業のインフラであるとともに、社会のインフラになっているものもあります。金融系インフラ、通信系インフラなどのシステム障害は多くの人の生活にも影響を与えます。大規模なシステム障害は、売上や利益といった具体的なビジネスインパクトを与えるとともに、信用の失墜、ブランドイメージの毀損にもつながります。「蟻の一穴」という言葉があるように、ひとつひとつのシステムの構成要素を日々監視していないと、本当に小さな原因が、最終的には大規模な障害に発展してしまう恐れがあります。

システム監視の種類

監視の種類は「インフラ監視」と「サービス監視」の2つに分けられます。それぞれ目的が異なりますので、対象となる監視項目(監視グループ)も異なります。

インフラ監視

インフラ機器を監視しているイメージ

ネットワークやリソースといったインフラが正常に作動しているかを確認をするものです。
社内のサーバ設備やデータセンターをご利用の場合の「オンプレミス/プライベートクラウド環境」と、AWS、Microsoft Azure、Google Cloud Platform、さくらのクラウド などをご利用の場合の「パブリッククラウド環境」に分けられます。

サービス監視

Webサービスを監視しているイメージ

サーバで動作しているWebアプリケーションを対象としURL応答や画面遷移(Webシナリオ)を監視します。ユーザがインターネット経由で利用しているサービスが正常に動作しているか確認をするものです。

監視グループ一覧と説明

当社の監視項目を見る前に「監視グループ」に関してご説明します。監視グループとは、当社の類似した役割の監視項目をグルーピングし分類したものです。各監視グループの詳細を見ていきましょう。

統合監視ソフトウェア「Zabbix」

Zabbixロゴ

Zabbixはオープンソース・ソフトウェアとして開発されており、無料でダウンロードすることが可能です。

統合監視ソフトウェアZabbix(ザビックス)とは、オープンソースの統合監視ソフトウェアです。サーバやネットワーク機器、アプリケーションの稼働監視やリソース監視とその設定などを一元管理でき、障害発生時や復旧時にはメールによる通知やコマンドの実行を行うことが出来ます。また、収集したデータを利用したグラフの作成やネットワークマップの作成なども可能です。当社の監視方法もZabbixを利用し様々な目的に応じて監視項目を設定しています。

Global外形監視

URLなどをインターネット経由越しでWebサービスが正常に動作しているか、ユーザー側の視点で監視することです。対象のWebサービスが動作しているサーバに対してPINGを打ったり、特定のURLのレスポンスを診て、異常があればメールなどで通知を飛ばします。PINGとはネットワークが正常に動作しているかを確認するためのものです。なお、当社監視システム基盤からのIPアドレス、プロトコル/監視に使用するプロトコルの通信許可が必要となります。
プロトコルとは通信規則のことで「OSI参照モデル」「TCP/IP」のようにコンピュータの通信機能を階層構造に分けて整理したモデルがあり、それぞれ各層の通信規則よって異なります。詳しくは「OSI参照モデルとTCP/IPの違いを比較」を御覧ください。

死活監視

対象機器にPINGをおくり、それを受け取った機器が送り返す応答を確認することで機器が動作しているとみなす監視方法で、稼働監視とも呼びます。サーバやネットワークの監視によく使われる方法で、PING応答がなかった場合、対象機器か経路のネットワークかのどちらかに問題があります。どちらの問題か確認する方法としては同じ経路でたどり着ける別の機器も同時に監視する方法もあり、もし、その機器からPINGの応答を得られたらネットワークは正常に機能していて関連する機器に問題があるといった推測が可能です。

BIG-IP

F5ネットワークス(F5 Networks)社が開発・販売している負荷分散装置(ロードバランサ)を中心とするトラフィック管理やアクセス管理などを行う通信制御装置などの製品群のブランド名です。OSI参照モデルのトランスポート層(L4)に加え、アプリケーション層(L7)での細かな通信制御を行うことができることも特徴です。

リソース監視

CPU、メモリ、ディスク、ネットワークなど、OSやサーバ、ハードウェア、ネットワーク機器などのリソース使用状況をチェックすることで、性能監視とも呼ばれます。ハードウェアのリソース状況をグラフで表示し、リソースの使いすぎによる高負荷でサーバダウンなどによるシステム障害の予防、早期発見の目的で行われます。

SNMP監視

SNMP(Simple Network Management Protocol)とはOSI参照モデルのプレゼンテーション像(L6)、アプリケーション層(L7)に該当するプロトコルでネットワーク管理の目的で利用されます。プロトコルとはコンピュータ同士を通信する際の手順や規格のことを意味します。エージェント(Agent)とは管理対象の機器(ルータ、スイッチ、ホスト)のことを示します。従ってSNMP監視とは対象の機器をOSI参照モデルのプレゼンテーション像(L6)、アプリケーション層(L7)に存在するプロトコルに則って「SNMPAgent」の死活監視を行うことを意味します。

SNMPv1 OID,SNMPv2 OID

v1とv2の違いはバージョンを示し、それぞれこのような特徴があります。
・SNMPv1:カウンター32bit,パケットは「get」「set」「trap」など
・SNMPv2:カウンター64bit,パケットはv1に「bulk request」「inform request」を追加する
OID(Object ID)とは文字通りオブジェクトのIDのことを示し、対象となる機器の何の情報が欲しいのかを指定する際に使用します。
すなわち「SNMPv1 OID」「SNMPv2 OID」の監視とは、ネットワーク管理プロトコルに則って対象となる機器の情報を指定して要求ををし監視することです。

TRAP監視

ネットワーク機器などで障害が発生した場合、SNMPトラップ(TRAP)を送信することで障害を検知できます。TRAPは自発的な監視機能で、監視対象(エージェント)が事前に設定された機器の情報を定期的に取得し、ある一定の条件を検知するとその旨をマネージャーに通知します。SNMPマネージャーとは、機器を監視するSNMPエージェントが収集した情報を管理する役割を指します。TRAP監視は機器のリブート(再起動)検知や、機器の急激な温度上昇などの検知によく利用されます。

接続監視

ネットワークの指定ポートへ接続をし応答があることを監視することです。ネットワークがダウンしていないか、あるいは性能低下でレスポンスが悪化していないかを調べる目的で行われます。障害や性能低下の発生を迅速に管理者に通知し、ネットワーク管理者は報告を受けることで、速やかに対策を行うことができます。

ログ監視

サーバからの収集したログを監視することです。予めログに含まれる文字列やキーワードをもとに監視をし、設定したキーワードのログが検知するとアラートがでる仕組みでシステムの異常を把握することができます。
Zabbixエージェントを利用することで「テキストログ」と「Windowsイベントログ」を行えます。Zabbixエージェントは出力されたログの内容を読み込み、ログデータをZabbixサーバに送付します。ログデータを受信したZabbixサーバでは、保存したログの内容を表示したり、文字列を指定してログに指定の内容が出力された場合に障害を検知できます。

プロセス/サービス監視

サーバのプロセスとはサーバで実行されるタスクのことです。サーバ上で稼働をするプロセスやサービスをまとめてアプリケーションとして定義をしプロセスの生死やWindowsサービスの状態によってアプリケーションが正常に動作しているかを監視することです。プロセスはWindows以外にもLinuxサーバにも対応しています。システム全体のサービスレベルが低下していないかカスタマーエンジニアが監視をします。

AWS監視

当社では監視を行うに当たりZabbixを使用しております。監視で提供できる対象のAWSサービスは以下となります。
Amazon Elastic Compute Cloud (EC2)インスタンスはZabbix Agentを監視対象にインストールを行いリソース監視を行います。またAmazon Elastic Block Store(EBS)、Amazon Elastic File System(EFS)などのディスク/ファイルシステムはEC2にマウントされていれば監視をすることが可能になります。 またAmazon Elastic Load Balancing(ELB)、Amazon Relational Database Service(RDS)、Amazon Simple Storage Service(S3)についてはAmazon Cloud Watchの値をAPIで取得を行います。
Amazon Cloud WatchとはAmazon Web Services(AWS)が提供しているモニタリングサービスです。Cloud WatchではAWSサービスやリソースの死活監視/性能/ログ監視をモニタリングし取得した値をグラフ化します。当社ではCloud Watchが生成したメトリック値、もしくはEC2に導入したAgentから当社の監視基盤で値を取得し取得した値を、しきい値判定を行い障害となったアラートをトリガーにシステム運用を実施いたします。

Oracle監視

Oracle(オラクル)とは、企業の情報システムなどで利用されるデータベース管理システム(DBMS)を中心とした業務用ソフトウェアの開発、販売などを行っている世界的な大手企業の一つです。Oracle監視とはOracle社が提供しているデータベースのログイン、セッション数や使用率を監視することです。
セッションとはデータベースにログインをしたあとに、データベースとサーバの間にトンネルを作りデータを流し込んで、データベースの検索や更新を行います。従ってデータベースにログインしデータベースを利用しているアカウント数がセッション数に当たります。
ログインやセッション数を監視することで不正ログインを防止し、表領域の使用率では利用しすぎることによる負荷によりデータベースの動作が重くなるなどのシステムが好ましくない状態になることを防ぎます。

監視項目仕様詳細

当社の監視項目一覧をグルーピングしてまとめています。下のボタンを押してPDFファイルを御覧ください。

システム監視サービスの特徴と実施費用

アイティーエムのシステム監視サービスは、当社のカスタマーエンジニアが、24時間365日体制で監視システムを通じて、お客様のサーバ、ネットワークなどを遠隔監視します。通知アラートを迅速にキャッチし、システムの状況を正確に確認します。監視メニューは死活監視、接続監視、サービス監視、リソース監視、ログ監視などの監視メニューから自由に選択が可能です。システムプラットフォーム毎に当社の推奨監視項目をセットにした安心の推奨監視パックメニューをラインアップしています。

システム監視サービスの特徴

24時間365日体制で統合的にお客さまのシステム環境をサポートをし
障害発生時には当社カスタマーエンジニアが手順書に基づいてシステムの復旧支援を行います

カスタマーエンジニアが24時間365日アラートを検知し、障害一次対応します

アイティーエムのシステム監視は24時間365日体制のカスタマーエンジニアにより、通知アラートを迅速にキャッチし、システムの状況を正確に確認いたします。日々のシステム運用はもちろんのこと、障害発生時の対応においても、効率よくオペレーションが行える監視サービスを実現しています。
障害を未然に防ぐ為に、運用業務の効率化とシステム安定稼働に向けた監視設計、監視仕様を作成。また、ほぼリアルタイムで確認できるWebレポートのご提供や定例会を開催し、システム安定化に向けた改善活動を支援します。もちろん、当社のデータセンターや専用回線をご利用いただければ、システム運用監視との連携で24時間365日の安定稼動をサポートします。

監視サービスのご提供イメージ

システム監視サービスの流れについて。監視業務のアウトソース、連携も可能です

システム監視オペレーションでご提供できる変更管理とアラート通知です

大量のログアラートから必要なアラートを絞り込むキーワードのフィルタリング機能で
運用管理者の負担軽減

アイティーエムの監視サービスは大量のログアラートの中から必要なログアラートの絞込みが可能です

当社の監視サービスのログ監視は、キーワードのフィルタリングが可能です。ログ監視は他社では有料オプションが多い中、当社では標準の監視項目に含まれております。大量に発生するログアラートから、必要なアラートのみに絞り込み、運用管理者の負担を軽減します。

通知先、通知方法のカスタマイズ可能で重要なアラートを迅速にキャッチします

監視サービスではアラートの特性に応じて通知方法のカスタマイズが可能です

アラート通知の連絡先指定や曜日、時間帯の切り替え、電話とメールの併用など、お客さまの状況やご要望に合わせた通知方法のカスタマイズが可能です。 さらに監視ポイント単位での指定も可能なので、アラートの特性に応じて、死活監視であればハードウェアベンダー、HTTP監視ならばアプリケーション担当者へといったような通知方法の変更ができます。

システム運用管理の課題・目的

システム運用管理とは、ITシステムが安定稼働し安心して利用できるよう運用・管理をすることです。システム運用管理は、監視・運用・保守全ての業務を指し、統合的にITシステムを管理し様々なインフラ環境の安定稼動を実現します。

ユースケース(システム運用監視サービス)

当社で提供するシステム運用監視サービスの具体例の一部です。様々なシステム構成に分けて考え実施します。

システム運用監視サービス

アイティーエムのシステム運用監視サービス(MSL)は上記のように、様々な環境に適応した監視項目でお客様のシステムを監視します。24時間365日体制のカスタマーエンジニアにより、通知アラートを迅速にキャッチし、システムの状況を正確に確認いたします。日々のシステム運用はもちろんのこと、障害発生時の対応においても、効率よくオペレーションが行える監視サービスを実現しています。特に自社のオンプレミス環境に構築されたシステムを監視してほしい、開発エンジニアやアプリケーションエンジニアを本業に専念させたい、クラウド環境に構築したシステムの不具合や障害に備えてユーザが安心して利用できるサービスを提供したい、というニーズには最適なサービスです。

システム運用監視パッケージ

アイティーエムのシステム運用監視サービス(MSL)の一つに、サーバの特徴に応じた運用監視パッケージが存在します。ITシステムを用いた情報システムの大きな課題の一つに、24時間稼働するシステムを安定的に稼働させるための維持管理や昼夜問わず突然発生する障害対応、また切り分けを行いつつ早期回復のための回復作業に多くの人的リソースを費やしていることが挙げられます。特に働き方改革やリモートワークが企業内で推進される中、中小企業様においても特に、24時間365日の体制維持や人的リソースの確保、データセンターやサーバルームへの急な駆け付け、本業への回帰など様々な難題を乗り越えなければなりません。中小企業様のシステム規模でも導入しやすく、エンジニア不足を補うとともに、本業に回帰・集中しながら安定稼動を図れるサーバの特徴に応じた運用監視サービスです。

MCSSP

アイティーエムはシステムマネジメント事業を主軸とするMSP事業者です。当社が考えるMSPは「MCSSP」と呼び、新しいシステムマネジメントサービスの形態です。
MCSSP = 「MSP(Managed Service Provider)」+「CS(Cloud & Security)」
従来から存在するMSP(Managed Service Provider)事業をベースとして、昨今のIT環境にて特に注目されている「クラウド利用」と「セキュリティ対策」をより強化したサービスでお客様の安心・安全で、快適なシステム運用をご支援します。
詳しくは下の画像をクリックしサービスサイトをご覧ください。