1 / 14

Mercuryインストールマニュアル

本資料はIT運用担当者向けのものです。Linux、kubernetes、docker、クラウドなどの運用知識が必要です。

改訂履歴

概要

本プロジェクト内のスクリプトを使用して、Diamond 環境に Mercury をデプロイします。プロジェクト要件を満たすためには、自動デプロイ向けの Ansible ツールを使用します。これは、Kubernetes 環境の ミドルウェア 層と エンジン 層を対象にしたサービスのデプロイメントです。

group_vars / all.yml ファイルで設定を変更することで、多様な環境でのデプロイメントに対応します。
インベントリファイルでホストを設定し、クラスタ内のポッドの分散を定義します。
このプロジェクトにより、手動による操作を減らし、デプロイメントの自動化を実現することが期待できます。

デプロイメントの主な手順は以下のとおりです。

マシンの準備
インストーラパッケージの作成
デプロイメント構成の作成
Diamond と Mercury のデプロイ

インストールを開始する前に、Diamond のインストールプロセスを理解しておく必要があります。最新のインストールガイドは、 Diamond プラットフォームのデプロイをご参照ください。

前提条件

デプロイメントプロセスを簡素化するための前提条件を以下に示します。

Diamond 環境の Mercury では、デプロイの際にアカウント ubuntu を使用します。
インストーラパッケージは、シードホストの /data フォルダに作成します。通常、シードホストは、第 1 の Diamond ホストです。

マシンの準備

Diamond の主要コンセプト

シードマシン: Diamond インストーラをダウンロードして実行するマシンです。シードマシンにできるのは、Linux システムを搭載し、パスワードなしにすべての Diamond ホストにアクセス可能な任意のマシンです。Diamond ホストをシードマシンとして使用することもできます。
Diamond ホスト: Diamond プラットフォームをインストールする 1 台以上のマシンであり、コンポーネントを稼働します。Ubuntu 18.04 / CentOS 7.4 オペレーティングシステムを搭載しています。
ワーキングマシン: Kubernetes クラスタ、Ceph ストレージ、ビジネスミドルウェア、およびアプリケーションをインストールする 1 台以上のマシンです。
デプロイメントアーキテクチャ:
Diamond プラットフォームは、水平展開と最小展開の 2 種類のデプロイメントアーキテクチャに対応しています。この 2 つのデプロイメントアーキテクチャの主な違いは、Diamond ホストの数です。
- 水平展開: 3 台の Diamond ホストと 1 台以上のワーキングマシン
- 最小展開: 1 台の Diamond ホストと 1 台以上のワーキングマシン

マシンを準備する際の注意事項

Diamond プラットフォームをデプロイする際、1 台の Diamond ホスト + 1 台のワーキングマシン の環境を 1+1 と呼びます。同様に、3+6 の環境は、3 台の Diamond ホスト + 6 台のワーキングマシン を指します。クラスタ環境を準備する際、以下の環境情報にご注意ください。

クラスタ内の DNS サーバが利用可能であるかを確認します。たとえば、ping www.ubuntu.com が IP アドレスを解決できるかを確認します。
システムファイル /etc/resolv.conf、/etc/hosts、および etc/apt/sources.list が編集可能であるかを確認します。一部の環境では、デフォルトでこれらのシステムファイルがモニタされ、変更が阻止される場合があります。Diamond プラットフォームを正しくデプロイするには、これらのシステム機能の変更が必要になります。
手動モードでクラスタをインストールする場合、システムの高可用性を確保するため、追加の VIP や SLB を事前に設定します。これにより、システム内の各 API の可用性が向上し、HA が実現します。
Diamond ホストに Ubuntu 18.04 / CentOS 7.4を事前にインストールしておく必要があります。また、ワーキングマシンとして機能する仮想ホストやクラウドホストには、Ubuntu 18.04 / CentOS 7.4を事前にインストールしておく必要があります。ワーキングマシンに IPMI カードが実装されている場合、オペレーティングシステムをインストールする必要はありません。
ワーキングマシンクラスタの内、少なくとも 1 台のワーキングマシンには Ceph ストレージサービス専用のベアディスクをマウントする必要があります。複数のマシンが Ceph ストレージディスクにアタッチされている場合、ボリュームラベルを統一する必要があります。たとえば、物理マシンのラベルは /dev/sdb、仮想マシンのラベルは /dev/vdb にします。

Diamond ホスト

Diamond ホストを稼働するための最小システム要件は、8 コア CPU、16GB メモリ、100GB ハードドライブ、Ubuntu 18.04 / CentOS 7.4 です。

テスト環境では、少なくとも 1 台の Diamond ホストが必要です。 HA をセットアップする場合は、3 台の Diamond ホストが必要です。

Mercury ホスト

Mercury ホストを稼働するための最小システム要件は、8 コア CPU、32GB メモリ、100GB ハードドライブ、Ubuntu 16.04 / CentOS 7.4 です。少なくとも 1 台の Mercury ホストが必要です。また、Mercury ホストの 1 つには、2 基のハードディスクが必要です。1 基は OS ディスク用、もう 1 基は Ceph ディスク用です。2 基めディスクを備えたホストが 4 台以上あると、Ceph サービスの HA が実現します。

Mercury コンポーネントは、 Diamond K8s 環境の最上位で稼働します。これらのホストは、Diamond 用語でワークロードホストとも呼ばれます。

(オプション) すべてのホストのニックネームを設定

デプロイメントや稼働中、Diamnod ホストからワークロードホストに対して ssh の実行が必要になることがよくあります。ホストのすべての IP アドレスを覚えるのに比べ、Diamond ホストの /etc/hosts ファイルでニックネームを設定すると便利です。以下は、ニックネームの一例です。ニックネームを設定することで、ssh [nickname] を使用して簡単にワークロードホストに接続できます。

10.10.32.x0  d1  # Diamond Host
10.10.32.x1  m1  # Mercury Host 1
10.10.32.x2  m2  # Mercury Host 2
10.10.32.x3  m3  # Mercury Host 3

デプロイアカウントの準備

次の手順は、クラスタマシンが上記の要件を満たしていることを前提としています。

ベアメタルデプロイの場合、Diamond ホストに Ubuntu 18.04 / CentOS 7.4が搭載されており、すべての Workload ホストで IPMI が正しく設定されていること。また、IPMI IP、ユーザ、シークレットキーの情報が用意されていること。
手動デプロイの場合、Diamond ホストに Ubuntu 18.04 / CentOS 7.4が搭載されており、ワークロードホストには ubuntu 16.04 / CentOS 7.4が搭載されていること。また、IP、MAC、ホスト名の情報が用意されていること。

すべてのホスト (Diamond ホストと Mercury ホスト）で、ルートアカウントを使用して以下のスクリプトを実行し、パスワードなしに sudo を実行できるユーザとして ubuntu を作成します。すべてのホストに Diamond インストーラのパブリックキーを設定します。次に、ローカルホストファイルで、ホスト名/IP のマッピングを設定します。

インストール前の準備

インストールパッケージのコピー

デプロイの際に完全なインストールパッケージを入手しているはずですが、まだ入手していない場合は、を参照して、インストールパッケージを作成してください。

インストールパッケージをデプロイメントクラスタのシードマシンにコピーします。通常、シードマシンは、第 1 の Diamond ホストです。以下のコマンドを実行して、インストールディレクトリを準備します。

クラスタ情報の確認

手動モードで Diamond をインストールする場合、クラスタ全体のホスト情報を確認する必要があります。 /data/diamond/configure/pre_flight.sh にあるスクリプトを使用してすべての関連情報を収集すると、簡単に確認できます。パラメータとして、マシンの IP アドレスをスペースで区切ってスクリプトで指定すると、マシンに関する情報が収集されます。収集されたクラスタのホスト情報が以下の要件を満たしている必要があります。

実行中のスクリプトが終了すると、cluster-info.log が生成されます。 cluster-info.log で収集された情報を精査し、すべての条件がみたされているかを確認します。

デプロイメント設定ファイルの作成

Diamond プラットフォームのデプロイメント設定

付録: Diamond Yaml ジェネレータのローカル実行を参照して設定ファイルを作成してください。

Mercury のデプロイメント設定

リモートマシンのユーザ名とパスワード、およびグループ分散を設定します。以下の指示をご参照ください。

インベントリ内のグループで使用
最初にデプロイ対象のクラスタの IP を例に入力します。ubuntu アカウントを使用して、現行クラスタの ubuntu パスワードを例に入力します。

[nodes]
すべての k8s ワーカーノードを入力します (Diamond のインストールでは、k8s ワーカータグによって識別できます。ライセンスの分散情報は、Ansible の後半にあります。シングルノードのライセンスは、nodes[0] にのみ表示されます。)

[controllers]
最初の 2 つの [nodes] を入力すると、Machine controllers[0] では、開始されたポッドの yaml ファイルがディレクトリ "/etc/kubernetes" に格納されます。
また、API の k8s クラスタでノード分散が制御されます。API には、エンジン層の Wrapper、イングレス層の Nginx、エンジン層の VBS (マネージャポッド) があります。

[license_nodes]
現在のところ、この場所には nodes [0] のみを記述します。

[components]
ここで指定されるノードは、ミドルウェア分散ノードとして使用されます(注: Diamond のインストールでは、タグが「ceph」のノードをご使用ください)。
注: osg をインストールする際、components [0]  (/dev/vdc) にボリュームをマウントしてください。

[engine_stream]
エンジン層 (ワーカーのポッド) および FE のポッドが、k8s 環境のどのノードポジションに分散されるのかを制御します (十分な GPU が必要である点に注意してください)。

[engine_db]
後続エンジン層の AFD (SFD)、TSDB、structDB ポッドのどのノードポジションが k8s 環境で分散されるのかを制御します (関連サービスで GPU が必要である点に注意してください)。

IPS モデルの設定

IPS モデルは、mercury/apps/roles/engine-default/main.yml で定義します。face_model_version を変更すると、別のモデルセットが使用されます。以下は、246v2 モデルを使用した face_model_version の設定項目の例です。

face_model_version: "246v2"
pedestrian_model_version: "1.42"

VerifyModelPath モデルが異なる場合があるため、モデルコレクションに応じてグラフィックカードを設定する必要があります。各種グラフィックカードで使用される特定のモデルコレクションは、以下のとおりです。

(オプション) サービスレプリカとリソース制限の更新

デフォルトの CV サービス要件仕様は、以下に示すように、ホストに 16 コア、120 GB メモリ、500GB データディスク、2 GPU カードを搭載した 3 ノードを対象にしています。

環境によって仕様が異なる場合があるため、利用可能なリソースに応じてサービスの要件仕様を更新する必要があります。たとえば、8 コア 32 GB、100GB ホストの場合、すべての CV サービスで CPU とメモリ消費を削減する必要があります。要件仕様は、以下の 2 つのファイルに記述されています。

mercury/group_vars/all.yml
mercury/roles/infra-defaults/defaults/mercury-for-smartgate.yml
mercury/group_vars/init_data_fs_vdb.yml

設定ファイルを開くと、以下に示すような yaml コンテンツが表示されます。 replicas、cpu、memory などの用語は、リソース制限を設定するためのフィールです。

# snippet in mercury/group_vars/all.yml
...
engine_face_extract_service:
    enabled: true
    replicas: 3
    gpu_devices: 1
    gpu_share_device: 0
    worker_cpu_request: 3
    worker_memory_request: 10Gi
    worker_gpu_limit: 1
...

# snippet in mercury/roles/infra-defaults/defaults/mercury-for-smartgate.yml
...
default_minio_components:
  - name: default
    volume_type: localvolume
    localvolume_pv_class: storageclass-local-minio-default
    replicas: 2
    cpu: 1
    memory: 4Gi
    diskcnt: 4
    storage: 10Gi
    export: true
...

# snippet in mercury/group_vars/init_data_fs_vdb.yml
...
disk_additional_disks:
  - pvdevice: /dev/vdb1
    disk: /dev/vdb
    number: 1
    start: 1MiB
    end: 209921MiB
    fstype: ext4
    mount_options: defaults
    mount: /mnt/locals/cassandra/alert/volume0

  - pvdevice: /dev/vdb2
    disk: /dev/vdb
    number: 2
    start: 209921MiB
    end: 419841MiB
    fstype: ext4
    mount_options: defaults
    mount: /mnt/locals/cassandra/alert/volume1
...

Diamond プラットフォームのデプロイ

Diamond プラットフォームのインストールプロセスの所要時間は、マシンや選択したコンポーネントに応じて、一般的に 1.5 時間から 2 時間です。そのため、インストールを開始する際に tmux や screen ツールを起動すると、セッションが中断してインストールに影響が及ぶといった問題を解決できます。

シードホストの /data ディレクトリにログインして以下のコマンドを実行し、Diamond プラットフォームのデプロイを開始します。デプロイプロセス中のすべての出力およびエラー情報は、setup_diamond.log ファイルに記録されるため、エラー発生時のトラブルシューティングに役立ちます。

インストールプログラムの実行中に詳細なログ情報を参照する必要がある場合は、該当する Diamond ホストにログインして tail -f /tmp/*.log を実行すると、別の Diamond ホスト上にインストールコンポーネントの詳細ログが表示されます。

Diamond プラットフォームのインストールが完了すると、コンソールに文字パターンが表示されます。コンソールに Server error と表示される場合は、インストール中にエラーが発生したことを示します。報告されたエラーコンポーネントに従い、該当する Diamond ホストで、コンポーネントの詳細なインストールログをご確認ください。エラーのトラブルシューティング後、インストールコマンドを再度実行すると、エラーが発生した時点から、Diamond のインストールが続行されます。

Diamond SSH プライベートキーを Diamond ホストに追加

ホスト稼働中、 Diamond ホストから他のホストに対して ssh の実行が必要になることがよくあります。このシナリオ向けにクレデンシャルを設定済みかもしれませんが、設定していない場合には、diamond.key を Diamond ホストのプライベートキーとして使用できます。すべてのホストには Diamond パブリックキーが設定されています。

以下のスクリプトを実行すると、Diamond キーが現行セッションのプライベートキーのリストにコピーされます。

あるいは、Diamond キーを永続的にプライベートキーとして使用することもできます。

k8s ワーカーホストに k8s kube 構成が設定されない問題の解決方法

Diamond の現バージョンでは、k8s ワーカーホストに対する k8s の Kubernetes 構成は設定されませんが、ワーカーホストにサービスをデプロイするために Kubernetes 構成が必要です。この問題に対処するには、Diamond ホストの IP に対して以下のスクリプトを実行します。通常、このスクリプトは第１ SenseLink や CV ノードの IP で実行されます。

(オプション) その他の k8s 向けユーザビリティの設定

このセクションの内容はオプションであり、クラスタの稼動時に頻繁にホストに対して ssh を実行する場合に便利です。リモートでの操作には適用しません。

Diamond ホストの K8s 構成の設定

デフォルトでは、Diamond ホストには k8s の Kubernetes 構成は設定されていません。

使用頻度の高いコマンドのエイリアスの設定

トラブルシューティングの際に頻繁に使用するコマンドがいくつかあります。これらをコマンドエイリアスとして設定することで、ポッドの名前空間といった多くのパラメータを入力する必要がなくなります。

Mercury サービス層のデプロイ

シードマシンで /data ディレクトリにログインした後、以下のコマンドを実行してデプロイメントを開始します。デプロイメントプロセス時のすべての出力およびエラー情報は、setup.log ファイルに保存されます。このファイルは、エラー発生時のトラブルシューティングに役立ちます。

############# run separately ############
##### Please ensure use ubuntu user. #####
sudo su - ubuntu
cd /data

# join existing tmux installation session
# $ tmux a -t mercury

./setup.sh |& tee -a ./setup.log

インストール問題のトラブルシューティング

docker-containerd-shim や docker-runc が検出されない場合

エラーの説明: 実行ファイルが検出されない

Diamond v1.4.3 および Diamond v1.5.3 では、インストール環境で使用される Docker のバージョンは v18.09.2 です。Mercury のテスト環境では、いくつかの理由から Docker バージョンが v18.09.7 にアップグレードされています。バージョンのアップグレードにより、特定のアプリケーションパスや実行パスが変更されます。k8s でポッドが稼働したり、Docker を使用してコンテナを直接起動すると、エラーが表示されます。

もしくは

問題の原因

原因はまだ特定されていません。 Docker のバージョンが 18.09.2 から 18.09.7 にアップグレードされたため、一部の実行ファイルが再計画されています。

問題の解決方法

アップグレードが実行されていない環境で、/usr/bin/ ディレクトリを探し、docker-containerd-shim と docker-runc ファイルを問題のマシンの /usr/bin/ディレクトリにコピーします。

この問題の発生を防ぐには、Ubuntu / CentOSマシンで APT 自動アップグレードサービスを無効にします。スクリプトを実行して、このサービスを停止します。以下のスクリプトは、環境デプロイメントスクリプトに組み込まれています。Diamond のデプロイメントパブリックキーを設定する際、このキーをデプロイメントマニュアル内に見つけることができます。

upstreamDNS を設定すると k8s インストールのタイムアウトが発生する場合

タイムアウトの説明

Diamond のインストール中に発生

ディスク構造のクリーンアップを要する場合

問題の説明

デプロイメントで init_data_fs_vdb のディスクパーティションの初期化を実行中、Error mounting /mnt/locals/xxx/volume0: mount: mount /dev/vdbx on /mnt/locals/xxx/volumevolume0 failed: Structure needs cleaning というエラーが発生する場合があります。

問題分析

原因は不明です。この問題は毎回発生するわけではありません。同じデプロイメントスクリプトを使用して、初回実行時にエラーが発生する場合もあれば、繰り返し実行した場合にのみエラーが発生する場合もあります。

問題の修正手順

この問題が発生した場合は、fsck ツールを使用して修正します。たとえば、前述した /dev/vdb5 のエラーが発生した場合、関連ノードにログインして sudo fsck.ext4 /dev/vdb5 -y コマンドを実行すると、問題を修正できます。エラーの修正後、再度デプロイメントを実行します。

engine-alert-feature-db サービスの初期化でタイムアウトが発生する場合

remove-services.sh の実行中に PV の削除がフリーズする場合

問題の説明

インストールパッケージには、すべてのデプロイメントサービスを削除する remove-services.sh スクリプトが用意されています。これにより、デプロイメント全体をテストしてから、もう一度インストールをやり直すことができます。しかし、remove-services.sh スクリプトを実行すると、pv の削除時にスクリプトがフリーズします。一定時間待機すると、問題は解決します。

問題分析

問題の修正手順

別のコンソールを開き、以下のコマンドを実行します。pv のステータスが Terminating になっていることを確認します。これは、pv が削除を完了できないことを示し、削除スクリプトの処理に影響します。

上記例の場合、以下のように kubectl edit pv local-pv-12bd5454 の pv を編集します。pv の中にある finalizers フィールドを探し、値を null に変更します。保存して終了すると、問題が解決します。元のコンソールのスクリプトは、継続して実行されます。

変更後

(テスト環境にのみ適用) デプロイされたすべてのサービスリソースの削除

デプロイメントのテスト中にデプロイメントのテストを最初からやり直すためには、デプロイされたすべてのリソースを完全に削除してデプロイメント前の状態に戻す必要があるがあります。プロジェクトのインストールパッケージには、これに対応したリソース削除スクリプトが用意されています。このスクリプトでは、互換性の多くが考慮されていません。既存のデプロイメント Ansible をインストールし、実行内容を戻すステップにすぎません。Ansible のデプロイメントコンテンツに変更があった場合、削除スクリプトのコンテンツを同時に変更する必要があります。

mercury/bin/remove-services.sh: すべてのコンポーネント、ライセンスサービス、ローカルボリューム、pv、pvc およびエンジン層とインフラ層のラベルの削除に使用
mercury/bin/remove-volumes.sh: データディスクのデータとパーティション情報の削除に使用

すべてのサービスの削除が必要な場合は、インストールパッケージのディレクトリで以下のコマンドを実行します。ホスト部分は該当する IP で置き換える必要があります。

付録１：インストールパッケージの作成

Mercury インストールファイルパッケージの作成は、デプロイメント前にすべてのファイルを準備するプロセスです。インストールのステップとは切り離されたステップです。テスト環境では、通常インストールパッケージはシードマシンで作成します。その後、インストールパッケージを顧客のサイトに移行して、設定とデプロイメントを行います。

インストールパッケージの作成プロセスは、以下の手順で行います。

Diamond インストールパッケージを diamond ディレクトリにコピーします。
Mercury 自動デプロイスクリプトを mercuryディレクトリにダウンロードします。
Mercury で使用されるイメージファイルを Diamond インストールパッケージにインジェクトします。
その他の最終工程を行います。

インストールパッケージを作成する際、ubuntu アカウントを使用して以下のコマンドを実行します。

############# run separately ############
##### Please ensure use ubuntu user. #####
sudo su - ubuntu

# Prepare build installer folder
sudo mkdir -p /data && sudo chown -R $(whoami):$(whoami) /data && cd /data

# Install docker
sudo apt install -y docker.io=17.12.1-0ubuntu1

# Add user to docker group
sudo usermod -a -G docker $(whoami)
sudo chown -R $(whoami):$(whoami) /home/$(whoami)/

############# run separately ############
##### Exit current session and re-login again so that to enable user group. #####
exit

通常、docker コマンドを実行するユーザは、docker パーミッショングループに追加する必要があります。設定を有効にするには、コンソールをログアウトして、再度ログインする必要があります。その後に、後続のインストールやデプロイメント手順を続行します。

cd /data

# Copy build-installer.sh to host and prepare installer package.
# vim build-installer.sh

# run build-installer with correct branch name
bash build-installer.sh [branch]

# package installer files into tarball and generate hash code
tarball_name=Mercury_v1.1.0_$(date +%Y-%m-%d_%H-%M-%S_%Z).tar
tar -cvf $tarball_name .
sha1sum $tarball_name

# when build installer on Diamond Host, DO REMOVE docker.io that installed within build-installer.sh since it will impact real diamond deployment.
sudo apt remove docker.io

付録２：Diamond Yaml ジェネレータのローカル実行

プラットフォームのインストールで成功の鍵を握るのが yaml 設定ファイルです。このファイルを手動で作成するのは大変な作業です。そのため、Diamond パッケージには、ユーザがウィザードページで順を追って yaml 設定ファイルを作成することができる http サービスが用意されています。このサービスは Docker コンテナに実装されており、Docker 環境であればどこでも実行できます。以下の手順に従って、ローカルでサービスを設定します。

Ubuntu / CentOSホストが以下の要件を満たしているかを確認します。
- Ubuntu のバージョンが 18.04 または 16.04 (CentOSのバージョンが7.4)
- 8002 番ポート経由でブラウザからアクセス可能 (8002 番ポートは下記のコマンドで変更可能)
- Docker 環境が設定されていること。設定されていない場合は、ホストでapt install docker.io を実行
yaml ジェネレータの Docker イメージを /data/diamond/shells/diamond-wizard-image-2019-10-13.tar から上記ホストにコピーします。
以下のコマンドを実行して、Docker イメージを解凍してホストにロードし、http サービスを開始します。

# untar and load docker image
$ docker load -i /path/to/docker/diamond-wizard-image-2019-10-13.tar
2db44bce66cd: Loading layer [==================================================>]  72.48MB/72.48MB
3bb51901dfa3: Loading layer [==================================================>]  57.32MB/57.32MB
509a5ea4aeeb: Loading layer [==================================================>]  3.584kB/3.584kB
1a28e4bda5d2: Loading layer [==================================================>]   9.99MB/9.99MB
Loaded image: diamond-wizard:v1.0

# start http service
$ docker run -d -p 8002:80 diamond-wizard:v1.0
5899f9cd3fe229528b077a4473752d7ba95e788779a36bab20d9c360e7490aa5

docker run コマンドを実行すると、Docer ID が返されます。この ID は、Docker コンテナを削除する際に使用します。
ブラウザを開き、http://hostIP:8002/installation-wizard/ に移動すると、Diamond インストール yaml 生成ウィザード ページが表示されます。
Diamond v1.4.3 を選択し、ウィザードに従って diamond.yaml コンテンツを生成します。
コンテンツを Diamond ホストの /data/diamond/diamond.yaml にコピーし、既存のファイルコンテンツを置き換えます。
上記の手順が完了したら、以下のコマンドを実行してサービスを削除します。

# stop service container
$ docker container stop 5899f9cd3fe229528b077a4473752d7ba95e788779a36bab20d9c360e7490aa5
5899f9cd3fe229528b077a4473752d7ba95e788779a36bab20d9c360e7490aa5

# remove service container
$ docker container rm 5899f9cd3fe229528b077a4473752d7ba95e788779a36bab20d9c360e7490aa5
5899f9cd3fe229528b077a4473752d7ba95e788779a36bab20d9c360e7490aa5

# remove docker image
$ docker image rm diamond-wizard:v1.0
Untagged: diamond-wizard:v1.0
Deleted: sha256:02ea5e33b699fb98325210faa809ebb2904cd9d4ed6f9b2b2527bf2ea4beacdc
Deleted: sha256:4904fa59a60392d5b15236de1d945c3546840615956b107d26ad60ec3e3a2fdc
Deleted: sha256:301c5d89cad94a6a99703841b021cf7df4326d2f14715c52b4b27893b13e02c0
Deleted: sha256:c3172409dcf95530cce7aad6a4c16a476fec9c43ac38426e9487b43efd246357
Deleted: sha256:2db44bce66cde56fca25aeeb7d09dc924b748e3adfe58c9cc3eb2bd2f68a1b68

付録３： Mercuryライセンスの更新

Mercuryライセンスの有効期限が切れる前に、必ずライセンスの更新を行ってください。ライセンスファイルはJCV製品提供窓口またはその他の窓口から提供されます。下記のコマンドでMercuryのライセンスを更新できます。

1. MercuryライセンスをSenseLink Enterprise Proのdiamondサーバーへアップロードします。

2. zipファイルの場合、zipファイルを圧縮してください。ここで、example.zipを例として説明します。

3. 圧縮されたライセンスを確認します。

4. ここでは製品名を取得して、メモします。後ろのステップで必要です。

5. 該当するライセンスファイルをオリジナルのCV設定フォルダーにコピーします。

6. 設定ファイルconfig.ymlを確認します

7. 既存のライセンスファイルをバックアップします。

8. 新しいライセンスへ置き換えます。

9. license-configを削除します。

インストール済みのstatusファイルを削除します。

定義される製品名を変更します。

setup_cvを実行します。

podsが再起動できない場合、下記のコマンドを実行してください。

マシンの準備

Diamond の主要コンセプト

シードマシン: Diamond インストーラをダウンロードして実行するマシンです。シードマシンにできるのは、Linux システムを搭載し、パスワードなしにすべての Diamond ホストにアクセス可能な任意のマシンです。Diamond ホストをシードマシンとして使用することもできます。
Diamond ホスト: Diamond プラットフォームをインストールする 1 台以上のマシンであり、コンポーネントを稼働します。Ubuntu 18.04 / CentOS 7.4 オペレーティングシステムを搭載しています。
ワーキングマシン: Kubernetes クラスタ、Ceph ストレージ、ビジネスミドルウェア、およびアプリケーションをインストールする 1 台以上のマシンです。
デプロイメントアーキテクチャ:
Diamond プラットフォームは、水平展開と最小展開の 2 種類のデプロイメントアーキテクチャに対応しています。この 2 つのデプロイメントアーキテクチャの主な違いは、Diamond ホストの数です。
- 水平展開: 3 台の Diamond ホストと 1 台以上のワーキングマシン
- 最小展開: 1 台の Diamond ホストと 1 台以上のワーキングマシン

マシンを準備する際の注意事項

クラスタ内の DNS サーバが利用可能であるかを確認します。たとえば、ping www.ubuntu.com が IP アドレスを解決できるかを確認します。
システムファイル /etc/resolv.conf、/etc/hosts、および etc/apt/sources.list が編集可能であるかを確認します。一部の環境では、デフォルトでこれらのシステムファイルがモニタされ、変更が阻止される場合があります。Diamond プラットフォームを正しくデプロイするには、これらのシステム機能の変更が必要になります。
手動モードでクラスタをインストールする場合、システムの高可用性を確保するため、追加の VIP や SLB を事前に設定します。これにより、システム内の各 API の可用性が向上し、HA が実現します。
Diamond ホストに Ubuntu 18.04 / CentOS 7.4を事前にインストールしておく必要があります。また、ワーキングマシンとして機能する仮想ホストやクラウドホストには、Ubuntu 18.04 / CentOS 7.4を事前にインストールしておく必要があります。ワーキングマシンに IPMI カードが実装されている場合、オペレーティングシステムをインストールする必要はありません。
ワーキングマシンクラスタの内、少なくとも 1 台のワーキングマシンには Ceph ストレージサービス専用のベアディスクをマウントする必要があります。複数のマシンが Ceph ストレージディスクにアタッチされている場合、ボリュームラベルを統一する必要があります。たとえば、物理マシンのラベルは /dev/sdb、仮想マシンのラベルは /dev/vdb にします。

Diamond ホスト

Diamond ホストを稼働するための最小システム要件は、8 コア CPU、16GB メモリ、100GB ハードドライブ、Ubuntu 18.04 / CentOS 7.4 です。

テスト環境では、少なくとも 1 台の Diamond ホストが必要です。 HA をセットアップする場合は、3 台の Diamond ホストが必要です。

Mercury ホスト

Mercury コンポーネントは、 Diamond K8s 環境の最上位で稼働します。これらのホストは、Diamond 用語でワークロードホストとも呼ばれます。

(オプション) すべてのホストのニックネームを設定

10.10.32.x0  d1  # Diamond Host
10.10.32.x1  m1  # Mercury Host 1
10.10.32.x2  m2  # Mercury Host 2
10.10.32.x3  m3  # Mercury Host 3

インストール問題のトラブルシューティング

docker-containerd-shim や docker-runc が検出されない場合

エラーの説明: 実行ファイルが検出されない

もしくは

問題の原因

原因はまだ特定されていません。 Docker のバージョンが 18.09.2 から 18.09.7 にアップグレードされたため、一部の実行ファイルが再計画されています。

問題の解決方法

upstreamDNS を設定すると k8s インストールのタイムアウトが発生する場合

タイムアウトの説明

Diamond のインストール中に発生

ディスク構造のクリーンアップを要する場合

問題の説明

...
TASK [Create a ext4 filesystem] ********************************************************************************************************************************************************************************
ok: [mercury-work-01]
ok: [mercury-work-02]
ok: [mercury-work-03]

TASK [Mount up device] *****************************************************************************************************************************************************************************************
fatal: [mercury-work-02]: FAILED! => {"changed": false, "msg": "Error mounting /mnt/locals/afd/volume0: mount: mount /dev/vdb5 on /mnt/locals/afd/volume0 failed: Structure needs cleaning\n"}
fatal: [mercury-work-01]: FAILED! => {"changed": false, "msg": "Error mounting /mnt/locals/afd/volume0: mount: mount /dev/vdb5 on /mnt/locals/afd/volume0 failed: Structure needs cleaning\n"}
fatal: [mercury-work-03]: FAILED! => {"changed": false, "msg": "Error mounting /mnt/locals/afd/volume0: mount: mount /dev/vdb5 on /mnt/locals/afd/volume0 failed: Structure needs cleaning\n"}
    to retry, use: --limit @/data/mercury/init_data_fs_vdb.retry

PLAY RECAP *****************************************************************************************************************************************************************************************************
mercury-work-01            : ok=24   changed=11   unreachable=0    failed=1
mercury-work-02            : ok=24   changed=11   unreachable=0    failed=1
mercury-work-03            : ok=24   changed=11   unreachable=0    failed=1
...

問題分析

問題の修正手順

engine-alert-feature-db サービスの初期化でタイムアウトが発生する場合

TASK [engine-alert-feature-db : App engine-alert-feature-db | Config & Pod & Service] ******************************************************************************************
ok: [mercury-work-01] => (item=config.yml)
ok: [mercury-work-01] => (item=proxy.yml)
ok: [mercury-work-01] => (item=worker.yml)
ok: [mercury-work-01] => (item=ingress.yml)
ok: [mercury-work-01] => (item=init.sh)
ok: [mercury-work-01] => (item=worker-monitor.yml)
ok: [mercury-work-01] => (item=proxy-monitor.yml)

TASK [engine-alert-feature-db : App engine-alert-feature-db | Init] ************************************************************************************************************
fatal: [mercury-work-01]: FAILED! => {"changed": true, "cmd": ["bash", "/etc/kubernetes/apps/engine-alert-feature-db/init.sh"], "delta": "0:00:14.564060", "end": "2019-10-17 22:29:22.053773", "msg": "non-zero return code", "rc": 2, "start": "2019-10-17 22:29:07.489713", "stderr": "+ (( i=0 ))\n+ (( i<20 ))\n+ kubectl exec -it -n component cassandra-alert-0 -- cqlsh -u root -p d@6lo6kBjK%jllN -e 'CREATE KEYSPACE IF NOT EXISTS viper_test WITH replication = {'\\''class'\\'':'\\''SimpleStrategy'\\'', '\\''replication_factor'\\'' : 3};'\nUnable to use a TTY - input is not a terminal or the right kind of file\n+ ret_code=0\n+ [[ 0 -eq 0 ]]\n+ break\n+ [[ 0 -ne 0 ]]\n+ (( i=0 ))\n+ (( i<20 ))\n+ kubectl exec -it -n component cassandra-alert-0 -- cqlsh -u root -p d@6lo6kBjK%jllN -e '\n    CREATE TABLE IF NOT EXISTS viper_test.static_feature_dbs(\n        db_id uuid,\n        object_type text,\n        name text,\n        feature_version int,\n        description text,\n        creation_time timestamp,\n        indexes map<uuid, text>,\n        deleted boolean,\n        max_size bigint,\n        PRIMARY KEY (db_id),\n    );'\nUnable to use a TTY - input is not a terminal or the right kind of file\n+ ret_code=0\n+ [[ 0 -eq 0 ]]\n+ break\n+ [[ 0 -ne 0 ]]\n+ (( i=0 ))\n+ (( i<20 ))\n+ kubectl exec -it -n component cassandra-alert-0 -- cqlsh -u root -p d@6lo6kBjK%jllN -e '\n    CREATE TABLE IF NOT EXISTS viper_test.static_features(\n        index_id uuid,\n        seq_id bigint,\n        feature_version int,\n        creation_time timestamp,\n        metadata blob,\n        image_id text,\n        payload text,\n        feature blob,\n        PRIMARY KEY (index_id, seq_id),\n    );'\nUnable to use a TTY - input is not a terminal or the right kind of file\n<stdin>:1:OperationTimedOut: errors={'10.244.1.8': 'Client request timeout. See Session.execute[_async](timeout)'}, last_host=10.244.1.8\ncommand terminated with exit code 2", "stderr_lines": ["+ (( i=0 ))", "+ (( i<20 ))", "+ kubectl exec -it -n component cassandra-alert-0 -- cqlsh -u root -p d@6lo6kBjK%jllN -e 'CREATE KEYSPACE IF NOT EXISTS viper_test WITH replication = {'\\''class'\\'':'\\''SimpleStrategy'\\'', '\\''replication_factor'\\'' : 3};'", "Unable to use a TTY - input is not a terminal or the right kind of file", "+ ret_code=0", "+ [[ 0 -eq 0 ]]", "+ break", "+ [[ 0 -ne 0 ]]", "+ (( i=0 ))", "+ (( i<20 ))", "+ kubectl exec -it -n component cassandra-alert-0 -- cqlsh -u root -p d@6lo6kBjK%jllN -e '", "    CREATE TABLE IF NOT EXISTS viper_test.static_feature_dbs(", "        db_id uuid,", "        object_type text,", "        name text,", "        feature_version int,", "        description text,", "        creation_time timestamp,", "        indexes map<uuid, text>,", "        deleted boolean,", "        max_size bigint,", "        PRIMARY KEY (db_id),", "    );'", "Unable to use a TTY - input is not a terminal or the right kind of file", "+ ret_code=0", "+ [[ 0 -eq 0 ]]", "+ break", "+ [[ 0 -ne 0 ]]", "+ (( i=0 ))", "+ (( i<20 ))", "+ kubectl exec -it -n component cassandra-alert-0 -- cqlsh -u root -p d@6lo6kBjK%jllN -e '", "    CREATE TABLE IF NOT EXISTS viper_test.static_features(", "        index_id uuid,", "        seq_id bigint,", "        feature_version int,", "        creation_time timestamp,", "        metadata blob,", "        image_id text,", "        payload text,", "        feature blob,", "        PRIMARY KEY (index_id, seq_id),", "    );'", "Unable to use a TTY - input is not a terminal or the right kind of file", "<stdin>:1:OperationTimedOut: errors={'10.244.1.8': 'Client request timeout. See Session.execute[_async](timeout)'}, last_host=10.244.1.8", "command terminated with exit code 2"], "stdout": "", "stdout_lines": []}

remove-services.sh の実行中に PV の削除がフリーズする場合

問題の説明

$ kubectl -n component delete persistentvolume/local-pv-12bd5454 persistentvolume/local-pv-7d88103a persistentvolume/local-pv-db999675

persistentvolume "local-pv-12bd5454" deleted
persistentvolume "local-pv-7d88103a" deleted
persistentvolume "local-pv-db999675" deleted

問題分析

原因は不明です。Kubernetes でも同様の問題が発生する場合がありますが、実際の原因は分かっていません ()。ただし、この問題を解決するための対応策はあります。

問題の修正手順

$ kubectl get pv

NAME                CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS        CLAIM                                                                       STORAGECLASS                         REASON    AGE
local-pv-12bd5454   4793Mi     RWO            Delete           Terminating   default/engine-alert-feature-db-oplogs-engine-alert-feature-db-worker-1-0   storageclass-local-afd                         39h
local-pv-1ea63c14   14Gi       RWO            Delete           Bound         component/localvolume0-minio-default-0                                      storageclass-local-minio-default               39h
local-pv-21daf7fb   23Gi       RWO            Delete           Available                                                                                 storageclass-local-cassandra-alert             39h
local-pv-483597     14Gi       RWO            Delete           Available                                                                                 storageclass-local-minio-default               39h
...

...
kind: PersistentVolume
metadata:
  creationTimestamp: 2019-10-09T10:11:41Z
  deletionGracePeriodSeconds: 0
  deletionTimestamp: 2019-10-11T01:03:21Z
  finalizers:
  - kubernetes.io/pv-protection
  name: local-pv-12bd5454
...

変更後

...
kind: PersistentVolume
metadata:
  creationTimestamp: 2019-10-09T10:11:41Z
  deletionGracePeriodSeconds: 0
  deletionTimestamp: 2019-10-11T01:03:21Z
  finalizers: null
  name: local-pv-12bd5454
...

(テスト環境にのみ適用) デプロイされたすべてのサービスリソースの削除

mercury/bin/remove-services.sh: すべてのコンポーネント、ライセンスサービス、ローカルボリューム、pv、pvc およびエンジン層とインフラ層のラベルの削除に使用
mercury/bin/remove-volumes.sh: データディスクのデータとパーティション情報の削除に使用

ssh mercury-work-01 < ./mercury/bin/remove-services.sh
ssh mercury-work-01 < ./mercury/bin/remove-volumes.sh
ssh mercury-work-02 < ./mercury/bin/remove-volumes.sh
...
ssh mercury-work-XX < ./mercury/bin/remove-volumes.sh