Oracle Validated Configurations をちゃんと読む

そもそも Oracle Validated Configurations つーのは何なのよと言う話なんですが、要約すると、戦略的提携をしているパートナーとともに行い公開している事前検証済み構成。ベストプラクティス付き。検証内容は、Oracle Database 10g Release 2 (10.2) for Linux x86-64 の Real Application Clusters (Oracle RAC)っていう機能で実現する(1つのデータベースを複数のデータベースインスタンスから利用する)クラスタ・データベースの検証。OSは Oracle Enterprise Linux 4, Red Hat Enterprise Linux 4 (RHEL4), and SUSE Linux Enterprise Server 9 (SLES9)のいずれかをベースにしている。( ちなみに Asianux系はない。気になって http://www.oracle.co.jp/products/system/10g/rac/ あたりを見ても SLES10の明示がない...OCFS2入ってるのになぁ... )


今月に入り、今の時点で二つ追加されていたので、それぞれのベンダの公表しているサマリを比較してみる。
対象は

の二つ。長ったらしいので、URLから略して、前者を vc_hpdl585-oel4-eva、後者をdell1859-oel4-axiomとする。

Server and Storage Platform Details:

vc_hpdl585-oel4-eva は AMD Opteron Processor 875 を 4つ搭載しメモリ8GBずつの 2台の構成。numa=off boot option is needed。Fibre Channel HBAから SAN Switch経由で共有ディスクにつなぐって感じの構成。
dell1859-oel4-axiom は Intel Xeon 3.00GHz を 4つ搭載しメモリ 4GBずつの 4台の構成。Gigabit Ethernet Dual Port Server Adapterから Network switch経由で NFSで共有ディスクにつなぐって感じの構成。

Linux Distribution Details:

両方とも EL4 か RHEL4 AS/ES Update 4 x86-64 の kernel-smp-2.6.9-42*.EL.x86_64を利用。Additional packages needed from distributionは同じはずなので割愛。 Additional packages from Oracleも、単に ASM使う場合に oracleasmlibと oracleasm-supportが必要なだけの話なのでこれは比較するものではない。

/etc/sysctl.conf settings:

vc_hpdl585-oel4-evaだけに kernel.sysrq=1 が明記。また set to a value half the size of physical memory や rmem_max can be tuned based on workload to balance performance vs lowmem usage の親切な注釈付き。

/etc/security/limits.conf:

違いはないけど、vc_hpdl585-oel4-evaだけに depending on size of db, these may need to be larger や set memlock greater than or equal to the sga size to allow の親切な注釈付き。

Filesystems tested:

それぞれ別のタイプのクラスタデータベース格納先で比較にならないが、dell1859-oel4-axiom は検証時に以下のようにして NFS mountしていることが明記。

NFS v3

NFS mount options:
Single instance data files
rw,bg,hard,nointr,tcp,nfsvers=3,timeo=600,rsize=32768,wsize=32768
RAC instance data files
rw,bg,hard,nointr,tcp,nfsvers=3,timeo=600,rsize=32768,wsize=32768,actimeo=0
RAC OCR and VOTE disks
rw,bg,hard,nointr,tcp,nfsvers=3,timeo=600,rsize=32768,wsize=32768,actimeo=0

Driver Modules:

vc_hpdl585-oel4-eva は Fibre Channel HBA (qla2300) および Gigabit Ethernet用の tg3や e1000の network driver module を HP PSP 7.70っつーのに入っているのを使ったと明記。dell1859-oel4-axiomは default driverを使ったとのこと。

Other:

この後、えーっと、どこにどうやって設定するのか不親切な記述が両方にあるので、それだけ抜き出しておきます。
vc_hpdl585-oel4-eva は

Timeout Settings
css misscount set to 240

dell1859-oel4-axiom は

VIP timeout:
check_interval set to 150
script_timeout set to 150

Oracle Software Details:

vc_hpdl585-oel4-eva は

Oracle Database 10g Release 2 (10.2.0.3) Single Instance and RAC for Linux x86-64

dell1859-oel4-axiom は

Oracle Database 10g Release 2 (10.2.0.2) Single Instance and Oracle Real Application Clusters (RAC) for Linux x86-64

patch 5071492
patch 4639236
patch 4690794
patch 5036588
patch 5082668

10.2.0.2で検証するときは 10.2.0.3 に含まれていない修正が patchで必要ってことなんですかね。後から検証結果出すのにバージョンが古いというのは、ううむ。

Configuration Feedback:

ここまでに記載されていた(設定やパッチなどの)構成で直るとか SELinux有効にしててとか、データベースと関係ない話とかは見る価値無しなので、省いて比較。このフィードバックがとっても重要なわけです。

ここから vc_hpdl585-oel4-eva のみに記載されている内容

Bug Summary
Number

5017352 warning messages in trace files during certain workloads with async io turned on
affects: performance
symptom: Following warnings in trace files
WARNING: ORACLE PROCESS RUNNING OUT OF OSKERNEL I/O RESOURCES
workaround: none at the moment

で、どうしろと...

ここから dell1859-oel4-axiom のみに記載されている内容

5215622 libknlopt.a not relinked
affects: 10.2.0.2 RAC (did not occur in 10.1)
symptom: may get ORA-7445 errors during startup
workaround: manually relink on each node

デフォルトでは起動できないのか、とほほ。

5017352 warning messages in trace files during certain workloads with async io turned
on
affects: performance
symptom: Following warning in trace files
WARNING: ORACLE PROCESS RUNNING OUT OF OS KERNEL I/O
RESOURCES
workaround: none so far

で、どうしろと...

5021707 CSS should open block device voting disk with o_direct
affects: 10.2.0.2 RAC when voting or ocr disk is a block device
symptom: RAC reconfiguration may not occur properly
solution: use raw devices for ocr and voting disks

dell1859-oel4-axiomは NFSにして mount potionまで指定してあるだから、解決できない問題ってこと?

5219517 failing RAC interconnect causes ASM to hang
affects: 10.2.0.2 RAC using ASM (2-node)
symptom: ifconfig down of RAC interconnect on node 1 causes
surviving node 2 ASM instance to hang. This may
occur during testing to simulate interconnect failure.
solution: RAC properly handles this failure case when the
interconnect is physically disconnected vs. ifconfig down
which is simulating the failure

dell1859-oel4-axiomは ASMは使ってないはずですが。で、どうしろと...

5298421 asmlib ORA-15183 ASMLIB initialization error
affects: 10.2 when using asmlib
symptom: ORA-15183 could occur while starting an asm instance
workaround: a reboot is needed

ell1859-oel4-axiomは ASMは使ってないはずですが。で、どうしろと...

5330996 warning messages in trace files
affects: 10.2.0.2 RAC
symptom: Following warnings in trace files
KSXPLOOKUP: warning cnh incarnation number may be stale
workaround: none at the moment

で、どうしろと...

5093059 netdump doesn't load with bonding configured (it 85145)
affects: bringing up netdump over a bonded interface
symptom: /var/log/messages will have an error:
netlog: bond0 doesn't support polling, aborting.
workaround: none at the moment

で、どうしろと..

[補足]

/etc/modprobe.conf:
options hangcheck_timer hangcheck_reboot=1
これについては両方とも設定されているが、気になる人は
http://www-1.ibm.com/support/docview.wss?uid=std3c501408f97b3664249256f01002a8bda
あたりをご覧ください。

Configuration Feedbackに両構成に記載がありつつ、重要なのを記載
Bug # Summary

5136660 bonding primary=ethX doesn't take effect
affects: bonding doesn't take effect
symptom: If we make a bond of eth5 and eth6, where eth6 is primary, on reboot eth5 will become active which makes server inaccessible.
workaround: Use kernel-smp-2.6.9-42.0.3.0.2.EL.x86_64.rpm or higher (available from ULN)

ここまで bonding に触れられてないし、RHEL4はどうしたら良いのよと。

5041394 relink errors after upgrading from 10.1 to 10.2
affects: 10.1 -> 10.2 upgrade process
symptom: during 10.2 upgrade, relink step will fail
with 'undefined reference' errors
workaround: after doing 10.2 prereq steps, rename
$ORACLE_HOME/lib/stubs to $ORACLE_HOME/lib/stubs.10.1
$ORACLE_HOME/lib32/stubs to $ORACLE_HOME/lib32/stubs.10.1
then start installing 10.2.0.1

これは 10.2.0.3や 10.2.0.2の検証結果ではなかったのか。

4593892 repeated warnings in dmesg about lost ticks (it 80129/bz 139376)
affects: usually seen on x86-64, both Intel and Opteron based systems
symptom: dmesg will have errors like:
warning: many lost ticks.
Your time source seems to be instable or some driver is hogging interupts
rip __do_softirq+0x4d/0xd0
workaround: none at the moment

これも両方で出てるってことは、なんか対策しなくて良いのかい。



/etc/redhat-releaseで Oracle's ELのデフォルトだと、両方とも面白いことになるみたいなので、要注意ですね。
vc_hpdl585-oel4-eva は

5693201 Application does not detect EL4 as RHEL4
affects: Installation of HP PSP on EL4
symptoms: PSP installation fails with error "Please check /etc/redhat-release for correctness"
workaround: echo "Red Hat Enterprise Linux AS release 4 (Nahant Update 4)" > /etc/redhat-release

dell1859-oel4-axiom は

5693201 Application does not detect EL4 as RHEL4
affects: Applications that use /etc/redhat-release for detection of distribution
symptoms:Applications that use /etc/redhat-release for detection of
distribution may error out
workaround: echo "Red Hat Enterprise Linux AS release 4 (Nahant Update
4)" > /etc/redhat-release
PillarSupport: Database creation fails when using "reuse" option with db files, if the file
already exists on the filer
Affects: Database creation if files already exist on Axiom 2.03.00 only
Symptoms: Following ORA errors would be encountered during creation
ORA-00200: control file could not be created
ORA-00202: control file: '/opt/oracle/oltest/olts/.srchome/rac-
database/nas/10.2.0.2/72G/control_001'
ORA-27086: unable to lock file - already in use
Linux-x86_64 Error: 11: Resource temporarily unavailable
Solution: Fixed in Axiom Release 2.04. Use your PillarData support
account to download 2.04 from PillarSupport
If using Axiom Release 2.03.00, you could either
1)remove the files before creating; or
2)copy the existing files to a new location, then rename to the old name

[参考]

ちなみに

5215593 unable to start RAC with db_cache_size > 4gb
affects: RAC instances with > 4gb db_cache_size
symptom: nodes that started up correctly with 10.2.0.1
may fail to startup with ORA-4031 errors in 10.2.0.2
workaround: set _ksmg_granule_size=33554432 in the init.ora.
Larger sga sizes may need a higher value.

について、vc_hpdl585-oel4-eva は 10.2.0.3 なんだから、どうなのか言及してないのは、不親切。どっちなんだろ。