Oracle Validated Configurations をちゃんと読む
そもそも Oracle Validated Configurations つーのは何なのよと言う話なんですが、要約すると、戦略的提携をしているパートナーとともに行い公開している事前検証済み構成。ベストプラクティス付き。検証内容は、Oracle Database 10g Release 2 (10.2) for Linux x86-64 の Real Application Clusters (Oracle RAC)っていう機能で実現する(1つのデータベースを複数のデータベースインスタンスから利用する)クラスタ・データベースの検証。OSは Oracle Enterprise Linux 4, Red Hat Enterprise Linux 4 (RHEL4), and SUSE Linux Enterprise Server 9 (SLES9)のいずれかをベースにしている。( ちなみに Asianux系はない。気になって http://www.oracle.co.jp/products/system/10g/rac/ あたりを見ても SLES10の明示がない...OCFS2入ってるのになぁ... )
今月に入り、今の時点で二つ追加されていたので、それぞれのベンダの公表しているサマリを比較してみる。
対象は
- Oracle Database 10g (10.2.0.3) Single Instance and RAC on Oracle Enterprise Linux 4 x86-64 and Red Hat EnterpriseLinux 4 AS/ES x86-64 using Automatic Storage Management (ASM) + HP ProLiant DL585 Server series + HP StorageWorks 4000 EVA Published: March 7, 2007
- Oracle Database 10g (10.2.0.2) Single Instance and Oracle Real Application Clusters (RAC) on Oracle Enterprise Linux 4 x86-64 and Red Hat Enterprise Linux 4 Update 4 AS/ES x86-64 using Network Attached Storage + Dell PowerEdge 1850 + Pillar Data Systems Axiom 500 Publication Date: March 14, 2007
の二つ。長ったらしいので、URLから略して、前者を vc_hpdl585-oel4-eva、後者をdell1859-oel4-axiomとする。
Server and Storage Platform Details:
vc_hpdl585-oel4-eva は AMD Opteron Processor 875 を 4つ搭載しメモリ8GBずつの 2台の構成。numa=off boot option is needed。Fibre Channel HBAから SAN Switch経由で共有ディスクにつなぐって感じの構成。
dell1859-oel4-axiom は Intel Xeon 3.00GHz を 4つ搭載しメモリ 4GBずつの 4台の構成。Gigabit Ethernet Dual Port Server Adapterから Network switch経由で NFSで共有ディスクにつなぐって感じの構成。
Linux Distribution Details:
両方とも EL4 か RHEL4 AS/ES Update 4 x86-64 の kernel-smp-2.6.9-42*.EL.x86_64を利用。Additional packages needed from distributionは同じはずなので割愛。 Additional packages from Oracleも、単に ASM使う場合に oracleasmlibと oracleasm-supportが必要なだけの話なのでこれは比較するものではない。
/etc/sysctl.conf settings:
vc_hpdl585-oel4-evaだけに kernel.sysrq=1 が明記。また set to a value half the size of physical memory や rmem_max can be tuned based on workload to balance performance vs lowmem usage の親切な注釈付き。
/etc/security/limits.conf:
違いはないけど、vc_hpdl585-oel4-evaだけに depending on size of db, these may need to be larger や set memlock greater than or equal to the sga size to allow の親切な注釈付き。
Filesystems tested:
それぞれ別のタイプのクラスタデータベース格納先で比較にならないが、dell1859-oel4-axiom は検証時に以下のようにして NFS mountしていることが明記。
NFS v3
NFS mount options:
Single instance data files
rw,bg,hard,nointr,tcp,nfsvers=3,timeo=600,rsize=32768,wsize=32768
RAC instance data files
rw,bg,hard,nointr,tcp,nfsvers=3,timeo=600,rsize=32768,wsize=32768,actimeo=0
RAC OCR and VOTE disks
rw,bg,hard,nointr,tcp,nfsvers=3,timeo=600,rsize=32768,wsize=32768,actimeo=0
Driver Modules:
vc_hpdl585-oel4-eva は Fibre Channel HBA (qla2300) および Gigabit Ethernet用の tg3や e1000の network driver module を HP PSP 7.70っつーのに入っているのを使ったと明記。dell1859-oel4-axiomは default driverを使ったとのこと。
Other:
この後、えーっと、どこにどうやって設定するのか不親切な記述が両方にあるので、それだけ抜き出しておきます。
vc_hpdl585-oel4-eva は
Timeout Settings
css misscount set to 240
dell1859-oel4-axiom は
VIP timeout:
check_interval set to 150
script_timeout set to 150
Oracle Software Details:
vc_hpdl585-oel4-eva は
Oracle Database 10g Release 2 (10.2.0.3) Single Instance and RAC for Linux x86-64
dell1859-oel4-axiom は
Oracle Database 10g Release 2 (10.2.0.2) Single Instance and Oracle Real Application Clusters (RAC) for Linux x86-64
patch 5071492
patch 4639236
patch 4690794
patch 5036588
patch 5082668
10.2.0.2で検証するときは 10.2.0.3 に含まれていない修正が patchで必要ってことなんですかね。後から検証結果出すのにバージョンが古いというのは、ううむ。
Configuration Feedback:
ここまでに記載されていた(設定やパッチなどの)構成で直るとか SELinux有効にしててとか、データベースと関係ない話とかは見る価値無しなので、省いて比較。このフィードバックがとっても重要なわけです。
ここから vc_hpdl585-oel4-eva のみに記載されている内容
Bug Summary
Number5017352 warning messages in trace files during certain workloads with async io turned on
affects: performance
symptom: Following warnings in trace files
WARNING: ORACLE PROCESS RUNNING OUT OF OSKERNEL I/O RESOURCES
workaround: none at the moment
で、どうしろと...
ここから dell1859-oel4-axiom のみに記載されている内容
5215622 libknlopt.a not relinked
affects: 10.2.0.2 RAC (did not occur in 10.1)
symptom: may get ORA-7445 errors during startup
workaround: manually relink on each node
デフォルトでは起動できないのか、とほほ。
5017352 warning messages in trace files during certain workloads with async io turned
on
affects: performance
symptom: Following warning in trace files
WARNING: ORACLE PROCESS RUNNING OUT OF OS KERNEL I/O
RESOURCES
workaround: none so far
で、どうしろと...
5021707 CSS should open block device voting disk with o_direct
affects: 10.2.0.2 RAC when voting or ocr disk is a block device
symptom: RAC reconfiguration may not occur properly
solution: use raw devices for ocr and voting disks
dell1859-oel4-axiomは NFSにして mount potionまで指定してあるだから、解決できない問題ってこと?
5219517 failing RAC interconnect causes ASM to hang
affects: 10.2.0.2 RAC using ASM (2-node)
symptom: ifconfig down of RAC interconnect on node 1 causes
surviving node 2 ASM instance to hang. This may
occur during testing to simulate interconnect failure.
solution: RAC properly handles this failure case when the
interconnect is physically disconnected vs. ifconfig down
which is simulating the failure
dell1859-oel4-axiomは ASMは使ってないはずですが。で、どうしろと...
5298421 asmlib ORA-15183 ASMLIB initialization error
affects: 10.2 when using asmlib
symptom: ORA-15183 could occur while starting an asm instance
workaround: a reboot is needed
ell1859-oel4-axiomは ASMは使ってないはずですが。で、どうしろと...
5330996 warning messages in trace files
affects: 10.2.0.2 RAC
symptom: Following warnings in trace files
KSXPLOOKUP: warning cnh incarnation number may be stale
workaround: none at the moment
で、どうしろと...
5093059 netdump doesn't load with bonding configured (it 85145)
affects: bringing up netdump over a bonded interface
symptom: /var/log/messages will have an error:
netlog: bond0 doesn't support polling, aborting.
workaround: none at the moment
で、どうしろと..
[補足]
/etc/modprobe.conf:
options hangcheck_timer hangcheck_reboot=1
これについては両方とも設定されているが、気になる人は
http://www-1.ibm.com/support/docview.wss?uid=std3c501408f97b3664249256f01002a8bda
あたりをご覧ください。
Configuration Feedbackに両構成に記載がありつつ、重要なのを記載
Bug # Summary
5136660 bonding primary=ethX doesn't take effect
affects: bonding doesn't take effect
symptom: If we make a bond of eth5 and eth6, where eth6 is primary, on reboot eth5 will become active which makes server inaccessible.
workaround: Use kernel-smp-2.6.9-42.0.3.0.2.EL.x86_64.rpm or higher (available from ULN)
ここまで bonding に触れられてないし、RHEL4はどうしたら良いのよと。
5041394 relink errors after upgrading from 10.1 to 10.2
affects: 10.1 -> 10.2 upgrade process
symptom: during 10.2 upgrade, relink step will fail
with 'undefined reference' errors
workaround: after doing 10.2 prereq steps, rename
$ORACLE_HOME/lib/stubs to $ORACLE_HOME/lib/stubs.10.1
$ORACLE_HOME/lib32/stubs to $ORACLE_HOME/lib32/stubs.10.1
then start installing 10.2.0.1
これは 10.2.0.3や 10.2.0.2の検証結果ではなかったのか。
4593892 repeated warnings in dmesg about lost ticks (it 80129/bz 139376)
affects: usually seen on x86-64, both Intel and Opteron based systems
symptom: dmesg will have errors like:
warning: many lost ticks.
Your time source seems to be instable or some driver is hogging interupts
rip __do_softirq+0x4d/0xd0
workaround: none at the moment
これも両方で出てるってことは、なんか対策しなくて良いのかい。
/etc/redhat-releaseで Oracle's ELのデフォルトだと、両方とも面白いことになるみたいなので、要注意ですね。
vc_hpdl585-oel4-eva は
5693201 Application does not detect EL4 as RHEL4
affects: Installation of HP PSP on EL4
symptoms: PSP installation fails with error "Please check /etc/redhat-release for correctness"
workaround: echo "Red Hat Enterprise Linux AS release 4 (Nahant Update 4)" > /etc/redhat-release
dell1859-oel4-axiom は
5693201 Application does not detect EL4 as RHEL4
affects: Applications that use /etc/redhat-release for detection of distribution
symptoms:Applications that use /etc/redhat-release for detection of
distribution may error out
workaround: echo "Red Hat Enterprise Linux AS release 4 (Nahant Update
4)" > /etc/redhat-release
PillarSupport: Database creation fails when using "reuse" option with db files, if the file
already exists on the filer
Affects: Database creation if files already exist on Axiom 2.03.00 only
Symptoms: Following ORA errors would be encountered during creation
ORA-00200: control file could not be created
ORA-00202: control file: '/opt/oracle/oltest/olts/.srchome/rac-
database/nas/10.2.0.2/72G/control_001'
ORA-27086: unable to lock file - already in use
Linux-x86_64 Error: 11: Resource temporarily unavailable
Solution: Fixed in Axiom Release 2.04. Use your PillarData support
account to download 2.04 from PillarSupport
If using Axiom Release 2.03.00, you could either
1)remove the files before creating; or
2)copy the existing files to a new location, then rename to the old name
[参考]
ちなみに
5215593 unable to start RAC with db_cache_size > 4gb
affects: RAC instances with > 4gb db_cache_size
symptom: nodes that started up correctly with 10.2.0.1
may fail to startup with ORA-4031 errors in 10.2.0.2
workaround: set _ksmg_granule_size=33554432 in the init.ora.
Larger sga sizes may need a higher value.
について、vc_hpdl585-oel4-eva は 10.2.0.3 なんだから、どうなのか言及してないのは、不親切。どっちなんだろ。