RでPCA

マイクロアレイデータを再利用する際、遺伝子方向のみならずサンプル方向のデータの相関が気になってくると思います。justRMAでnormalizeしたデータで次に行うのは、おそらくサンプル方向のPCA(Principal Component Analysis:主成分分析)でしょう。ここではRでPCAをして第1,2主成分でグラフを一気に作成するコマンドを紹介します。

まず以下の様な内容でPCA.rという名前のファイルを作成しておきます。もちろん、Rを起動して一行ずつコピペしていっても構わないのですが、最後の行にあるパラメータをいじったりするなど何回もこれを実行することになると思うのでそういう場合はファイルに書き下して「スクリプト化」しておいたほうが楽です。 [shell] data <- read.table("RMA.txt", header=TRUE, row.names=1, sep="t", quote="") data.pca <- prcomp(t(data)) names(data.pca) plot(data.pca$sdev, type="h", main="PCA s.d.") data.pca.sample <- t(data) %*% data.pca$rotation[,1:2] plot(data.pca.sample, main="PCA") text(data.pca.sample, colnames(data), col = c(rep("red", 4), rep("blue",4))) [/shell] 1行目のRMA.txtはマイクロアレイデータのファイル名です。ここでは第一カラム目がプローブ名となっているタブ区切りテキストを想定しております(一行目)。 最後の行に各カラムごとのラベルの色を指定しています。この例の場合、最初の4つがred、そのあと4つがblueでということになりますが、これはデータによって変えるべき項目です。

コマンド実行は、Rに--vanillaオプションをつけて以下のように。 [shell] R --vanilla < PCA.r [/shell] その結果、current directoryに、plotがRplots.pdfというファイルとして得られます。


Written by bonohu in misc on 土 13 7月 2013.