heard'emsay

反省してます

Pindel output についてのメモ

The third line and further show the sequence of the read ... the position of the mapped half of the paired-end read, the mapping quality of the mapped read というのはVariant Call する際に用いたリードのペアになっているリード(Pindel のアル…

東大医科研のスパコンはデフォルトのC コンパイラがICC

最適化の関係でしょうか?GCCでないとコンパイルできないものもあるんですが、ICCだからダメだと言われるんじゃなくて「GCCのバージョンが古い」と怒られることが多く、gcc --version とやっても最新バージョンなのになー、と首を傾げることになります。例え…

CASAVAで用いるSampleSheetには空白を入れてはいけない

題の通り。このことはよく知られていると思うんだけど、どのエラーが出た時にサンプルシートの空白を疑ったらいいのかなかなかわからない。僕の環境では以下のエラーが出たから、もし検索でここが引っかかった人はサンプルシートを確認するといいと思う。 CA…

bam_header_read EOF marker is absent. The input is probably truncated.

bi

これも海外から見る人が多そうなので英語も書いておこう。 $ samtools index foo.sorted.bam [bam_header_read] EOF marker is absent. The input is probably truncated. [bam_header_read] invalid BAM binary header (this is not a BAM file). Segmentat…

fastx インストール中に困ったことなど

pipe_fitter.c: In function ‘pipe_close’: pipe_fitter.c:30:6: error: variable "i" set but not used [-Werror=unused-but-set-variable] Makefile を見ると-Wunused(使われない変数があったら警告を出す)と-Werror(警告があったらエラーを出す)が両方立…

.sam fileのbitwise flagについて "0x2 each segment properly aligned according to the aligner" 途中まで

0x02each segment properly aligned がどういう意味なのか分からないので調べている。 sam formatについての公式文書があまりにも頼りないので、samtoolsでいろいろとフィルターをかけながら調べてみた。 リード自身がunmappedなものとmateがunmappedなもの…

計画を立てよう

今週末はbwaのアルゴリズムの理解に費やそうと決めました。土曜日の午後から仕事の手を止めます。

WARN 00:25:19,170 ExactAFCalculationModel - this tool is currently set to genotype at most 3 alternate alleles in a given context, but the context at chr1:34037991 has 4 alternate alleles so only the top alleles will be used; see the --max_alternate_alle

あとで分かったらなにか書きます。

VarScan somatic の出力ファイル形式

なぜか研修中はこれをpileupファイルと呼びならわしていたのだけれど、いわゆるsamtoolsが吐くようなpileupファイルとは形式が違う。 可読なファイルだし、各コラムの意味はヘッダ見ればわかるけど、念のため調べてみた。 VarScanのプロジェクトページにあっ…

某シーケンサーが吐き出す設定ファイルを読んでいる。

なかなか面白く、使用法をレクチャーしてもらったときにはいまいち腑に落ちなかったことがわかってくる。例えば、画像の1ピクセルは実物の何mmになるように調整されている。とか、各光学フィルターによる位置のずれはどれくらい補正されているか。とか。しか…

GATK ERROR MESSAGE: Invalid GZIP header

何だか海外から検索してやってきてらっしゃる方もいるようなので、英語でも書いておこう。 java -jar GenomeAnalysisTK.jar -T DepthOfCoverage -R foo.fa -I bar.bam -L bar.bed -omitBaseOutput -ct 10 -ct 20 & ##### ERROR ----------------------------…

picard/MarkDuplicatesはオプションの書式が少々違ってもエラーを返さない。

bi

いろいろ不審な点がある。 raw after MarkDuplicates After samtools -F 12 total 199260064 + 0 199260064 + 0 168640351 + 0 duplicates 0 + 0 8801525 + 0 4705460 + 0 mapped 177408978 + 0 (89.03%:-nan%) 177408978 + 0 (89.03%:-nan%) 168640351 + 0 …

.sam fileのoption タグ

bi

XTはUniquely mappedかRepeatedly mappedかMate rescued(repeatedだけどpairがUnique)か。 NMはEdit distanceで、SNVやIn/Delの入った数。 XMはNMのうちSNVのみ数えたものだと思うが、細かいところはまだよくわからない。 MDは変異の入った位置を示す。 MD:Z…

CIGAR strings

S Smith-Waterman アルゴリズムでは、リードを最初から最後までアラインメントするわけじゃない。 両端が切れたものがアラインされることもある。そんなときにはCIGAR string "S" でタグづけするのさ。(のさ?) In Smith-Waterman alignment, a sequence m…

ERROR: [bcf_sync] incorrect number of fields..

samtoolsは出力をリダイレクトで入れるため、nohupやtimeなど標準(エラー)出力を余分に吐くようなコマンドと併用するとマズイようである。 When I don't use nohup to run the mpileup command bcftools seems to work fine. http://seqanswers.com/forums…

metricsファイルとは

http://seqanswers.com/forums/showthread.php?t=4380

画面を見ない

topコマンド出力させてるとちらちらして気になってしまうので物事が深く考えられなくなる。 何事も計画と実行を同時にやってはいけないので、「どうやって作業を進めていこうかな」と考えたいときは実際に作業する現場からは少し離れたところでやると良い。

画面を見ない

topコマンド出力させてるとちらちらして気になってしまうので物事が深く考えられなくなる。 何事も計画と実行を同時にやってはいけないので、「どうやって作業を進めていこうかな」と考えたいときは実際に作業する現場からは少し離れたところでやると良い。

tagcleaner -predict 出力の Percentage_Explained とは

#Param Tag_Sequence Tag_Length Percentage_Explained tag5 CTCGAGAATTCTGGATCCTC 20 11.20 The percentage values given in the column called "Percentage_Explained" (see example above) can be used to estimate the probability of a tag being real.…

fastqcのquality reportって結構アドホックに基準決めてる?

この辺にざっと目を通してる。「non-uniqueな配列が20%を超えたら警告出しますよ」とか言ってるんだけど、どれくらいのDepthを想定してるかとかにも依るやんか。Per base GC content もbase ごとのバラツキが5%を超えたら即警告と言ってるけど、平均が50%か…

fastqcでエラー

bi

Exception in thread "main" java.lang.NoClassDefFoundError: uk.ac.bbsrc.babraham.FastQC.Sequence.FastQFile at java.lang.Class.initializeClass(libgcj.so.7rh) at uk.ac.bbsrc.babraham.FastQC.Sequence.SequenceFactory.getSequenceFile(SequenceFac…

fastx_toolsのインストールでハマった話

bi

いや、これ見りゃいいだけなんだけどさ。 // Tell pkg-config to look for libraries in /usr/local/lib, too. $ export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig:$PKG_CONFIG_PATH http://hannonlab.cshl.edu/fastx_toolkit/install_centos.txt という2行…

samtools tviewではアラインメントが確認できるのにigvだと何も見えない・・・

とりあえずigvビルドしなおしています。追記:インストラクターさんに教えてもらって解決しました。症状としては、マッピング済みのbamファイルをIGVで見ようとするとリファレンスの配列以外何も見えない。というものです。対策としては、リファレンスの配列…

vcf(variant call format)ファイルも覗いてみた

これを参考に。詳細はまた後で。追記:こっちの方が参考になる。

SAMファイルの中身を覗いてみたのでメモ

BI

この辺http://samtools.sourceforge.net/SAM1.pdfを参考にしつつ。 まずヘッダ @SQ SN:gi|49175990|ref|NC_000913.2| LN:4639675 @PG ID:bwa PN:bwa VN:0.6.1-r104 @SQはリファレンス配列についての情報。名前と長さ。 @PGはマッピングしたプログラムについ…

bwaの-fオプション

なんか家帰ったらもろもろうまくできた(笑) - heard'emsay fail to open file 'foo.fna.nt.ann'. Abort! - heard'emsayこの両者の違いってalnのときに-fオプションつけるかリダイレクトするかだけなのでソースの-fオプションの周辺読めば何かわかるかもし…

Frequent mutations of chromatin remodeling genes in transitional cell carcinoma of the bladder

Frequent mutations of chromatin remodeling genes in transitional cell carcinoma of the bladder : Nature Genetics : Nature Publishing Group Supplemental Data のTable 5. FGFR3のTyr→Cysだけ異様に集積してるんだけど何なの。 他にもある。 HRAS:13…

職場のmacをセットアップ中

Xcodeの最新版を入れるとhomebrewが動かないという情報を目にして恐ろしくて恐ろしくて震えている。 Xcode4.3にしてHomebrewでエラーが出た場合の対処法 | Macとかの雑記帳 Xcodeのパスを変えるというのもなにか恐ろしい感じがするのでとりあえずこれといっ…

なんか家帰ったらもろもろうまくできた(笑)

さてリードが一つもmapされないという謎の状態に苦しんでいたのであるが、帰宅して手元のmacで試したら何の問題もなかった。 $ bwa index -a bwtsw ~/bi/genome/NC_000913.fna [bwa_index] Pack FASTA... 0.21 sec [bwa_index] Construct BWT for the packed…

invalid BAM binary header (this is not a BAM file)

$ bwa samse /home/genome/NC_000913.fna SRR022885.sai ../SRR022885.200k.fastq > out.sam [bam_header_read] invalid BAM binary header (this is not a BAM file). [main] Version: 0.6.1-r104 [main] CMD: bwa samse /home/genome/NC_000913.fna SRR022…