mRNA-Seq入門【第三回】

1.

mRNA-Seq 解析の流れをざっくりと説明してみた mRNA-Seq 解析マッピング編 2021/12/02 ⽔産⽣物環境学（九州⼤学）⾼井優⽣

2.

今回はマッピング編ですがどんな解析ツールを使うとしても

3.

マニュアルをしっかりと読んでください

4.

これが⼀番基本です「できなーい」と⾔ってる⼈の 99.999% はマニュアルを読んでません

5.

「読んだし︕」と⾔い張る⼈もいますが読んでませんそれは⾒ただけです

6.

もう⼀度⾔います

7.

マニュアルをしっかりと読んでください

8.

mRNA-Seq 解析の流れをざっくりと説明してみた mRNA-Seq 解析マッピング編 2021/12/02 ⽔産⽣物環境学（九州⼤学）⾼井優⽣

9.

インデックス作成 STAR

10.

マッピング⽤のインデックス作成使⽤するソフトウェア︓STAR（2.7.9a）最初だけマッピングをする時に STAR が使⽤する⽬印（索引、インデックス）を作ってあげるイメージです使うオプションはこんな感じです（詳細はマニュアルを読んでください）オプション指定する内容の⼤まかな説明 --runMode 実⾏する処理の内容を指定 --genomeFastaFiles ゲノム配列のファイルの場所（ファイル名） --genomeDir インデックスを保存する場所（ディレクトリ） --sjdbGTFfile GTFファイルの場所（ファイル名） --sjdbOverhang マニュアル参照、リードの⻑さ – 1 の値を⼊れると良いらしい --runThreadN 使⽤するスレッド数実際にはこんな感じ ubuntu@ubuntu-man$ STAR --runMode genomeGenerate \ > --genomeFastaFiles /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa \ > --genomeDir /home/ubuntu/references/java_medaka \ > --sjdbGTFfile /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf \ > --sjdbOverhang 149 \ > --runThreadN 8

11.

マッピング⽤のインデックス作成使⽤するソフトウェア︓STAR（2.7.9a）最初だけうまくいくとこんな感じの出⼒になります ubuntu@ubuntu-man$ STAR --runMode genomeGenerate \ > --genomeFastaFiles /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa \ > --genomeDir /home/ubuntu/references/java_medaka \ > --sjdbGTFfile /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf \ > --sjdbOverhang 149 \ > --runThreadN 8 STAR --runMode genomeGenerate --genomeFastaFiles /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa --genomeDir /home/ubuntu/references/java_medaka --sjdbGTFfile /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf --sjdbOverhang 149 --runThreadN 8 -STAR version: 2.7.9a compiled: 2021-08-24T11:30:05+09:00 :/home/ubuntu/src/STAR-2.7.9a/source Nov 30 09:13:29 ..... started STAR run Nov 30 09:13:29 ... starting to generate Genome files Nov 30 09:13:53 ..... processing annotations GTF Nov 30 09:14:13 ... starting to sort Suffix Array. This may take a long time... Nov 30 09:14:22 ... sorting Suffix Array chunks and saving them to disk... Nov 30 09:20:44 ... loading chunks from disk, packing SA... Nov 30 09:21:21 ... finished generating suffix array Nov 30 09:21:21 ... generating Suffix Array index Nov 30 09:23:05 ... completed Suffix Array index Nov 30 09:23:06 ..... inserting junctions into the genome indices Nov 30 09:28:35 ... writing Genome to disk ... Nov 30 09:28:37 ... writing Suffix Array to disk ... Nov 30 09:28:46 ... writing SAindex to disk Nov 30 09:28:48 ..... finished successfully

12.

マッピング⽤のインデックス作成使⽤するソフトウェア︓STAR（2.7.9a）最初だけ ubuntu@ubuntu-man$ STAR --runMode genomeGenerate \ > --genomeFastaFiles /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa \ > --genomeDir /home/ubuntu/references/java_medaka \ > --sjdbGTFfile /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf \ > --sjdbOverhang 149 \ > --runThreadN 8 STAR --runMode genomeGenerate --genomeFastaFiles ゲノムのサイズによってはこういう警告が出てくる時もあります /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa --genomeDir /home/ubuntu/references/java_medaka --sjdbGTFfile !!!!! WARNING: --genomeSAindexNbases 14 is too large for the genome size=809679899, which may cause /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf --sjdbOverhang--genomeSAindexNbases 149 --runThreadN 8 -seg-fault at the mapping step. Re-run genome generation with recommended 13 STAR version: 2.7.9a compiled: 2021-08-24T11:30:05+09:00 :/home/ubuntu/src/STAR-2.7.9a/source Nov 30 09:13:29 ..... started STAR run これを無視するとあとで⼤変なこと（マッピングできなくなります）になるので Nov 30 09:13:29 ... starting to generate Genome files 素直にメッセージに従ってあげましょう Nov 30 09:13:53 ..... processing annotations GTF Nov 30 09:14:13 ... starting to sort Suffix Array. This may take a long time... Nov 30 09:14:22 ... sorting Suffix Array chunks and saving them to disk... Nov 30 09:20:44 ... loading chunks from disk, packing SA... Nov 30 09:21:21 ... finished generating suffix array Nov 30 09:21:21 ... generating Suffix Array index Nov 30 09:23:05 ... completed Suffix Array index Nov 30 09:23:06 ..... inserting junctions into the genome indices Nov 30 09:28:35 ... writing Genome to disk ... Nov 30 09:28:37 ... writing Suffix Array to disk ... Nov 30 09:28:46 ... writing SAindex to disk Nov 30 09:28:48 ..... finished successfully

13.

マッピング⽤のインデックス作成使⽤するソフトウェア︓STAR（2.7.9a）最初だけ ubuntu@ubuntu-man$ STAR --runMode genomeGenerate \ > --genomeFastaFiles /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa \ > --genomeDir /home/ubuntu/references/java_medaka \ > --sjdbGTFfile /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf \ > --sjdbOverhang 149 \ > --runThreadN 8 STAR --runMode genomeGenerate --genomeFastaFiles ゲノムのサイズによってはこういう警告が出てくる時もあります /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa --genomeDir /home/ubuntu/references/java_medaka --sjdbGTFfile !!!!! WARNING: --genomeSAindexNbases 14 is too large for the genome size=809679899, which may cause /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf --sjdbOverhang--genomeSAindexNbases 149 --runThreadN 8 -seg-fault at the mapping step. Re-run genome generation with recommended 13 STAR version: 2.7.9a compiled: 2021-08-24T11:30:05+09:00 :/home/ubuntu/src/STAR-2.7.9a/source Nov 30 09:13:29 ..... started STAR run これを無視するとあとで⼤変なこと（マッピングできなくなります）になるので Nov 30 09:13:29 ... starting to generate Genome files 素直にメッセージに従ってあげましょう Nov 30 09:13:53 ..... processing annotations GTF これでもう⼀回実⾏ Nov 30 09:14:13 ... starting to sort Suffix Array. This may take a long time... Nov 30 09:14:22 ... sorting Suffix Array chunks and saving them to disk... ubuntu@ubuntu-man$ STAR --runMode \ Nov 30 09:20:44 ... loading chunks from genomeGenerate disk, packing SA... > /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa \ Nov--genomeFastaFiles 30 09:21:21 ... finished generating suffix array Nov--genomeDir 30 09:21:21 ... generating Suffix Array index > /home/ubuntu/references/java_medaka \ Nov 30 09:23:05 ... completed Suffix Array index > --sjdbGTFfile /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf \ Nov 30 09:23:06 ..... inserting junctions into the genome indices > \ Genome to disk ... Nov--sjdbOverhang 30 09:28:35 ... 149 writing > 8 \writing Suffix Array to disk ... Nov--runThreadN 30 09:28:37 ... > 13 Nov--30genomeSAindexNbases 09:28:46 ... writing SAindex to disk Nov 30 09:28:48 ..... finished successfully

14.

マッピング⽤のインデックス作成使⽤するソフトウェア︓STAR（2.7.9a）最初だけインデックス作成は⼀つのゲノム配列につき⼀回⾏えば良いのでマッピングの度にインデックス作成をやり直す必要はありません ubuntu@ubuntu-man$ STAR --runMode genomeGenerate \ > --genomeFastaFiles /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa \ > --genomeDir /home/ubuntu/references/java_medaka \ > --sjdbGTFfile /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf \ > --sjdbOverhang 149 \ > --runThreadN 8 STAR --runMode genomeGenerate --genomeFastaFiles ゲノムのサイズによってはこういう警告が出てくる時もあります /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa --genomeDir /home/ubuntu/references/java_medaka --sjdbGTFfile !!!!! WARNING: --genomeSAindexNbases 14 is too large for the genome size=809679899, which may cause /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf --sjdbOverhang--genomeSAindexNbases 149 --runThreadN 8 -seg-fault at the mapping step. Re-run genome generation with recommended 13 STAR version: 2.7.9a compiled: 2021-08-24T11:30:05+09:00 :/home/ubuntu/src/STAR-2.7.9a/source Nov 30 09:13:29 ..... started STAR run これを無視するとあとで⼤変なこと（マッピングできなくなります）になるので Nov 30 09:13:29 ... starting to generate Genome files 素直にメッセージに従ってあげましょう Nov 30 09:13:53 ..... processing annotations GTF これでもう⼀回実⾏ Nov 30 09:14:13 ... starting to sort Suffix Array. This may take a long time... Nov 30 09:14:22 ... sorting Suffix Array chunks and saving them to disk... ubuntu@ubuntu-man$ STAR --runMode \ Nov 30 09:20:44 ... loading chunks from genomeGenerate disk, packing SA... > /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa \ Nov--genomeFastaFiles 30 09:21:21 ... finished generating suffix array Nov--genomeDir 30 09:21:21 ... generating Suffix Array index > /home/ubuntu/references/java_medaka \ Nov 30 09:23:05 ... completed Suffix Array index > --sjdbGTFfile /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf \ Nov 30 09:23:06 ..... inserting junctions into the genome indices > \ Genome to disk ... Nov--sjdbOverhang 30 09:28:35 ... 149 writing > 8 \writing Suffix Array to disk ... Nov--runThreadN 30 09:28:37 ... > 13 Nov--30genomeSAindexNbases 09:28:46 ... writing SAindex to disk Nov 30 09:28:48 ..... finished successfully

15.

マッピング STAR

16.

ゲノム配列へのマッピング使⽤するソフトウェア︓STAR（2.7.9a）作成したインデックスを使⽤して、mRNA-Seq のリードをゲノム配列にマッピングしていきますオプション指定する内容の⼤まかな説明 --genomeDir インデックスを保存した場所（ディレクトリ） --readFilesIn リードファイルの場所（ファイル名） --readFilesCommand リードデータの解凍コマンド（リードファイルが gz などで圧縮されてる場合のみ） --outFileNamePrefix 出⼒結果の名前 --outSAMtype 出⼒ファイルの種類（ソートした BAM ファイルがおすすめ） --quantMode マッピングしたリードのカウントを⾏う（遺伝⼦単位、トランスクリプト単位） --runThreadN 使⽤するスレッド数 ubuntu@ubuntu-man$ STAR --genomeDir /home/ubuntu/references/java_medaka \ > --readFilesIn /home/ubuntu/takai/00_Java_ANTandMP/00_CleanReads/C1_1.fq.gz \ > /home/ubuntu/takai/00_Java_ANTandMP/00_CleanReads/C1_2.fq.gz \ > --readFilesCommand gunzip -c \ > --outFileNamePrefix /home/ubuntu/takai/00_Java_ANTandMP/02_STAR/C1_ \ > --outSAMtype BAM SortedByCoordinate \ > --quantMode GeneCounts \ > --runThreadN 8

17.

ゲノム配列へのマッピング使⽤するソフトウェア︓STAR（2.7.9a）うまくいくとこんな感じの出⼒になります ubuntu@ubuntu-man$ STAR --genomeDir /home/ubuntu/references/java_medaka \ > --readFilesIn /home/ubuntu/takai/00_Java_ANTandMP/00_CleanReads/C1_1.fq.gz \ > /home/ubuntu/takai/00_Java_ANTandMP/00_CleanReads/C1_2.fq.gz \ > --readFilesCommand gunzip -c \ > --outFileNamePrefix /home/ubuntu/takai/00_Java_ANTandMP/02_STAR/C1_ \ > --outSAMtype BAM SortedByCoordinate \ > --quantMode GeneCounts \ > --runThreadN 8 STAR --genomeDir /home/ubuntu/references/java_medaka --readFilesIn /home/ubuntu/takai/00_Java_ANTandMP/00_CleanReads/C1_1.fq.gz /home/ubuntu/takai/00_Java_ANTandMP/00_CleanReads/C1_2.fq.gz --readFilesCommand gunzip -c --outFileNamePrefix /home/ubuntu/takai/00_Java_ANTandMP/02_STAR/C1_ --outSAMtype BAM SortedByCoordinate --quantMode GeneCounts -runThreadN 8 STAR version: 2.7.9a compiled: 2021-08-24T11:30:05+09:00 :/home/ubuntu/src/STAR-2.7.9a/source Nov 30 12:08:05 ..... started STAR run Nov 30 12:08:05 ..... loading genome Nov 30 12:08:14 ..... started mapping Nov 30 12:20:15 ..... finished mapping Nov 30 12:20:18 ..... started sorting BAM Nov 30 12:20:45 ..... finished successfully

18.

マッピング結果の確認使⽤するソフトウェア︓STAR（2.7.9a） --outFileNamePrefix で指定したディレクトリに以下のファイルができますファイル名ファイルの中⾝ <Prefix>_Aligned.sortedByCoord.out.bam 【重要】どのリードがゲノムのどの場所にマッピングされたかを⽰す情報（IGV でマッピング結果を可視化するときに使う） <Prefix>_Log.final.out 【重要】最終的なマッピング結果の統計量 <Prefix>_Log.out マッピングのログ <Prefix>_Log.progress.out マッピングしてるときのログ <Prefix>_ReadsPerGene.out.tab 【重要】遺伝⼦ごとにマッピングしたリードをカウントした結果 <Prefix>_SJ.out.tab スプライスジャンクションに関する情報

19.

マッピング結果の確認 ubuntu@ubuntu-man$ cat C1_Log.final.out Started job on Started mapping on Finished on Mapping speed, Million of reads per hour 使⽤するソフトウェア︓STAR（2.7.9a） | | | | Nov 30 12:08:05 Nov 30 12:08:14 Nov 30 12:20:45 52.64 Number of input reads | 10981870 --outFileNamePrefix で指定したディレクトリに以下のファイルができますファイル名 Average input read length | UNIQUE READS: Uniquely mapped reads number | Uniquely mapped reads % | Average mapped length | Number of splices: Total | Number of splices: Annotated (sjdb) | Number of splices: GT/AG | Number of splices: GC/AG | Number of splices: AT/AC | Number of splices: Non-canonical | Mismatch rate per base, % | Deletion rate per base | Deletion average length | Insertion rate per base | Insertion average length | MULTI-MAPPING READS: Number of reads mapped to multiple loci | % of reads mapped to multiple loci | Number of reads mapped to too many loci | % of reads mapped to too many loci | UNMAPPED READS: Number of reads unmapped: too many mismatches | % of reads unmapped: too many mismatches | Number of reads unmapped: too short | % of reads unmapped: too short | Number of reads unmapped: other | % of reads unmapped: other | CHIMERIC READS: Number of chimeric reads | % of chimeric reads | ファイルの中⾝ 295 9938499 90.50% 293.11 13872226 13152511 13787197 61166 1620 22243 0.52% 0.03% 2.60 0.03% 2.03 <Prefix>_Aligned.sortedByCoord.out.bam 【重要】どのリードがゲノムのどの場所にマッピングされたかを⽰す情報（IGV でマッピング結果を可視化するときに使う） <Prefix>_Log.final.out 【重要】最終的なマッピング結果の統計量 <Prefix>_Log.out <Prefix>_Log.progress.out マッピングのログマッピングしてるときのログ <Prefix>_ReadsPerGene.out.tab 【重要】遺伝⼦ごとにマッピングしたリードを 314950 カウントした結果 2.87% <Prefix>_SJ.out.tab スプライスジャンクションに関する情報 0.35% 37969 0 0.00% 607775 5.53% 82677 0.75% 0 0.00%

20.

マッピング結果の確認 ubuntu@ubuntu-man$ cat C1_Log.final.out Started job on Started mapping on Finished on Mapping speed, Million of reads per hour 使⽤するソフトウェア︓STAR（2.7.9a） | | | | Nov 30 12:08:05 Nov 30 12:08:14 Nov 30 12:20:45 52.64 Number of input reads | 10981870 --outFileNamePrefix で指定したディレクトリに以下のファイルができますファイル名 Average input read length | UNIQUE READS: Uniquely mapped reads number | Uniquely mapped reads % | Average mapped length | Number of splices: Total | Number of splices: Annotated (sjdb) | Number of splices: GT/AG | Number of splices: GC/AG | Number of splices: AT/AC | Number of splices: Non-canonical | Mismatch rate per base, % | Deletion rate per base | Deletion average length | Insertion rate per base | Insertion average length | MULTI-MAPPING READS: Number of reads mapped to multiple loci | % of reads mapped to multiple loci | Number of reads mapped to too many loci | % of reads mapped to too many loci | UNMAPPED READS: Number of reads unmapped: too many mismatches | % of reads unmapped: too many mismatches | Number of reads unmapped: too short | % of reads unmapped: too short | Number of reads unmapped: other | % of reads unmapped: other | CHIMERIC READS: Number of chimeric reads | % of chimeric reads | ファイルの中⾝ 295 9938499 90.50% 293.11 ゲノム配列がしっかりしてると 13872226 13152511 だいたいどの⽣物でもこれくらい 13787197 （80%後半以上） 61166 1620 22243 0.52% 0.03% 2.60 0.03% 2.03 <Prefix>_Aligned.sortedByCoord.out.bam 【重要】どのリードがゲノムのどの場所にマッピングされたかを⽰す情報（IGV でマッピング結果を可視化するときに使う） <Prefix>_Log.final.out 【重要】最終的なマッピング結果の統計量 <Prefix>_Log.out <Prefix>_Log.progress.out マッピングのログマッピングしてるときのログ <Prefix>_ReadsPerGene.out.tab 【重要】遺伝⼦ごとにマッピングしたリードを 314950 カウントした結果 2.87% <Prefix>_SJ.out.tab スプライスジャンクションに関する情報 0.35% 37969 0 0.00% 607775 5.53% 82677 0.75% 0 0.00%

21.

マッピング結果の確認使⽤するソフトウェア︓STAR（2.7.9a） --outFileNamePrefix で指定したディレクトリに以下のファイルができます左からファイル名・遺伝⼦ ID ファイルの中⾝・ストランド⾮特異的 mRNA-Seq のカウント【重要】どのリードがゲノムのどの場所にマッピング <Prefix>_Aligned.sortedByCoord.out.bam ・ストランド特異的 mRNA-Seq のカウント（1st read strand）されたかを⽰す情報（IGV でマッピング結果を可視化するときに使う）・ストランド特異的 mRNA-Seq のカウント（2nd read strand） <Prefix>_Log.final.out <Prefix>_Log.out <Prefix>_Log.progress.out <Prefix>_ReadsPerGene.out.tab <Prefix>_SJ.out.tab 【重要】最終的なマッピング結果の統計量 ubuntu@ubuntu-man$ head C1_ReadsPerGene.out.tab N_unmapped 728530 728530 728530 N_multimapping 314950 314950 314950 N_noFeature 770179 5286332 5307589 N_ambiguous 206784 45629 48143 ENSOJAG00000000068 0 0 0 ENSOJAG00000000073 2 2 0 ENSOJAG00000000082 0 0 0 ENSOJAG00000000089 0 0 0 ENSOJAG00000000092 2 2 0 ENSOJAG00000000110 0 0 0 マッピングのログマッピングしてるときのログ【重要】遺伝⼦ごとにマッピングしたリードをカウントした結果スプライスジャンクションに関する情報今回の mRNA-Seq はストランド⾮特異的なのでこの列のカウントデータを使って発現量解析をするというわけで、全サンプルのマッピングを For ⽂でぶん回してください

22.

For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂

23.

発現量解析⽤カウントデータの作成 STAR

24.

発現量解析⽤カウントデータの作成使⽤するソフトウェア︓STAR（2.7.9a）全サンプルのマッピングが終わったら cut とリダイレクション、paste を使って発現量解析⽤のデータセット（カウントデータ）を作ります ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ : : cut cut cut cut –f –f –f –f 1 2 2 2 C1_ReadsPerGene.out.tab C1_ReadsPerGene.out.tab C2_ReadsPerGene.out.tab C3_ReadsPerGene.out.tab > > > > gene_ids.tsv C1.tsv C2.tsv C3.tsv ⼀⾏⽬︓STAR が吐き出したサンプル C1 のカウントデータから⼀列⽬（遺伝⼦ ID）を gene_ids.tsv（タブ区切りファイル）というファイルに書き出す⼆⾏⽬︓サンプル C1 のカウントデータを C1.tsv というファイルに書き出す三⾏⽬︓サンプル C2 のカウントデータを C2.tsv というファイルに書き出す四⾏⽬︓サンプル C3 のカウントデータを C3.tsv というファイルに書き出す

25.

発現量解析⽤カウントデータの作成使⽤するソフトウェア︓STAR（2.7.9a）全サンプルのマッピングが終わったら cut とリダイレクション、paste を使って発現量解析⽤のデータセット（カウントデータ）を作ります ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ : : cut cut cut cut –f –f –f –f 1 2 2 2 C1_ReadsPerGene.out.tab C1_ReadsPerGene.out.tab C2_ReadsPerGene.out.tab C3_ReadsPerGene.out.tab > > > > gene_ids.tsv C1.tsv C2.tsv C3.tsv ⼀⾏⽬︓STAR が吐き出したサンプル C1 のカウントデータから⼀列⽬（遺伝⼦ ID）を gene_ids.tsv（タブ区切りファイル）というファイルに書き出す⼆⾏⽬︓サンプル C1 のカウントデータを C1.tsv というファイルに書き出す三⾏⽬︓サンプル C2 のカウントデータを C2.tsv というファイルに書き出す四⾏⽬︓サンプル C3 のカウントデータを C3.tsv というファイルに書き出す ubuntu@ubuntu-man$ paste gene_ids.tsv C1.tsv C2.tsv C3.tsv > count.tsv ubuntu@ubuntu-man$ vi count_data.tsv ubuntu@ubuntu-man$ cat count.tsv >> count_data.tsv ⼀⾏⽬︓gene_ids.tsv と各サンプルのカウントデータを結合して count.tsv に書き出す⼆⾏⽬︓サンプル名のファイルを作成する（上記の作業では各列のサンプル名が分からなくなるため）三⾏⽬︓count.tsv を count_data.tsv に追記して解析⽤のデータセットを作成する

26.

発現量解析⽤カウントデータの作成使⽤するソフトウェア︓STAR（2.7.9a）全サンプルのマッピングが終わったら cut とリダイレクション、paste を使って発現量解析⽤のデータセット（カウントデータ）を作ります ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ : : cut cut cut cut –f –f –f –f 1 C1_ReadsPerGene.out.tab > gene_ids.tsv 2 C1_ReadsPerGene.out.tab > C1.tsv の使い⽅はぐぐってもらうとして、、、 2 vi C2_ReadsPerGene.out.tab > C2.tsv 2 C3_ReadsPerGene.out.tab > C3.tsv サンプル名の順番を間違えないように gene_id C1 C2 C3 CP1 CP2 CP3 ⼀⾏⽬︓STAR が吐き出したサンプル C1 のカウントデータから⼀列⽬（遺伝⼦ ID）を gene_ids.tsv（タブ区切りファイル）というファイルに書き出す⼆⾏⽬︓サンプル C1 のカウントデータを C1.tsv というファイルに書き出す三⾏⽬︓サンプル C2 のカウントデータを C2.tsv というファイルに書き出す ”count_data.tsv" [New File] 四⾏⽬︓サンプル C3 のカウントデータを C3.tsv というファイルに書き出す ubuntu@ubuntu-man$ paste gene_ids.tsv C1.tsv C2.tsv C3.tsv > count.tsv ubuntu@ubuntu-man$ vi count_data.tsv ubuntu@ubuntu-man$ cat count.tsv >> count_data.tsv ⼀⾏⽬︓gene_ids.tsv と各サンプルのカウントデータを結合して count.tsv に書き出す⼆⾏⽬︓サンプル名のファイルを作成する（上記の作業では各列のサンプル名が分からなくなるため）三⾏⽬︓count.tsv を count_data.tsv に追記して解析⽤のデータセットを作成する

27.

発現量解析⽤カウントデータの作成使⽤するソフトウェア︓STAR（2.7.9a）全サンプルのマッピングが終わったらがちゃがちゃ書きましたが、もっと簡単な⽅法があります cut とリダイレクション、paste を使って発現量解析⽤のデータセット（カウントデータ）を作ります宿＆題 ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ : : cut cut cut cut –f –f –f –f 1 2 2 2 C1_ReadsPerGene.out.tab C1_ReadsPerGene.out.tab C2_ReadsPerGene.out.tab C3_ReadsPerGene.out.tab > > > > gene_ids.tsv C1.tsv C2.tsv C3.tsv ⼀⾏⽬︓STAR が吐き出したサンプル C1 のカウントデータから⼀列⽬（遺伝⼦ ID）を gene_ids.tsv（タブ区切りファイル）というファイルに書き出す⼆⾏⽬︓サンプル C1 のカウントデータを C1.tsv というファイルに書き出す三⾏⽬︓サンプル C2 のカウントデータを C2.tsv というファイルに書き出す四⾏⽬︓サンプル C3 のカウントデータを C3.tsv というファイルに書き出す ubuntu@ubuntu-man$ paste gene_ids.tsv C1.tsv C2.tsv C3.tsv > count.tsv ubuntu@ubuntu-man$ vi count_data.tsv ubuntu@ubuntu-man$ cat count.tsv >> count_data.tsv 考えてみてください⼀⾏⽬︓gene_ids.tsv と各サンプルのカウントデータを結合して count.tsv に書き出す⼆⾏⽬︓サンプル名のファイルを作成する（上記の作業では各列のサンプル名が分からなくなるため）三⾏⽬︓count.tsv を count_data.tsv に追記して解析⽤のデータセットを作成する

28.

発現量解析⽤カウントデータの作成答え使⽤するソフトウェア︓STAR（2.7.9a）そんなに⼤きなデータじゃないので全サンプルのマッピングが終わったらそれぞれのカウントデータを⾃分のパソコンにもってきて cut とリダイレクション、paste を使って発現量解析⽤のデータセット（カウントデータ）を作りますエクセルでぱっぱっぱとコピペ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ : : cut cut cut cut –f –f –f –f 1 2 2 2 C1_ReadsPerGene.out.tab C1_ReadsPerGene.out.tab C2_ReadsPerGene.out.tab C3_ReadsPerGene.out.tab > > > > gene_ids.tsv C1.tsv C2.tsv C3.tsv ⼀⾏⽬︓STAR が吐き出したサンプル C1 のカウントデータから⼀列⽬（遺伝⼦ ID）を gene_ids.tsv（タブ区切りファイル）というファイルに書き出す⼆⾏⽬︓サンプル C1 のカウントデータを C1.tsv というファイルに書き出す三⾏⽬︓サンプル C2 のカウントデータを C2.tsv というファイルに書き出す四⾏⽬︓サンプル C3 のカウントデータを C3.tsv というファイルに書き出す ubuntu@ubuntu-man$ paste gene_ids.tsv C1.tsv C2.tsv C3.tsv > count.tsv ubuntu@ubuntu-man$ vi count_data.tsv ubuntu@ubuntu-man$ cat count.tsv >> count_data.tsv ⼀⾏⽬︓gene_ids.tsv と各サンプルのカウントデータを結合して count.tsv に書き出すしていけば良いですね⼆⾏⽬︓サンプル名のファイルを作成する（上記の作業では各列のサンプル名が分からなくなるため）三⾏⽬︓count.tsv を count_data.tsv に追記して解析⽤のデータセットを作成する

29.

発現量解析⽤カウントデータの作成答え使⽤するソフトウェア︓STAR（2.7.9a）そんなに⼤きなデータじゃないので全サンプルのマッピングが終わったらそれぞれのカウントデータを⾃分のパソコンにもってきて cut とリダイレクション、paste を使って発現量解析⽤のデータセット（カウントデータ）を作りますエクセルでぱっぱっぱとコピペ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ : : cut cut cut cut –f –f –f –f 1 2 2 2 C1_ReadsPerGene.out.tab C1_ReadsPerGene.out.tab C2_ReadsPerGene.out.tab C3_ReadsPerGene.out.tab > > > > gene_ids.tsv C1.tsv C2.tsv C3.tsv ⼀⾏⽬︓STAR が吐き出したサンプル C1 のカウントデータから⼀列⽬（遺伝⼦ ID）を gene_ids.tsv（タブ区切りファイル）というファイルに書き出す⼆⾏⽬︓サンプル C1 のカウントデータを C1.tsv というファイルに書き出す三⾏⽬︓サンプル C2 のカウントデータを C2.tsv というファイルに書き出す四⾏⽬︓サンプル C3 のカウントデータを C3.tsv というファイルに書き出すコマンドでの実⾏にこだわりちらかす必要は⼀⾏⽬︓gene_ids.tsv と各サンプルのカウントデータを結合して count.tsv に書き出すありませんしていけば良いですね ubuntu@ubuntu-man$ paste gene_ids.tsv C1.tsv C2.tsv C3.tsv > count.tsv ubuntu@ubuntu-man$ vi count_data.tsv ubuntu@ubuntu-man$ cat count.tsv >> count_data.tsv ⼆⾏⽬︓サンプル名のファイルを作成する（上記の作業では各列のサンプル名が分からなくなるため）三⾏⽬︓count.tsv を count_data.tsv に追記して解析⽤のデータセットを作成する

mRNA-Seq入門【第三回】

膝栗毛之男

関連スライド

mRNA-Seq入門【第四回】

mRNA-Seq 入門【第五回】

mRNA-Seq入門【第二回】

mRNA-Seq入門【第一回】

第一原理計算と密度汎関数理論

不変性に基づく転移学習:理論と方法

各ページのテキスト