TrimmomaticでBGIシーケンサーのアダプターを指定する

ここ数年、中国のゲノム関連企業であるBGI次世代シーケンサーがゲノム解読に使われることが増えてきた。配列の増幅にローリングサークル複製機構を使っているなど、illumina社のシーケンサーとはだいぶシステムが異なるらしい。1当然、使われているアダプター配列も異なる。

アダプタートリミングツールであるTrimmomaticはデフォルトでillumina社の主要なシーケンサーに対応しているが、BGIのBGISEQやMGISEQを使用した場合は自分でアダプター配列を指定する必要がある。

検索するとアダプター配列の一覧がヒットし2、その中にアダプターを取り除くには以下の配列を使いなさいとあった。

>Forward_filter
AAGTCGGAGGCCAAGCGGTCTTAGGAAGACAA
>Reverse_filter
AAGTCGGATCGTAGCCATGTCGTTCTGTGAGCCAAGGAGTTG

これのfastaファイルを作り、Trimmomaticのアダプター格納フォルダに保存する(conda installした場合、shareディレクトリ以下にある)。あとはTrimmomaticのILLUMINACLIPで指定するファイルを変更すれば良い。

#paired endの実行例
adapter="/Users/username/miniconda3/share/trimmomatic-0.39-1/adapters/BGI_adapters.fa"

java -jar /Users/username/miniconda3/share/trimmomatic-0.39-1/trimmomatic.jar \
PE \
-threads 16 \
-phred33 \
-trimlog log.txt \
R1.fastq.gz R2.fastq.gz \ #input files: paired end reads
R1_paired_output.fastq.gz R1_unpaired_output.fastq.gz \ #paired and unpaired trimmed reads from input file 1
R2_paired_output.fastq.gz R2_unpaired_output.fastq.gz \ #paired and unpaired trimmed reads from input file 2
ILLUMINACLIP:${adapter}:2:30:10 \
LEADING:20 \
TRAILING:20 \
SLIDINGWINDOW:4:15 \
MINLEN:36

参考サイト様

  1. [bioinfo]DNBSEQ-G400のSEデータtrimming設定(trimmomatic) – Takeshi Igawa, Ph.D.

  2. Trimmomatic | FASTQ クリーニングツール