データサイエンス研修 生命情報学コース


練習問題 fq00087

特定の配列を探し出すプログラミングを行います。まず、任意の真核生物一種について、転写開始点近傍100 bp程度のゲノム塩基配列を転写の向きを考慮して多数取り出した1つのFASTAファイルを作成します。その中からTATAボックスのモチーフTATAAAを探し出し、転写開始点との位置関係をまとめてください。その際、TATAAAの6塩基のうち、1塩基のミスマッチがあった場合も検出してください。

    回答 2022-07-14 Saki212b


練習問題 fq00114

BAM形式のファイルに対してbase quality score recalibration (BQSR)を行います。アクセッション番号SRR7225861のデータから作成した、PRCによる重複リードを削除したBAM形式のファイルに対して、BQSRを行い、ヴァリアントをコールするための入力となるBAMに変換してください。

    回答 2022-06-11 Saki212b


練習問題 fq00111

シークエンシングデータの中に含まれているPCRによる重複リードを削除します。アクセッション番号SRR7225861のデータから作成したBAM形式のファイルを入力として、PCRによる重複リードを削除したBAM形式のファイルを出力、含まれていた重複リードの割合を把握した上で、リードのアラインメント状況をビューア等で確認してください。

    回答 2022-05-31 Saki212b


練習問題 fq00108

シークエンシングデータを参照配列にアラインメントしたSAM形式のファイルをBAM形式に変換します。アクセッション番号SRR7225861のFASTQ形式のデータから作成したSAM形式のファイルを入力として、位置でソートされたBAM形式のファイル、およびそのインデックスを作成してください。そして、リードのアラインメント状況をビューア等で確認してください。

    回答 2022-08-07 Maiko
    回答 2022-05-27 Kohji


練習問題 fq00105

参照配列へのマッピングを行い、FASTQ形式で保存された塩基配列データからSAM形式のファイルを作成します。アクセッション番号SRR7225861のデータをFASTQとして取得し、適当なゲノム参照配列を選んでマッピングを行い、SAM形式のファイルを作ってください。

    回答 2022-05-18 Saki212b
    回答 2022-05-21 Kohji
    回答 2022-07-30 Maiko


練習問題 fq00015

ゲノム塩基配列から指定した断片配列を大量に取り出して処理してみます。チンパンジー第2B染色体の配列を取得し、制限酵素Eae Iで完全に消化した場合に得られる断片のうち、T、C、A、Gのみから成る断片のサイズ長上位200の位置と塩基長を出力してください。霊長類ゲノムではメチル化されたCpGサイトと重なる場合Eae Iはその認識サイトを切断できません。周辺200から300塩基程度を調べ、G+C含量が0.5以上の場合のみ切断されると仮定して回答してください。

    回答 2022-04-27 Saki212b
    回答 2022-07-04 Hitomi


練習問題 fq00012

制限酵素の認識配列を検索してみます。チンパンジー第3染色体の配列を取得し、BamH I認識サイトの位置の一覧を作成してください。この組み合わせで完全に消化した場合、T、C、A、Gのみから成る断片のサイズ長上位20の位置と塩基長を出力してください。

    回答 2022-04-27 Saki212b
    回答 2022-06-29 Hitomi


練習問題 fq00102

FASTQ形式で保存された塩基配列データに対して統計処理を行います。アクセッション番号SRR7225861、ペアエンドで読まれたデータをFASTQとして取得し、独自にプログラミング、リード1とリード2のそれぞれに対して以下の描画を行ってください。5'側から50番目の塩基のクオリティ値の分布について、ヒストグラムを描いてください。また5'側から3'側末端まで、それぞれの場所での全リードのクオリティ値の平均値の1塩基ごとの変化を折れ線グラフで表してください。

    回答 2022-05-25 Saki212b
    回答 2022-03-10 Saki


練習問題 fq00021

描画ライブラリを利用してグラフを描いてみます。ある細菌は40分に1回の割合で細胞分裂を行い、安定して増殖を続けるものとします。この理想的な条件下、分裂直後の1細菌が1兆を超える細胞数になるますでに何日かかるか、40分毎に細胞数を確認するプログラムを書いて調べてください。また、そこまでの増殖の様子を、横軸を時間、縦軸を細胞数として描画してください。

    回答 2023-06-27 Iku
    回答 2022-02-23 Saki212b
    回答 2022-07-05 Hitomi


練習問題 fq00078

ゲノムにおける遺伝子アノテーションを記述するGTFファイルについて理解を深めます。トラフグTakifugu rubripesのGTFファイルを取得し、そこからタンパク質翻訳領域のみを取り出したBEDファイルを作成してください。BEDファイルのname列には重複しない名称を、score列には独自に工夫して何らかの数値を、そしてstrand列まで書き込んで出力してください。

    回答 2022-06-26 Kohji
    回答 2022-02-28 Saki
    回答 2023-06-26 Iku
    回答 2022-06-21 Saki212b


練習問題 fq00069

公開されているゲノム塩基配列を取得して簡単な処理を試してみます。INSDCのいずれかのデータベースから分裂酵母Schizosaccharomyces pombeのゲノムアセンブリ配列、または参照配列をダウンロードし、各染色体やミトコンドリアDNA、コンティグ等の配列に対して、名前に加え、独自にサイズとG+C含量を計算して表にまとめてください。またゲノムアセンブリの評価に使われるN50の計算方法を理解した上でアルゴリズムを考案して計算してください。

    回答 2022-02-15 Saki
    回答 2022-07-25 Saki212b
    回答 2022-02-12 Kohji
    回答 2023-06-21 Iku
    回答 2022-02-20 Aki


練習問題 fq00060

NCBI RefSeqのデータをダウンロードしてテキスト処理し、GenBank形式のファイルを扱ってみます。NCBIでは登録された塩基配列やアミノ酸配列のデータを冗長性のない参照配列として独自にまとめ、RefSeqとして公開しています。その中から、ゼブラフィッシュの転写産物データを全てまとめてダウンロードしてください。5万エントリ以上あると思いますが、その中でXM_やXR_で始まるアクセッション番号のエントリは無視し、NM_またはNR_で始まる配列のみを対象とします。それぞれについて、アクセッション番号、遺伝子名または転写産物名、rRNAなど分子の種類、翻訳領域の範囲、染色体番号、Gene IDを取り出し、タブ区切りテキスト等の表にまとめてください。

    回答 2022-01-25 Saki
    回答 2023-05-29 Iku
    回答 2022-07-13 Hitomi
    回答 2022-09-12 Saki212b
    回答 2022-01-29 Kohji


練習問題 fq00009

連想配列を利用したプログラミングを行います。連想配列はPerlのハッシュ、Pythonの辞書といったデータ構造で、今回は添字に文字列を使うことを想定しています。入力されたDNAあるいはRNA塩基配列を翻訳するプログラムを、この連想配列を利用して作ってください。翻訳を開始する位置はデフォルトで先頭から、数値が与えられた場合は先頭から数えてその塩基からとします。連想配列がない場合は、似たデータ構造を自身で作って対応してください。

    回答 2022-06-17 Hitomi
    回答 2022-02-27 Maiko
    回答 2022-01-22 Kohji
    回答 2023-05-24 Iku
    回答 2022-08-08 Saki212b
    回答 2022-01-17 Saki


練習問題 fq00006

テキストファイルの入出力のプログラミングを行います。まず塩基配列をFASTA形式でテキストファイルに保存してください。このファイル名を何らかの形で指定し、標準入力を介さずに読み込みます。FASTA形式でなかった場合は、標準エラー出力にメッセージを表示し、実行を止めてください。問題がなければ、塩基配列を扱うライブラリやモジュールなどを使わずに独自の文字および文字列処理を行って相補配列に変換、FASTAヘッダを適当な文字列に変更し、相補鎖の5'側から3'側に向かう塩基配列を標準出力を利用せず、別な新規テキストファイルに入力と同じFASTA形式で出力してください。入力データについては例えば以下のURLから得られるデータを NM_001167589.fna などと保存して利用してください。 https://www.ncbi.nlm.nih.gov/nuccore/NM_001167589?report=fasta&format=text

    回答 2022-02-24 Shunpei
    回答 2022-01-13 Saki
    回答 2022-06-17 Hitomi
    回答 2022-01-14 Kohji
    回答 2022-04-25 Fuka
    回答 2023-05-23 Iku
    回答 2022-09-23 Saki212b
    回答 2022-02-06 Maiko
    回答 2022-03-04 Mika


練習問題 fq00003

標準入力、標準出力、標準エラー出力を理解した上で、入出力のプログラミングを行います。DNA塩基配列と空白類文字のみから成る文字列またはテキストファイルを標準入力から読み込み、1文字ずつ確認して処理を行うプログラムを書いてください。T、C、A、Gそれぞれが何塩基含まれているか、M、R、W、S、Y、K、V、H、D、B、Nの場合は全てまとめてその他として数え、標準出力に出力してください。塩基は大文字であっても小文字であっても数えます。空白、タブ、改行、復帰文字は無視します。それ以外の文字が現れた場合は、何文字目に現れたかを添えて標準エラー出力にメッセージを表示し、実行を途中で止めてください。

    回答 2022-01-11 Saki
    回答 2022-01-08 Kohji
    回答 2023-04-27 Iku
    回答 2022-02-11 Fuka
    回答 2022-01-13 Aki
    回答 2022-01-24 Maiko
    回答 2022-06-17 Hitomi
    回答 2022-01-16 Shunpei
    回答 2022-01-14 Mika



登録名
パスワード
練習問題
回答URL
回答

未入力の状態で をクリックすることで回答を提出する方法を確認することができます。
生命情報学コース