Bio Seqs

Uploaded by

Bianca Silva

0% found this document useful (0 votes)

1 views2 pages

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

0% found this document useful (0 votes)

1 views2 pages

Bio Seqs

Uploaded by

Bianca Silva

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

Jump to Page

You are on page 1of 2

Search inside document

Sanger sequencing

● Golden Standard
● High quality
● Low throughput
● Large files
○ Trace files
○ How do we read these?
■ CutePeaks
■ SeqTrace

"Low Throughput" Sequence formats

Some of the most frequent file formats

● ASTA
F
● GB
● MEGA
● ALN
● NEXUS
● PHYLIP

DNA sequence databases

● NCBI (USA)
● ENA (Europe)
● DDBJ (Japan)
○ Data repositories
○ Replicated
○ Queryable

Storage vs alignment

● FASTA files are good for storing data

● Making the data comparable is something else
● For that, we need alignments
○ Each base in our sequence needs to be aligned so that their positions are
comparable
● Some formats are designed for aligned data

High throughput sequencing

● What if we need to scale things?

○ (And not spend our entire budget on sequencing)
● Unknown genome regions
○ Non-model organisms

FASTQ Format

● Each chromatogram takes 100 ~ 200 KB

○ 200M reads * 150KB = 30TB
○ Chromatograms just don't scale!
● Each FASTQ sequence is composed of 4 lines:
○ @Sequence_identifier
○ ATGCGATAGCTGACTGACTAGCT
○ + (optionally the seq_id again)
○ !''*(((((******+**,-

Assemblies

● Sequence assemblies are a huge problem

○ HTS reads come from random genome locations
○ We could use an entire semester to deal with this problem
● Two types of sequence assembly
○ Mapping assemblies (reference available)
○ Denovo assemblies (reference unavailable)

SAM/BAM Format

The "standard" way to represent assembled data

● ontain the reads and their coordinates relative to a reference / each other
C
● A BAM file is a binary version of a SAM file
● BAM files can be indexed

Designing Data Intensive Applications
Document61 pages
Designing Data Intensive Applications
Utkarsh Gupta
25% (4)
Co327 Memory Allocation
Document26 pages
Co327 Memory Allocation
ashokabc2001
No ratings yet
Memory Systems
Document36 pages
Memory Systems
Bisma Amir
No ratings yet
Lecture 6 Document Databases Data Formats
Document63 pages
Lecture 6 Document Databases Data Formats
Daniel Štěpán
No ratings yet
Distributed Databases: Daniel Marcous
Document41 pages
Distributed Databases: Daniel Marcous
Sravan Kumar Mallepoola
No ratings yet
Types of Digital Storage: Magnetic Storage Electronic/optical
Document16 pages
Types of Digital Storage: Magnetic Storage Electronic/optical
fauxrillz
No ratings yet
4 SDML Copy of Chapter 4 - Designing Data-Intensive Applications
Document5 pages
4 SDML Copy of Chapter 4 - Designing Data-Intensive Applications
anjaneyaprasad nidubrolu
No ratings yet
CLackpour HybridEssbase
Document54 pages
CLackpour HybridEssbase
biswal83
No ratings yet
Caching: Acknowledgements
Document6 pages
Caching: Acknowledgements
bob smith
No ratings yet
DBMS Storage and Indexing
Document90 pages
DBMS Storage and Indexing
Karthik_Srinan_6524
No ratings yet
Memory Sub-System: CT101 - Computing Systems
Document46 pages
Memory Sub-System: CT101 - Computing Systems
topherski
No ratings yet
3.3 HDFS
Document32 pages
3.3 HDFS
antp9254
No ratings yet
Computer Architecture
Document24 pages
Computer Architecture
biel.fernandez07
No ratings yet
Memory and Programmable Logic
Document52 pages
Memory and Programmable Logic
Moayid Aldeeb
No ratings yet
Text Mining
Document31 pages
Text Mining
Anonymous sETEf2rtz
No ratings yet
Experiences From Migrating From Oracle To PostgreSQL Vinayak Hegde Ravi Rayapati
Document22 pages
Experiences From Migrating From Oracle To PostgreSQL Vinayak Hegde Ravi Rayapati
Said Al Musayyab
No ratings yet
File Storage and Indexing: Lesson 13 Cs 3200 Kathleen Durant PHD
Document46 pages
File Storage and Indexing: Lesson 13 Cs 3200 Kathleen Durant PHD
Chu Mạnh Tuấn
No ratings yet
Computer Organization and Architecture: Cache Memory
Document57 pages
Computer Organization and Architecture: Cache Memory
Ryan R. Sarco
100% (1)
Group 6
Document41 pages
Group 6
Walid_Sassi_Tun
No ratings yet
Gatk Pipeline Presentation: From Fastq Data To High Confident Variants
Document8 pages
Gatk Pipeline Presentation: From Fastq Data To High Confident Variants
Sampreeth Reddy
No ratings yet
Characteristics Location Capacity Unit of Transfer Access Method Performance Physical Type Physical Characteristics Organisation
Document53 pages
Characteristics Location Capacity Unit of Transfer Access Method Performance Physical Type Physical Characteristics Organisation
Ronel Salazar Blanza
No ratings yet
4 - Memory
Document41 pages
4 - Memory
Aliaa Tarek
No ratings yet
COA MODULE - Memory Organization
Document43 pages
COA MODULE - Memory Organization
Desyilal
No ratings yet
Cache Memory
Document61 pages
Cache Memory
a_surange
No ratings yet
Unit 1 Part 2 (Chapter 4) Cache Memory
Document53 pages
Unit 1 Part 2 (Chapter 4) Cache Memory
NITHIYA PAUL 1847244
No ratings yet
Storing Data: Disks and Files: (R&G Chapter 9)
Document39 pages
Storing Data: Disks and Files: (R&G Chapter 9)
raw.junk
No ratings yet
William Stallings Computer Organization and Architecture 7th Edition Cache Memory
Document51 pages
William Stallings Computer Organization and Architecture 7th Edition Cache Memory
Andi Didik Wira Putra
No ratings yet
Lecture 10
Document56 pages
Lecture 10
Daim Bin Zakriya
No ratings yet
Magnetic Tapes Cd-Rom: Adil Yousif, PHD
Document31 pages
Magnetic Tapes Cd-Rom: Adil Yousif, PHD
Samahir Alkleefa
No ratings yet
Introduction To Relational Databases
Document17 pages
Introduction To Relational Databases
mysoulismolasses
No ratings yet
Electronics Notes
Document20 pages
Electronics Notes
Omar Palacios
No ratings yet
File Systems
Document64 pages
File Systems
RekhaBhandari
No ratings yet
GDC2003 Memory Optimization 18mar03
Document60 pages
GDC2003 Memory Optimization 18mar03
chegu.balaji
No ratings yet
Syntax Analysis
Document49 pages
Syntax Analysis
shvdo
No ratings yet
Characteristics Location Capacity Unit of Transfer Access Method Performance Physical Type Physical Characteristics Organisation
Document53 pages
Characteristics Location Capacity Unit of Transfer Access Method Performance Physical Type Physical Characteristics Organisation
api-26594847
No ratings yet
File Formats in Big Data
Document13 pages
File Formats in Big Data
Meghna Sharma
No ratings yet
William Stallings Computer Organization and Architecture 7th Edition Cache Memory
Document64 pages
William Stallings Computer Organization and Architecture 7th Edition Cache Memory
rooop sagar Gaimnani
No ratings yet
HDFSArchitecture
Document15 pages
HDFSArchitecture
abdfajar
No ratings yet
DSAP-Lecture 5 - Array Based Sequences
Document45 pages
DSAP-Lecture 5 - Array Based Sequences
Annisa Nurfadilah
No ratings yet
Arm A55 Cortex: Austin Bae, Harrison Ding 12/5/2018
Document16 pages
Arm A55 Cortex: Austin Bae, Harrison Ding 12/5/2018
Bhaskara Reddy Meruva
No ratings yet
x86 Assembly Tutorial
Document22 pages
x86 Assembly Tutorial
Promix Inc.
No ratings yet
Memory and Registers
Document24 pages
Memory and Registers
Hadija
No ratings yet
William Stallings Computer Organization and Architecture 7th Edition Cache Memory
Document66 pages
William Stallings Computer Organization and Architecture 7th Edition Cache Memory
Sanket Gawde
No ratings yet
EE6304 Lecture8 Mem Hierarchy
Document54 pages
EE6304 Lecture8 Mem Hierarchy
Ashish Soni
No ratings yet
Lecture15 Fall
Document102 pages
Lecture15 Fall
Faruk Karagoz
No ratings yet
Unitv Part1
Document53 pages
Unitv Part1
devileela921
No ratings yet
William Stallings Computer Organization and Architecture 7th Edition Cache Memory
Document57 pages
William Stallings Computer Organization and Architecture 7th Edition Cache Memory
Mashail Ali
No ratings yet
Solid State Storage Deep Dive
Document31 pages
Solid State Storage Deep Dive
Jeyakumar Narasingam
No ratings yet
Part II - NetApp Training (L1 + L2)
Document109 pages
Part II - NetApp Training (L1 + L2)
bharath
100% (2)
Programmable Logic Devices
Document37 pages
Programmable Logic Devices
Ms.DEVI P
100% (17)
CUDA Memory Architecture: GPGPU Class Week 4
Document28 pages
CUDA Memory Architecture: GPGPU Class Week 4
Kryder Origin
No ratings yet
DLD Week-14
Document24 pages
DLD Week-14
aleemabdullah96
No ratings yet
DDR4 Sdram
Document29 pages
DDR4 Sdram
Karishma Potnuru
No ratings yet
Chapter 5 Memory Organization
Document75 pages
Chapter 5 Memory Organization
endris yimer
No ratings yet
Chapter 12
Document23 pages
Chapter 12
Hein Htet
No ratings yet
11 Cache Memory, Internal, External
Document102 pages
11 Cache Memory, Internal, External
bezelx1
No ratings yet
William Stallings Computer Organization and Architecture 7th Edition
Document57 pages
William Stallings Computer Organization and Architecture 7th Edition
Athreya
No ratings yet
AsliConf Mongodb
Document46 pages
AsliConf Mongodb
trip06072023.kerala
No ratings yet
Cache Memory
Document57 pages
Cache Memory
navjotkaurbatth014
No ratings yet
Mastering Data Structures and Algorithms in C and C++
From Everand
Mastering Data Structures and Algorithms in C and C++
Sachin Naha
No ratings yet