Die SDSS | ||
![]() | ||
Die Teleskope | ||
Die Instrumente | ||
Die Daten | ||
- Bilder | ||
- Fachwortschatz | ||
- Spektren | ||
- Datenbanken | ||
Erste Entdeckungen | ||
Datenfreigabe | ||
Details der Daten | ||
www.sdss.org |
Die Verarbeitung der Daten![]() In einer klaren, dunklen Nacht, berührt Licht, das seit einer Milliarde Jahren durch das All unterwegs war, eine Bergspitze in New Mexiko, und dringt in die hochentwickelte Geräteausstattung des 2,5 Meter Teleskops der SDSS ein. Das Licht beendet seine Existenz in Form von Photonen, aber es lebt weiter in den Daten, als digitale Bilder, die auf einem magnetischen Band aufgenommen werden. Jedes Bild besteht aus unzähligen Pixel (Bildelementen); jedes Pixel fängt die Helligkeit von jedem winzigen Punkt unseres Himmels ein. Aber der Himmel setzt sich nicht aus Pixel zusammen. Die Aufgabe der Datenmanager der Sloan Digital Sky Survey besteht darin, die digitalisierten Daten zu nehmen - die Pixel, die auf der Bergspitze in New Mexiko elektronisch verschlüsselt wurden - und sie in reelle Informationen über tatsächliche Dinge umzuwandeln. Astronomen verarbeiten die Daten, um Informationen zu gewinnen, die sie dafür nutzen können, die Eigenschaften von Sternen und Galaxien zu identifizieren und zu messen. Die Astronomen müssen fähig sein die Helligkeit der Himmelsobjekte zu erfassen, zu differenzieren und zu messen, um danach die Sterne, Galaxien und Quasare in einem Verzeichnis zu sammeln. Computerexperten sehen das Projekt so, als ob man ein Telefonbuch von Manhattan für den Himmel anlegen würde. Jeder Stern ist wie eine Person in dem Telefonbuch, mit einem Namen und einer Adresse. Es gibt selbst so was wie die Gelben Seiten in dem Himmelsverzeichnis: die Spektraldurchmusterung, ein Bereich, der eine kleinere Anzahl an Einträgen enthält, aber mit detaillierteren Informationen. Die digitalisierten Spektraldaten beinhalten Informationen über die Geschwindigkeit von Galaxien, mit der sie sich von der Erde entfernen, aus welcher wir berechnen können, wie weit entfernt sie sind. Die Wissenschaftler müssen zunächst die Daten sehr schnell verarbeiten (innerhalb einer Woche), da die SDSS Astronomen die Informationen brauchen, um ihr Teleskop so effizient wie möglich während der nächsten dunklen Mondphase, auszurichten. Wenn zu viel Zeit vergeht, gehen die Zielobjekte während der Jahreszeit unter. ![]() Die Wissenschaftler vom Fermilab haben das Bestreben geleitet, das zu entwickeln, was die SDSS Datenverarbeitungs-Pipelines nennt. Eine Pipeline ist ein Computerprogramm, das digitalisierte Daten automatisch verarbeitet, um bestimmte Informationen heraus zu filtern. Der Begriff "Pipeline" deutet den automatisierten Charakter der Datenverarbeitung an; die Daten "fließen" ohne menschliche Einmischung durch die Pipelines. Zum Beispiel bestimmt die Astrometrische Pipeline, die von Computerwissenschaftlern am U.S. Naval Observatorium erstellt wurde, die absolut präzisen zweidimensionalen Positionen der Sterne und Galaxien im Himmel. In diesem Fall gehen die digitalisierten Daten von den Photonen, die das 2,5 Meter Teleskop erreichen, in das eine Ende der astrometrischen Pipeline, und die objektiven Positionen kommen auf der anderen Seite heraus. Dazwischen, entlang der Pipelinelänge, wandelt die Software Pixel in tatsächliche Informationen um. Die Datenpipelines sind eine gemeinschaftliche Leistung. Wissenschaftler der Princeton University haben eine photometrische Pipeline gebaut, und Wissenschaftler der University of Chicago erstellten eine spektroskopische Pipeline. Der Beitrag von Fermilab beinhaltet die Monitor-Teleskop Pipeline und die Pipeline, welche die Kandidaten für die spektroskopische Durchmusterung auswählt. Fermilab stimmt auch die reibungslosen Arbeitsvorgänge von all den Pipelines ab. Die Informationsverarbeitung beginnt für die SDSS wenn die CCDs Licht aufgefangen haben. Geladene "Eimer" werden zu digitalisierten Signalen umgewandelt, und auf Band am Observatorium festgehalten. Die Bänder wandern per Eilbote vom Apache Point zum Fermilab. Sie gehen in das Feynman Computerzentrum des Fermilab, wo ihre Daten gelesen und in etliche Pipelines geschickt werden: spektroskopische Daten in die spektroskopische Pipeline, Monitor-Teleskop Daten in die Monitor Pipeline und darstellende Daten in die astrometrische und photometrische Zielauswahl, und zwei weitere Pipelines. Informationen über Sterne, Galaxien und Quasare kommen dann aus den Pipelines raus. Diese Information ist in der Unternehmensdatenbank erfasst, die in Fermilab und dem Naval Observatorium geschrieben wird, welche die nötigen Informationen darüber sammelt, um Sky Survey am laufen zu halten. Schließlich werden die Experimentatoren die Informationen aus der Unternehmensdatenbank an die wissenschaftliche Datenbank weiterreichen, die von den Wissenschaftlern an der Johns Hopkins Universität entwickelt wurde. Die wissenschaftliche Datenbank wird die Daten bereitwillig den Wissenschaftlern an dem Projekt zur Verfügung stellen. Der SDSS FachwortschatzUm zu begreifen, wie Daten verarbeitet werden, hilft es die Fachbegriffe zu verstehen, die die SDSS Wissenschaftler anwenden, um die Daten zu beschreiben:
Eine Scanline sind Daten von einer einzelnen
CCD Reihe, die denselben Bereich des Himmels abtastet. Jede der fünf CCD Reihen befindet
sich in einem Dewargefäß: jedes Dewargefäß hat 6 Reihen von CCDs, die durch 80% der CCD-Breite
voneinander getrennt sind. Das Himmelsgebiet, das von den 6 CCD Reihen, oder auch "Camcols", abgetastet
wird, heißt Streifen. Ein bestimmter Himmelsbereich wird so abgebildet, dass
zwei aufeinanderfolgende Abbildungen gemacht werden, die beinahe eine CCD Breite versetzt sind,
um einen Streifen auszufüllen.
Der Datenstrom von einem einzelnen CCD in einer Scanline wird in
eine Folge von Bildern zerlegt, die 2048 x 1489 Pixel messen, und sich 10%
mit den anschließenden Bildern überschneiden. Die Bilder in den fünf
Filtern, über demselben Teil des Himmels, werden Felder genannt.
Ein Lauf ist die Folge von Daten, die von einem ununterbrochenen
Durchlauf des 2,5 m Teleskops über den Himmel gesammelt werden, und einen
Streifen abdecken. Normalerweise dauert ein Lauf einige Stunden.
Die Bilder
Die astrometrischen Kalibrierungen (weisen jedem Objekt exakte Koordinaten zu)
werden von astrometrischen Pipelines (Astrom) durchgeführt. Die photometrischen
Kalibrierungen (welche den Zustand der Atmosphäre während eines jeden
Laufs messen) werden von den Monitor-Teleskop Pipelines (MT) gemacht. Weil die
Sterne, die in diesen Kalibrierungen verwendet werden, zu hell sind, um mit dem
2,5 m Hauptteleskop beobachtet zu werden, betrachtet man Himmelsabschnitte, die
die 2,5 m Abtastungen überdecken, mit dem Monitor Teleskop. Diese zusätzlichen
Füllstücke, werden dazu verwendet, um das photometrische MT System an die
2,5 m Hauptbeobachtungen zu binden.
Die photometrische Pipeline (Photo) wandelt die darstellenden Daten in Informationen über die Himmelsobjekte, um. Die Photo besteht aus drei aufeinanderfolgenden Pipelines. Die letzte dieser Art, die Bilder-Pipeline, arbeitet an unabhängigen Reihen von fünf Bildern, die ein Feld abdecken. Die Photo korrigiert jedes Bild von Fehlern (schlechte Spalten, kosmische Lichtstrahlen etc.), beseitigt den Detektorhintergrund und Anfälligkeitsvariationen, findet Objekte auf zwei Stufen (hell und schwach), sucht nach Objekten mit niedrigeren Oberflächenhelligkeiten, und kombiniert die Objekte in den fünf Filtern. Dann misst die Photo die Objekte (Position, Größe, Form, Auszählung), klassifiziert sie, löst zusammengesetzte Objekte auf, um Informationen über die einzelnen Bestandteile zu bekommen, und schneidet Atlasbilder. Dann schreibt Photo eine Reihe von Ausgaben: Tabellen von gemessenen Parametern, korrigierte Bilder, Himmelsbilder, welche vier Pixel breite Quadrate mit einzelnen Objekten sind, Atlasbilder, Maskenbilder (um solche Fehler abzudecken, wie durchtränkte oder eingefügte Pixel), und Zusammenfassungen von Statistiken für jedes Bild.
Um diese Berechnungen auszuführen, muss die Bilder-Pipeline die
Eigenschaften der Detektoren und des Himmelshintergrundes wissen. Diese Eigenschaften
werden von der Postage Stamp Pipeline (PSP) ausgerechnet, welche diese Anzahl für den
gesamten Lauf berechnet, und sie in die Mitte jedes Bildes einfügt. Die PSP verwendet
Ausschnittsbilder von hellen (aber ungesättigten) Sternen, sortiert schlechte Sterne
aus (doppelte Sterne, etc.), und berechnet die Parameter einer einfachen punktgestreuten
Funktion (PSF) - die Form eines Himmelsbildes. Die Ausschnitte werden von der Serial
Stamp Collecting Pipeline (SSC) gemacht, die ebenfalls die Bilder in ein Feld anpasst.
Die unteren Abbildungen zeigen Beispiele von einigen Verarbeitungsschritten, die auf einem
Teil eines einzigen Bildes ausgetragen werden. Um ein größeres Bild zu erhalten, klicke
jede Abbildung an.
Haben die Bilddaten erst einmal diese Pipelines durchlaufen, können die Bilder von den fünf Filtern zusammengesetzt werden, um wunderschöne Farbbilder zu erzeugen, die auf dieser Seite verfügbar sind. Zudem sind alle gemessenen Parameter aller Objekte in einer Datenbank gespeichert, so dass Astronomen Objekte suchen können, für die sie sich näher interessieren. Spektren
Die spektroskopischen Untersuchungen haben drei Absichten:
Die spektroskopische Datenpipeline wurde entwickelt, um diese wichtigen Maße
zu ermitteln.
Wie die Bilddaten werden die spektroskopischen Daten von einer
großen Pipeline verarbeitet, welche die Eingabedaten der CCDs nimmt, und ein
völlig verarbeitetes Spektrum ausgibt. Der erste Teil der Pipeline betrifft
die Korrektur der Detektorprobleme und Charakterisierungen. Diese Verbesserungen
erfordern eine Anzahl weiterer Daten:
Des weiteren wird eine Korrektur vorgenommen, wegen der Abschöpfung der
Erdatmosphäre (Erdkorrektur) und der Doppler-Verschiebung, aufgrund
der Erdbewegung um die Sonne (heliozentrische Korrektur).
Sind erst einmal all diese Korrekturen angewendet, entnimmt die
Pipeline einzelne Objektspektren, und erzeugt dann ein eindimensionales
Spektrum (Fluss als eine Wellenlängenfunktion) für jedes Objekt.
Diese eindimensionalen Spektren müssen auf Wellenlängen geeicht sein, ihre
roten und blauen Hälften müssen hinzugefügt werden, und dann kann das
Spektrum identifiziert werden.
Die letzte Aufgabe der Spektralermittlung ist wichtig, aber schwierig.
Die Spektren von Galaxien können stark schwanken, und Spektren für Sterne,
Quasare und andere Objekttypen sehen unterschiedlich aus. Nicht nur dass die
wesentlichen Eigenschaften dieser Objekte voneinander abweichen, sondern sie
können auch ganz andere Rotverschiebungen haben, was bedeutet, dass wir einen
anderen Teil ihres Spektrums betrachten. Um all diese Spektren zusammen zu reimen,
versucht die Software erst einmal alle Emissionslinien zu finden (Spektralbesonderheiten
aufgrund von der Emission spezieller Lichtwellenlängen von Atomen oder Molekülen)
und sie festzulegen. Dann wird das gesamte Spektrum mit einer Reihe von Vorlagen
verglichen - gewöhnliche Spektren von verschiedenen Sorten von Objekten - die
prüfen, wie gut das Spektrum zu jeder Vorlage mit unterschiedlichen Rotverschiebungen
passt. Die beste Übereinstimmung sagt uns, was für einen Objekttyp wir betrachten, und
gleichzeitig auch die Rotverschiebung des Objekts.
Die Datenbanken
Der logische Aufbau der DatenbankenDie verarbeiteten Daten werden in Datenbanken gespeichert. Der sinngemäße Aufbau einer Datenbank enthält fotografische und spektrografische Objekte. Sie sind organisiert in ein Paar von Schneeflocken-Übersichten. Ausgewählte Ansichten und viele Verzeichnisse ermöglichen einen bequemen Zugang zu den herkömmlichen Untermengen (so wie Sterne und Galaxien). Vorgänge und Verzeichnisse sind so festgelegt, dass sie regionale Zugriffe zuverlässig und schnell ermöglichen.
Da sich die Datenverarbeitungssoftware erheblichen Umänderungen seit dem Beginn der Durchmusterung unterziehen musste, speichern wir zwei verschiedene Versionen von unseren bearbeiteten Bildern. Zum einen speichern wir die Version der verarbeiteten Daten, die seit dem Moment eingefroren wurde, an dem die Ziele für die spektroskopischen Untersuchungen ausgewählt wurden. Diese Datenbank heißt TARGDR1, wobei DR1 die Versionsnummer bezeichnet: Datenfreigabe 1 (Data Release 1). Als die Daten mit der besten verfügbaren Softwareversion verarbeitet wurden, speicherte man diese Objekte in die Datenbank BESTDR1. Die Darstellung der beiden Datenbanken ist identisch, und viele der Objekte kommen in beiden vor, aber aufgrund der besseren Handhabung von Störanfälligkeiten, ist die Anzahl der Objekte in BESTDR1 etwas größer.
Der technische Aufbau der DatenbankenSkyServer hat zunächst einen einfachen Ansatz von dem Aufbau einer Datenbank durchgeführt - und da dieser funktionierte, hörten wir da auf. Der Aufbau zählt auf die SQL Aufbewahrung und den Abfrageoptimierer, um all diese intelligenten Entscheidungen über Datenentwurf und Datenzugriff zu machen. Der Gesamtbetrag der Daten in den beiden Datenbanken beträgt 818 GB, und die Gesamtanzahl der Reihen überschreitet 3,4 Milliarden.
Die Datentabellen wurden alle in etlichen Ordnergruppen erzeugt. Die Datenbankdateien sind über einen einzigen RAIDO Datenträger verteilt. Jede Dateigruppe enthält etliche Datenbankdateien, die jeweils auf ungefähr 50 GB beschränkt sind. Die log-Dateien und vorläufigen Datenbanken sind auch auf dieser Platte verteilt. Der SQL Server streift die Tabellen über diese Dateien und daher über all diese Platten. Er erfasst den sequenziellen Zugriff, erzeugt die parallelen Threads, und verwendet mehrere Prozessoren, um die Daten so schnell analysieren zu können, wie die Platten sie produzieren. Egal, ob man liest oder schreibt, dieses Verfahren gibt die Zusammenfassung der Festplattenbandbreite (über 400 MB/s maximal, 180 MB/s normalerweise) ohne ein spezielles Benutzerprogramm verwenden zu müssen. Über dieses Dateigruppenstreifen hinaus, verwendet SkyServer alle vorgegebenen SQL Möglichkeiten. Es gibt keine besondere Abstimmung. Das ist das Markenzeichen des SQL Servers - das System bezweckt "keine Knöpfe" zu haben, so dass die Leistung recht gut ist. Der SkyServer ist ein Zeugnis dieses Ziels. Der persönliche SkyServer
Eine 1%ige Teilmenge der SkyServer Datenbank (in etwa 1,3 GB der SQL Server
Datenbank) hat (komprimiert) auf einer CD Platz, oder kann im Internet
runtergeladen
werden. Das beinhaltet die Webseite und all die Bilder und spektrographischen
Objekte in einem 6° Quadrat des Himmels. Dieser persönliche SkyServer passt auf
Laptops und Desktops. Es ist sinnvoll mit Erkundigungen zu experimentieren,
um die Webseite zu entwickeln und Vorführungen zu veranstalten. Im Wesentlichen
kann jedes Klassenzimmer einen kleinen SkyServer für jeden Schüler haben.
Durch die Verbesserungen der CD Technik, wird bis 2005 ein größerer Teil der öffentlichen
Daten auf eine einzige CD passen.
|