Der folgende Text enthält das Hintergrundwissen, das in Hifi-Apps "eingearbeitet" ist, um nach den Messungen und Hörtests die Verbesserungsvorschläge zu berechnen.
Im Vergleich zur Original Literatur handelt es sich dabei schon um eine Kurzfassung. Gerade wegen des so umfangreichen vorhandenen Wissens entstand letztlich auch die Idee, einiges davon in Hifi-Apps unterzubringen und zu automatisieren - so dass der Benutzer die wichtigsten Optimierungen auch ohne Vorkenntnisse durchführen kann. Die Lektüre ist in diesem Sinne also freiwillig. Viel Vergnügen.

Wer soll das alles lesen?

Alle, die ein gewisses technisch-naturwissenschaftliches Interesse haben und demzufolge Hifi-Apps nicht blind verwenden möchten. Alle, die wissen, dass man ein System besser anwenden kann, wenn man weiß, was "im Hintergrund" passiert. Alle, die Hifi-Apps in ungewöhnlichen Situationen anwenden und deshalb die vorgegebenen Standard-Einstellungen ändern müssen.

Musikwiedergabe - auch mit dem hochwertigsten verfügbaren Equipment - unterscheidet sich immer deutlich vom Original. Hier werden verschiedene physikalische Effekte erläutert, die dafür verantwortlich sind und wie das Wissen darüber in Hifi-Apps eingearbeitet ist. Das soll Niemanden den Spaß verderben, Musik auf höchstmöglichem Niveau zu genießen - welche Priorität technische "Waveform Fidelity" dabei hat, ist von Mensch zu Mensch sehr unterschiedlich. Wer Freude daran hat, sein System immer weiter zu optimieren sollte diesen technischen Aspekt aber nicht aus den Augen verlieren.

Die aufgeführten Effekte beschränken sich auf das, was Hifi-Apps auch messen kann. Sie sind bei weitem nicht vollständig: Andere Kabel, Kondensatoren oder Röhren können ein völlig neues Hörerlebnis erzeugen, obwohl sich die Messwerte nicht nennenswert ändern.

Auch einige grundsätzliche Einschränkungen bei der Musikwiedergabe sollte man im Kopf behalten: Kein Lautsprecher strahlt je nach wiedergegebenem Musikinstrument richtungsgebunden wie dieses Instrument ab (Trompete nach vorne, Geige nach oben). Das Wellenfeld eines Konzertsaals kann nicht rekonstruiert werden. Auch nicht mit vielen Lautsprechern in Surround Systemen und mit den wenigen Kanälen einer gängigen Musikaufnahme schon gar nicht.

Auch wenn man sich auf einen einzelnen Hörplatz einschränkt und das Signal elektronisch korrigiert (z.B. mit FIR oder IIR Filtern) ist das Ergebnis weit entfernt vom Original: Die Musikinstrumente müssen an Plätze abgebildet werden, wo i.d.R. kein Lautsprecher steht. Die Erzeugung solcher Phantomschallquellen liefert aber schon je nach Aufnahme Methode verschiedene Ergebnisse. Da der Schall aus den Lautsprechern und nicht von der Stelle kommt, wo die Phantomschallquelle sein soll, wird sich die Ortung auch je nach Frequenz und Kopfbewegung (Stichwort: Head-Related Transfer Function) ändern.

Fazit ist, dass gegenwärtige Messmethoden das Gehörte und Empfundene nur teilweise abbilden können. Generell sind einige gut messbare physikalische Größen bei der Wiedergabe erstaunlich unwichtig für das Hörerlebnis, während andere, deutlich hörbare (und im Blindtest bestätigte) Merkmale bei heute üblichen Messungen kaum sichtbar sind. Die aktuelle Forschungen im Bereich der Psychoakustik untersuchen derartige Zusammenhänge.

Hifi Apps baut auf diese Erkenntnis auf: Nach der Messung werden angepasste Testtöne für Hörtests erzeugt, so dass der User beurteilen kann, wie wichtig eine gefundene Resonanz, Reflexion, Unregelmäßigkeit in der Laufzeit etc. für sein Hörempfinden wirklich ist.

Unsere Grenzen oder: Der akustischer Vorhang

In einem Gedankenexperiment aus den 1930er Jahren wurde die ideale Anlage zur Musikwiedergabe ersonnen: Ein Orchester spielt hinter einer schalldichten Wand, in die nach und nach Löcher gebohrt werden. Die Zuhörer hören das Orchester also immer besser - ab einer bestimmten Anzahl von Löchern wird es sich für Alle wie "ohne Wand" anhören.

Jetzt werden die Löcher durch (gedachte) verzerrungsfrei arbeitende Mikrofon-Aufnahmegerät-Lautsprecher Kombinationen ersetzt. Das Orchester kann jetzt zeitversetzt spielen und man erhält so die ideale Reproduktion.

Leider gibt selbst dieser gedankliche (ohnehin praktisch kaum realisierbare) Aufbau das Original nicht 1:1 wieder. Er müsste dazu aus sehr vielen sehr kleinen Lautsprecher-Mikrofon Kombinationen bestehen. Sowie man von einer technisch realisierbaren Größe ausgeht (sagen wir eine Wand der Größe 3 x 5 m mit 1500 Kanälen, die 10x10 cm große Lautsprecher ansteuern), werden Wellen unterhalb der Größenordnung (hier 10 cm bzw. 3 kHz) gemäß der Abstrahlcharakteristik der Chassis abgestrahlt - die Synthese des Wellenfeldes nach dem huygenssches Prinzip ist damit gestört und das Gedankenexperiment gescheitert.

Wo setzen Hifi-Apps an?

Glücklicherweise gibt es physikalische Größen, die gut messbar sind und (meistens) auch starken Einfluss auf das Hörerlebnis haben. Bekanntestes Beispiel ist wohl der Frequenzgang. In den folgenden Abschnitten werden alle Messgrößen erläutert, die in Hifi-Apps verwendet werden.

Im Zusammenspiel von Lautsprechern und Hörraum entstehen durch Reflexionen, Resonanzen usw. verschiedene Effekte, die das Hörerlebnis positiv oder negativ beeinflussen können. Hifi-Apps bestimmt aus den Ergebnissen von Messungen und Hörtests welche dieser Effekte korrigiert werden sollten und schlägt Verbesserungen vor.

Verschiedene Bereiche von Frequenzgang und Nachhallzeit sind dabei für vollkommen unterschiedliche Effekte verantwortlich. Die hier vorgenommene Unterteilung richtet sich nach hauptsächlich nach den weiter unten zitierten Artikeln von Toole und Griesinger. Die Bereiche, in denen die verschiedenen Effekte auftreten, überlappen teilweise.

Schließlich bleibt aber in jedem Fall ein Ermessensspielraum: Live Aufnahmen enthalten bereits die die akustischen Eigenschaften des Konzertsaals und Studio Aufnahmen können in vergleichbarer Weise aufbereitet sein. So gesehen sollte der Hörraum nicht auch noch "mitspielen", also möglichst reflexionsarm sein, insbesondere wenn diese Signale durch Surround Systeme ohnehin zugefügt werden. Auf der anderen Seite sind bestimmte Raumeinflüsse wünschenswert für mehr "Livehaftigkeit". Es ist seit langem etabliert, dass das Fehlen von Raumreflexionen bei normaler Stereo Wiedergabe nur einen "flachen frontalen Klang" [Griesinger 1999] produziert.

Hifi-Apps haben nicht die Vermessenheit, hier eine "Absolute Wahrheit" vorzugeben. Innerhalb des genannten Ermessensspielraumes findet keine Wertung statt und der Spielraum selber lässt sich im Setup ändern. Und "letzte Instanz" ist immer der Hörtest.

Bassbereich bis ca. 150 Hz

Der Bereich unterhalb von 20 Hz kann im Gaming- oder Home Theater Bereich für Vibrationseffekte verwendet werden. Hifi-Apps beginnen die Messungen bei 20 Hz oder höher.

LFE vs. Subwoofer

Der Bereich bis ca. 120 Hz wird manchmal (z.B. bei 5.1-channel audio - Dolby Digital film) über einen separaten Kanal übertragen: Low-Frequency Effects (LFE). LFE ist nicht das selbe wie "Subwoofer", vielmehr wird das LFE Signal 10 dB höher abgemischt, damit auch bei drei Front- und mehreren Surround-Lautsprechern eine klangliche Balance zu deren Musik-Signalen hergestellt ist [ What is the LFE channel?].

Die üblichen Subwoofer-Ausgänge von Verstärkern können durch das LFE-Signal und/oder die tieffrequenten Anteile der restlichen Kanäle angesteuert sein, können aber auch (im "Pure Direct" Modus) abgeschaltet sein. Das volle Stereo Signal geht dann direkt auf den rechten und linken Front Lautsprecher.

Die Übergangsfrequenz und sonstigen Parameter werden üblicherweise so tief eingestellt, wie die Front Lautsprecher (bequem) verkraften, oft 80 Hz bei 12 dB Flankensteilheit. Vor jeder Messung muss deshalb sichergestellt sein, dass die Subwoofer korrekt angesteuert werden: Bei den meisten Messungen müssen die Subwoofer zugeschaltet sein. Ausnahmen sind Messungen zur Ermittlung der oben genannten Übergangsparameter.

Eine Schallquelle mit weniger als 80 Hz ist nicht lokalisierbar. Das bedeutet aber keinesfalls, dass der Aufstellungsort der Subwoofer gleichgültig ist. Erstens sind bei dieser Übergangsfrequenz und z.B. bei 12 dB Oktavensteilheit Signale mit 160 Hz nur 12 dB abgeschwächt (320 Hz entsprechend 24 dB), also noch deutlich hörbar (10 dB weniger ist subjektiv "halb so laut"), und Quellen mit diesen Frequenzen sind ortbar. Auch Strömungsgeräusche im Bass Reflexkanal und Obertöne durch Verzerrungen können hinzukommen. Evolutionär war die Ortung auch von tiefen Frequenzen für uns überlebenswichtig. Unser Gehör ist fähig, mit sehr wenig verwertbarer Information eine Ortung vorzunehmen.

Zweitens werden in diesem Bereich bei typischen Wohnräumen die sog. Raummoden angeregt: die Luft im Hörraum kann sich bei bestimmten Frequenzen aufschwingen, wie in Abb. 1 dargestellt.

Abb. 1. Die ersten Raummoden auf einer rechteckigen Fläche. In der Praxis kommt die dritte Dimensionen hinzu, wie bei [falstad] dargestellt. Am lautesten sind die Moden in den Bereichen hörbar, in denen sich die Farbkonzentration am stärksten ändert.

Unser Ohr reagiert auf Druck, d.h. die Moden sind in dem Bereich besonders hörbar, in dem die Teilchenzahl schwankt. Die Geschwindigkeit der Teilchen (Schnelle) ist nicht hörbar. Gängige Subwoofer (Bass Reflex) erzeugen ebenfalls Druckschwankungen, Schnelle wird beispielsweise durch Linkwitz-Dipole erzeugt.

Raummoden stören besonders bei langanhaltenden Bässen, da sie sich immer mehr aufschwingen. Sie nehmen kurzen Bässen aber auch die Trockenheit und Präzision: Ein hart angespielter Kick-Bass kann im ungünstigsten Fall eine Raummode so stark anregen, dass der höchste Pegel im Höreindruck verschwimmt oder sogar später wahrgenommen wird. Solche schwammigen, wummernden Verzögerungen mögen dank ihrer hohen Lautstärke anfangs beeindruckend sein, die Musik verliert dadurch aber (besonders bei geringen Lautstärken) die Akzentuiertheit bzw. den "Fußwippfaktor" oder "Punch". Natürlich ist es nicht verboten, das als "kräftigen Bass" zu genießen - der optimale Hörraum erfordert nicht die gleiche Sterilität und Neutralität wie ein Tonstudio. Dann sollte aber neben dem fehlenden Punch auch beachtet werden, dass unser Gehirn von scharfen, weit auseinanderliegenden Raummoden auf einen kleinen, beengenden Raum schließt. Ein Orgelkonzert wird niemals luftig und weiträumig klingen wie in einer Kirche, wenn sich einzelne tiefe Töne aufschaukeln. Erfahrene Hörer werden, nach einem Urteil befragt, je nach Charakter mehr oder weniger direkt äußern, dass sie mit diesem Klang minderwertiges oder falsch aufgestelltes Equipment assoziieren - egal was auf der Rechnung stand.

Die erste Wahrnehmung von Raummoden geschieht oft durch Auslöschungen "kaum Bass trotz leistungsstarkem Subwoofer". Später fallen dann auch Ungleichmäßigkeiten bei Bassläufen und mangelnde Präzision auf. Sowohl Subwoofer als auf Hörplätze sollten so positioniert sein, dass einzelne Raummoden nicht unnötig auffallen. Details hierüber finden sich in [Olive 1995], [Bech 1998].

Intuitiv erscheint es naheliegend, dass schmalbandige Raummoden mit langer Abklingzeit (technisch: hohe "Güte") besonders unangenehm auffallen. Vorherrschende Meinung ist, dass die Verringerung dieser Güte zu einem ausgewogeneren Klangbild führt. Das ist aber nicht uneingeschränkt korrekt [Toole and Olive (1988) ]. Hifi-Apps bewerten bei Frequenzgängen deshalb ausschließlich die Abweichungen [Louden]. Für "auffällige" Peaks (mit hohem Q und hoher Amplitude) wird ein gezielter Hörtest konstruiert, so dass der Benutzer selber entscheiden kann, ob er den charakteristischen Klang bereits kennt und ob er etwas dagegen etwas unternehmen möchte.

Berechnung vs. Realität

Die Raummoden lassen sich für Quader-förmige Räumen wie in Abb. 1 analytisch berechnen. Aus den Ergebnissen kann man ablesen, dass besonders wenig Druckschwankungen in der Mitte der Raumbreite und bei 38% der Raumlänge auftreten. Die möglichst "modenarme" Platzierung von Subwoofern und Hörplätzen nach dieser "38% Regel" ist in der Praxis allerdings nur versuchsweise brauchbar. Bei Wohnräumen kommen zu viele schwer einschätzbare Faktoren hinzu: Das Ergebnis wird durch Aufstellungsort von Subwoofer(n), Dämmung, Möblierung, Türen und Fenster stark verändert. Eine quantitative Erfassung all dieser Faktoren ist kaum realisierbar. Ein anderer Ansatz für die Aufstellung der Lautsprecher ist die "1/5 Regel". Danach soll sich die Membran des Lautsprechers z.B. bei 5 m Raumlänge (in der Richtung in die der Lautsprecher abstrahlt) 1 m vor der Wand befinden. Manchmal wird auch die 2/5 Regel vorgeschlagen, was nahe an 38% liegt. Oder einfach "mindestens 1 Meter von der Wand entfernt". Das sind ebenfalls sinnvolle Ansätze für einen Testlauf aber keine allgemeingültigen Rezepte.
Theoretisch ließen sich auch komplexere Räume (mit numerischen Methoden) berechnen. Das ist aber nur für genau definierte Massenprodukte (z.B. Verbrennungsmotoren mit zugehörigem Abgas System) sinnvoll.
Die berechneten Werte für einen kubischen Raum können aber durchaus für eine erste Orientierung verwendet werden: Wenn die längste Strecke zwischen parallelen Wänden 4m / 5m / 6m beträgt, sind keine Raummoden unterhalb von ca. 34 Hz, 29 Hz, 24 Hz zu erwarten. (Die akustische Größe eines Raumes ist typischerweise 10%-20% größer als seine Abmessungen, da sich Türen, Fenster und Wände durchbiegen.) Letztlich zählen aber nur die gemessenen Werte und Hörtests. Verschiedene Autoren [Peter 2013] habe reale Hörräume durchgemessen und die Ergebnisse mit Computersimulationen vergleichen, die eng verwandt mit den oben beschriebenen Modellen sind. Auch eigene Vergleiche zwischen Messungen und Berechnungen wurden durchgeführt. Die Ergebnisse lassen sich wie folgt zusammenfassen:

Raummoden aus idealisierten Berechnungen, wie in Abb. 1 animiert, geben Anhaltspunkte über die räumlichen Größenordnungen der Lage von Minima und Maxima.

Die Lage der Minima und Maxima stimmt nicht zuverlässig mit den Vorhersagen des Modells überein. Insbesondere in der Nähe der Schallquelle bilden sich eher konzentrische Kreise um diese herum.

Berechnungen, die die Position der Quelle und die Dämpfung an den Wänden mit einbeziehen, liefern Ergebnisse, die (zumindest bei quaderförmigen Räumen) sichtbare Übereinstimmungen mit den Ergebnissen liefern.

Dadurch wird die Berechnung aber so komplex, dass man die gemessenen Effekte nicht mehr (wie in Abb. 1) durch einfaches Hinsehen erklären kann.

Der zweite Punkt der Ergebnisse war so zu erwarten - andernfalls wäre die Verwendung mehrerer Subwoofer sinnlos. Verwendbar für Hifi-Apps ist dagegen die Erkenntnis über die Größenordnungen: Anhand der Messwerte kann der Benutzer angehalten werden, die Lautsprecher, Hörplätze oder Dämmelemente um einen angemessenen Betrag in die höchstwahrscheinlich aussagekräftigste Richtung zu verschieben. Er muss danach allerdings eine neue Messung starten. Verbesserungsvorschläge allein aufgrund einer Abschätzung des Ergebnisses ohne Messung wären zu unzuverlässig.

Eine quantitative Berechnung des Hörraumes ist auch im Studio-Bereich nicht üblich. Eine Interpretation der berechneten oder gemessenen Ergebnisse im Sinne "der Peak bei x Hz kommt durch Raumeigenschaft y" ist nur in Ausnahmefällen möglich.

Hifi-Apps sind darauf ausgelegt, Messungen an vielen Punkten im Raum hintereinander durchzuführen. Die Positionsbestimmung erfolgt anhand der Schalllaufzeiten automatisch und die Ergebnisse werden automatisch gespeichert. Dadurch lässt sich relativ schnell eine frequenzabhängige Schalldruckkarte erstellen, aus der man das Verhalten des Raumes direkt sehen kann. Hier die Schalldruckverteilung des selben Raumes bei 140 Hz und 170 Hz:

Die schmalen schwarz/weißen Streifen am rechten Bildrand zeigen die jeweilige Wellenlänge. Man erkennt, dass sich die Raummoden qualitativ erwartungsgemäß aufbauen, ihre wirkliche Verteilung aber doch deutlich von einer Lösung der Wellengleichung aus dem Lehrbuch abweicht.

Verbesserungsmöglichkeiten

Erst nachdem die optimale Aufstellung der Lautsprecher und/oder die optimale Aufstellung des/der Subwoofer(s) gefunden wurde und danach ermittelt wurde, welche Moden immer noch stören, sollte passendes Absorptionsmaterial bestellt werden. Grundsätzlich gibt es mehrere unterschiedliche Wege, störende Raummoden loszuwerden.

Änderung des Hörplatzes, d.h. eine Positionierung im Knoten der Moden, so dass sie nicht mehr hörbar sind.
Nicht anspielen: Der Subwoofer wird (ebenfalls) nahe einem Knoten der am meisten störenden Mode aufgestellt, dadurch wird zumindest diese nicht angeregt.
Auslöschen: Mehrere Subwoofer werden so arrangiert, dass sich die Anregungen gegenseitig auslöschen.
Dämmung: Schmalbandige Moden (mit hoher Güte) können mit Helmholz Resonatoren behandelt werden. In Foren-Diskussionen wesentlich verbreiteter sind sog. Folienschwinger. Poröse Absorber sind für die hier besprochenen sehr tiefen Frequenzen aus Platzgründen nicht sinnvoll.
"Separated Volume": Ein weiteres durch eine offene Tür verbundenes Zimmer wirkt wie ein großer Helmholz Resonator. Auch eine abgehängte Zimmerdecke mit genügend Platz über der eingezogenen zweiten Decke kann wie ein gedämpftes Feder-Masse System wirken. Die Masse der Abhängung übernimmt hier ähnlich wie beim Folienschwinger die Rolle der Luft im Hals des Helmholz Resonators.
Sound Processing: Digitale Klangbearbeitung beseitigt keine Raummode, kann ihren Pegel aber insgesamt senken, so dass zumindest an einen bestimmten Hörplatz der gewünschte Summenfrequenzgang erreicht wird.

Die Meinungen über Sound Processing sind sehr verschieden. Es sollte - wenn überhaupt - nur verwendet werden, nachdem die Akustik soweit unter Kontrolle gebracht wurde, dass alle Hörplätze zumindest einigermaßen das Gleiche hören. Andernfalls wird fast jede Verbesserung der Situation eines Hörplatzes eine Verschlechterung an einem anderen Hörplatz verursachen.

Persönliche Meinung des Autors: Einer besonders unangenehmen Raummode "erstmal" elektronisch die Energie zu nehmen, wenn der nächste größere Umbau noch in ferner Zukunft liegt, ist natürlich überlegenswert. Andernfalls kann der Klang bei manchen Darbietungen unerträglich werden. Ob es sich dann um einen "eigentlich" hervorragender Raum, ausgestattet mit bestem Equipment handelt, spielt keine Rolle. Der Klang in einem durchschnittliches Wohnzimmer, das mit Produkten aus dem Massenmarkt ausgestattet ist, wird besser sein.

Falls der Hörraum noch im Planungsstadium ist, sollte berücksichtigt werden, dass bestimmte Verhältnisse von Wandabmessungen und Deckenhöhe eine günstige Verteilung der Moden ergeben (Suchworte: Bonello, Walker Room Qualitiy index).

80 bis ca. 300 Hz - Direkte Reflexionen

In diesem Frequenzbereich sind die Wellenlängen kleiner als die Abmessungen des Raumes (4,3 m bei 80 Hz, 1,14 m bei 300 Hz), deshalb lassen sich die wichtigsten Effekt mit geometrischer Akustik verstehen: Der Schall wird hier, nachdem er sich von den Lautsprechern ausbreitet, von Wänden und Gegenständen absorbiert, reflektiert oder gestreut - wie wenn die Lautsprecher Lichtquellen und die Wände (abgedunkelte, etwas trübe) Spiegel wären. In bestimmten Fällen kann man dadurch tatsächlich das "Spiegelbild" einiger Instrumente an vollkommen falschen Stellen, z.B. hinter einer seitlichen Wand, wahrnehmen.
Viel öfter treten aber sog. Kammfilter-Effekte auf: Ein Schallsignal, das über einen Lautsprecher abgespielt wird, erreicht das Ohr zuerst auf direktem Wege, d.h. die Laufzeit (die Dauer die das Signal vom Lautsprecher bis zum Ohr braucht) entspricht dem Abstand "Lautsprecher bis Ohr" geteilt durch die Schallgeschwindigkeit. Je nach Aufbau des Lautsprechers und Beschaffenheit von Wand, Boden und Decke erreichen kurz danach reflektierte Signale das Ohr. Muss das reflektierte Signal beispielsweise einen Meter mehr zurücklegen, wird es das Ohr ungefähr 2.9 ms später erreichen (1 m / 343 m/s). Betrachtet man jetzt ein Signal mit 343 Hz, so ist auch die Dauer einer Schwingung (Periodendauer) ebenfalls 2.9 ms. Bei einem solchen Signal wird also der direkte Anteil und gleichzeitig der der reflektierte Anteil mit einer Periode Verspätung beim Ohr ankommen. Da das verspätete Signal mit dem direkten Signal "in Phase" ist, werden sich beide Anteile addieren und zusammen entsprechend lauter empfunden. Ähnliches passiert bei 2, 3, 4... Perioden Laufzeitunterschied, also der 2-fachen, 3-fachen 4-fachen Frequenz.
Bei einem Signal mit der halben Frequenz (171,5 Hz), also der doppelten Periodendauer, wird das Gegenteil passieren: Der reflektierte Anteil und direkte Anteil heben sich gegeneinander auf und es kommt zu einer Abschwächung des gehörten Signals. ähnliches passiert bei 1.5, 2.5, 3.5... Perioden Laufzeitunterschied, also der 1.5, 2.5, oder 3.5-fachen Frequenz.
Das folgende Bild veranschaulicht diesen Effekt. Der Benutzer rechts "sieht" zusätzlich zum Lautsprecher (links, schwarz) ein Spiegelbild des Lautsprechers (links, grau) hinter, unter oder über der reflektierenden Fläche, hier dem Fußboden. Die längere Laufzeit des reflektierten Schalls ist mit den roten Linien angedeutet, der direkte Schall ist durch die grüne Linie.

Ergebnis:

In Ausnahmefällen können auch bei erhebliche tieferen Frequenzen direkte Reflexionen auftreten. Voraussetzung ist, dass eine hinreichend gerade Wellenfront hinreichend senkrecht auf eine hinreichend große Wand auftrifft. Das ist beispielsweise gegeben, wenn das sich Signal von 2 Lautsprechern zu einer relativ geraden Wellenfront addiert, das auf eine Wand hinter dem Hörer auftrifft.

Verbesserungsmöglichkeiten

Bodenreflexionen treten je nach Geometrie der Lautsprecher und Hörposition bei sehr unterschiedlichen Frequenzen auf. Wie der Rechner oben zeigt, gilt die Daumenregel "Erste Auslöschung bei 80 - 120 Hz" wenn z.B. Lautsprecher und Ohren ca. 1,5 m vom Boden und 2 m voneinander entfernt sind. In den meisten Fällen dürften die Frequenzen deutlich höher liegen. Oft werden irgendwelche wellenartigen Erscheinungen im Frequenzgang in diesem Bereich falsch als Bodenreflexion interpretiert.

Hifi-Apps ermöglicht dem Benutzer deshalb die Eingabe der Entfernungen von Lautsprecher, Boden und Hörplatz und vergleicht die errechneten Werte mit dem gemessenen Frequenzspektrum. Erst wenn sich Übereinstimmungen mit einer vermuteten Reflexion zeigen, sollten Gegenmaßnahmen ergriffen werden. Dabei sollte beachtet werden, dass für tiefe Frequenzen eine verhältnismäßig dicke Dämmung erforderlich ist. Selbst ein Teppich mit 5 cm Höhe wird erst bei ca. 500 Hz die Hälfte des Schalls schlucken, bei 2 cm Dicke ist auch bei 1000 Hz noch kein starker Effekt zu erwarten (Suchmaschinenanfrage: "Schallabsorptionsgrad Akustikschaum Plattenabsorber Frequenz versus Dicke", ausschlaggebend ist das Verhältnis von Dicke und Wellenlänge, für einen groben Überblick können Teppich und Schaumstoff als vergleichbar gesehen werden).

Kommt ein Absorber nicht in Frage, kommt evtl. ein Couchtisch o.ä. als Diffusor in Betracht. Oder die Aufstellung oder Neigung der Lautsprecher bzw. Hörplätze kann optimiert werden. Bestimmte Lautsprecher vermeiden Reflexionen durch ihre Konstruktion. Ohne beleidigend sein zu wollen: Wem das neu ist, der sollte sich vor dem Kauf fachlich beraten lassen.

Zusammenfassung

Ab 200 Hz - Richtungshören, Integrität und Größe der Abbildung

Auch in diesem Bereich treten Reflexionen und Kammfilter Effekte auf, allerdings ist die Wellenlängen bei beispielsweise bei 5 kHz nur 6,9 cm, so dass minimale Kopfbewegungen starke Änderungen bewirken. Tatsächlich kann unser Gehirn die damit verbundenen Lautstärkeänderungen erstaunlich gut kompensieren und sie rufen einen vollkommen anderen psychoakustischen Effekt hervor: Ab ca. 200 Hz entsteht durch indirekte Reflexionen der oft erwünschte Eindruck von Räumlichkeit und "Umhüllung".

Bereits 1949 entdeckte Haas den nach ihm benannten Effekt - grob gesagt, dass für unseren Orientierungssinn entscheidend ist, woher der Schall zuallererst kommt. Reflektierter Schall, der später am Ohr ankommt (und naturgemäß nicht lauter als der direkte Schall ist), "zählt nicht" für die Ortung der Schallquelle.

Spätere Untersuchungen zeigen allerdings, dass das Empfinden für "Bühne" und "Spiegelbilder des Schallquelle" sehr wohl beeinflusst wird. [Meyer Schroeder 1952] [Lochner Burger 1958] [Olive Toole 1989]. Bei längeren Laufzeiten, ab 80 ms, baut sich das "envelopement" auf, also der Eindruck über die Umgebung, in der das Musikereignis stattfindet. David Griesinger liefert hierzu Material aus vielen Jahren Forschungsarbeit.

Floyd Toole beschreibt weitere Untersuchungen über die menschliche Wahrnehmung je nach Richtung der Reflexionen und das verwendete Tonmaterial. Letzteres (Kastagnetten vs. Sprache) kann die Wahrnehmungsschwelle um mehr als 10 dB verschieben. Beim Probehören sollten also stets verschiedene Aufnahmen verwendet werden. Die Richtungsabhängigkeit ist intuitiv klar, wenn man bedenkt, dass wir bei mehreren gleich lauten Gesprächen aus verschiedenen Richtungen entscheiden können, welches wir verfolgen (Party-Effekt). Entsprechend sorgfältig sollte auch die Auswahl der Montageplätze für die Dämmelemente geprüft werden. Dabei kann mit der Faustregel begonnen werden, dass seitliche Reflexionen einen ggf. erwünschten räumlichen Klang erzeugen, während Reflexionen von oben und unten oft unerwünscht sind. Vermutlich hat das mit dem Korrelationsgrad der Signale beider Ohren zu tun: Vom Fußboden oder der Decke reflektierte Signale kommen bei beiden Ohren wesentlich ähnlicher an, als von den Seitenwänden reflektierte Signale. Nur letztere erzeugen einen angenehmen einhüllenden Raumeindruck.

Verbesserungsmöglichkeiten

Um eine einzelne Spiegelung an Wand, Boden oder Decke zu unterbinden kann man einen normalen (optischen) Spiegel so anbringen, dass man am Hörplatz das Spiegelbild der Schallquelle sieht. An dieser Stelle muss ein Absorber oder Diffusor montiert werden.

Klassifizierung

Aus diesen Erkenntnisse werden folgende übergreifende Prinzipen für die automatisierte Auswertung abgeleitet: 1) Reflexionen sind nichts Schlechtes: Nahezu reflexionsfreie Tonstudios mit Nahfeldmonitoren sind nicht für einen "livehaftigen" Musikgenuss gebaut. Die automatisierte Auswertung in Hifi-Apps erlaubt deshalb die Definition von Schwellenwerten, die erst überschritten werden müssen, bevor Verbesserungsvorschläge initiiert werden. 2) Einige Reflexionen sind besser als andere. Die Unterteilung nach Laufzeiten ist eine Möglichkeit für die erste Kategorisierung. 3) Diese Unterteilung muss aber weiter präzisiert werden. Zusammen mit der Analyse des (Summen-)Frequenzgangs erhält man verwertbare Ergebnisse. 4) Es gibt weitere Parameter, die diese Ergebnisse beeinflussen können, letztlich kann die automatisierte Messung nicht die Arbeiten eines erfahrenen Toningenieurs ersetzen.

Im Bild erkennt man eine Trennung zwischen verschiedenen Effekte bei 200 Hz und 40 ms. Im Wesentlichen soll dadurch zwischen Bereichen mit einzeln heraushörbaren Reflexionen und Moden (unter 200 Hz) und Bereichen, bei denen Diffusschall das Hörerlebnis bestimmt (über 200 Hz) unterschieden werden. Die Werte sind Voreinstellungen für typische Hörräume, aber keinesfalls "Naturkonstanten".

Laufzeit
T[ms]
s[m]

Signal
f[Hz]
λ[m]
λ/2[m]
λ/4[m]
1/f[ms]

0..5
0..1,7

5..10
1,7..3,4

10..40
3,4..14

40..80
14..27

≥80
≥27

≤50
≥6,86
≥3,43
≥1,71
≥20

100
3,43
1,71
0,86
10

200
1,72
0,86
0,43
5

500
0,68
0,34
1,71
2

1k
0,34
0,17
0,08
1

2k
0,17
0,09
0,04
0,5

≥5k
≤0,07
≤0,03
≤0,02
≤0,2

ASW (SR)

COL (SR)

WR 1 (SR)

FB (SR)

WR 2 (SR)

SH (SR)

ESI

ENV

Abb. 3 Verschiedene Raumakustik Effekte sortiert nach Frequenz und Zeit. Zusätzlich zur Frequenz f[Hz] sind die Wellenlänge, die halbe Wellenlänge (Reflexionen bewirken in dieser Entfernung von der Wand Verstärkung), ein Viertel der Wellenlänge (Reflexionen bewirken in dieser Entfernung von der Wand Abschwächung) und die Periodendauer (zum Vergleich der Größenordnung mit der Laufzeit) angegeben. Störend empfundene Effekte sind rot dargestellt, grün bzw. blau dargestellte Effekte sind möglicherweise angenehm bzw. wertneutral.

In der folgenden Tabelle werden die Effekte näher erläutert. Die Angaben in dB sind relativ zum direkten Schallsignal. Effekte durch verzögerte Signale über 0 dB sind nicht aufgeführt, da das reflektierte Signal im Normalfall nicht stärker als das direkte Signal ist. Effekte, die durch Einzelreflexionen hervorgerufen werden, sind nur bis 10 ms (3,4 m Laufwegdifferenz) berücksichtigt. In typischen Hörräumen treten die ersten 5 Reflexionen in diesem Bereich auf. Wenn Untersuchungen mit Sprachaufnahmen gemacht wurden, wird darauf hingewiesen. In diesem Fall ist davon auszugehen, dass Reflexionen früher wahrgenommen werden und störender wirken als bei Musikaufnahmen.

Abkürzung	Effekt	Details
(SR)	Einzelne Reflexion (engl. single reflection)	Der Klangeindruck verfärbt sich durch Auslöschungen und Verstärkungen wie oben beschrieben. Im Extremfall ist wie bei WR 2 (siehe unten) ein Spiegelbild der Schallquelle hinter der Wand zu hören, ähnlich wie der Lautsprecher zu sehen wäre, wenn dort ein optischer Spiegel hinge.
ASW (SR)	Einfallsweite (engl. apparent source width)	Die scheinbare Breite der Schallquelle, also meist der Bühne. Sie kann sich vom Abstand der beiden Frontlautsprecher erheblich unterscheiden. Verantwortlich sind Reflexionen ab ca. 180 Hz [Toole], [Griesinger 1999]. Ando, Blauert, Schroeder und weitere Autoren schlagen als Maß die interaurale Kreuz Korrelation (engl. InterAural Cross Correlation IACC) vor, d.h. wie sehr sich das Signal beider Ohren unterscheidet. Manche Autoren betrachten die IID (Interaural Intensity Differences) und ITD (Interaural Time Differences) dazu getrennt. In [Sato, Ando] wird gezeigt, dass IACC und ASW gut korrelieren, und dass sich oberhalb von 700 Hz bei einem bestimmten Winkel für reflektierte Schallenergie gleichzeitig mit der höchsten ASW auch die niedrigste IACC einstellt. Die IACC kann wiederum leicht konvertiert werden in das Verhältnis zwischen seitlicher und totaler Energie der ersten 80ms der Impulsantwort.
COL (SR)	Verfärbung (engl. coloration)	Der Klang wird durch Reflexionen mit einer Intensität bis hinab zu -20 dB in manchen Fällen unerwünscht verfärbt [Barron 1971].
ESI	Früher Raumeindruck (engl. Early spatial Impression). Betrifft im Gegensatz zu ENV nur die ersten Reflexionen von vorne.	ähnlich wie bei der ASW kann ESI als Verhältnis von lateraler zu gesamten Schallenergie gesehen werden. ASW und ESI sind eng verwandt, die Unterschiede entstehen durch die Richtung des reflektierten Schalls und den zeitlichen Intensitätsverlauf. Allerdings kann die IACC nicht der einzige Effekt sein: Unterhalb von 300 Hz dürfte es dann keine Räumlichkeitseffekte mehr geben, weil die Wellenlänge den Ohrenabstand um ein Vielfaches überschreitet. Das ist aber nicht der Fall.
RM	Raummoden (engl. room mode)	Intensität stark ortsabhängig, Frequenz der Maxima/Minima ortsunabhängig. (Siehe oben.)
WR 1 (SR)	Tieffrequente Wand Reflexion (engl. wall reflection)	Oft verwechselt mit RM. Frequenz der Maxima/Minima ist aber ortsabhängig. Durch Reflexionen an einer Wand, die $n*\lambda/4$ entfernt ist ($\lambda$ Wellenlänge) treten Auslöschungen ($n$ ungerade) Verstärkungen ($n$ gerade) auf. Der Effekt ist bis ca. 120 Hz erkennbar. Die Laufzeit muss also mindestens die halbe Periodendauer von 120 Hz (4 ms) sein, darf aber nicht in den Bereich der Mehrfachreflexionen kommen.
WR 2 (SR)	Wand Reflexion (engl. wall reflection)	ähnlich wie in optisches Spiegelbild wird eine zweite Schallquelle wahrnehmbar. In [Lochner 1958] wird dieser Effekt für Sprache bei Reflexionen > -5 dB nachgewiesen. Bei längeren Laufzeiten bis ca. 10 ms schwächt er sich zunächst ab. (Später, bei Laufzeiten die für Einzelreflexionen in privaten Hörräumen nicht vorkommen, danach wird er wieder stärker.)
FB (SR)	Bodenreflexion (engl. floor bounce)	Per geometrischer Akustik berechenbare Bodenreflexion. (Bereits ausführlich beschrieben.)
SH (SR)	Verschiebung (engl. shift)	Kann als abgeschwächte Version von WR 2 gesehen werden. übersteigt das reflektierte Signal (bei Sprachwiedergabe) einen Pegel von -10dB bei Verzögerungen unter 5 ms oder -5 dB bei 5..10 ms kann eine Verschiebung wahrnehmbar werden [Meyer 1952] [Olive 1988].
ENV	Raumeindruck (engl. envelopment)	Seitliche diffuse Reflexionen erzeugen für den Hörer einen meist erwünschen, angenehmen einhüllenden Raumeindruck. Der Hörer betrachtet die Musik nicht gleichsam durch ein Fenster, sondern fühlt sich "in" der Musik. ENV wird hier gleich behandelt wie LEV (listener envelopment), “spaciousness”, BSI (background spatial impression) oder SI (spatial impression) [Griesinger][Griesinger 1999]. Die Darstellung in grün soll nicht darüber hinwegtäuschen, dass es auch störende Effekte bei Reflexionen mit Laufzeiten über 50 ms gibt. Derartige "echo disturbace" Effekte kennt Jeder beispielsweise von Ansagen in Bahnhöfen. Hifi-Apps berücksichtigen diese Effekte nicht, da sie in üblichen Wohnräumen unter den von [Barron 1971] gemessenen Schwellenwerten liegen. Nach [Griesinger 1999] wird in kleinen Hörräumen LEV durch interaurale Fluktuationen erzeugt, die vom Toningenieur bei der Aufnahme zu erzeugen sind. Das Lautsprecher / Raum System arbeitet dabei nur als Transfer System. Die Ansätze zur Messung wie gut das funktioniert basieren auf der binauralen Impulsantwort unterscheiden sich deutlich von den älteren Ansätzen, die die Einfallsrichtungen verschiedener Schallkomponenten vergleichen. Letztlich geht es um ein komplexes Zusammenspiel zwischen Bearbeitung der Aufnahme, Lautsprecher und Raum. Hifi-Apps beschränkt sich deshalb auf eine Basis, über die im Allgemeinen Konsens herrscht: die Messung der Impulsantwort, daraus die Ermittlung der Nachhallzeit, deren Anteil nach einer festgelegten Zeit (default 10 ms) und der Regelmäßigkeit des Abklingverhaltens. Steht dies in einem harmonischen Verhältnis, sind zumindest alle groben Fehler beseitigt, die einen guten Raumeindruck unmöglich machen.

Weitere Parameter

Für die in Abb. 3 rot gekennzeichneten Effekte berechnen Hifi-Apps Wertungen anhand des Frequenzgangs und der Impulsantwort. Dabei werden neben dem Muster der Impulsantwort auch die Abweichungen der Frequenzgänge je nach Hörplatz, ein R/L Vergleich usw. berücksichtigt.
Zusätzlich können wahlweise verschiedene in der Elektroakustik gängige Parameter ausgegeben werden.

$T_{60}$ (engl. reverberation time - RT) ist die Dauer, in der der Schalldruck $p$ bei plötzlichem Verstummen der Schallquelle auf den tausendsten Teil abfällt. Der zugehörige Schalldruckpegel $L_{p}$ fällt dann um 60 dB. $$ L_{p}[dB] = 10 \log_{10}\frac{\overline{p}^2}{p_0^2} = 20 \log_{10}\frac{\overline{p} }{p_0 } $$ Für große, hallige Räume wie Kirchen lässt sich der Wert mit der Sabine'schen Formel abschätzen: $T_{60}=0,163 V[m^3]/\sum S_n[m^2]a_n$ wobei $V$ Raumvolumen und $S_n$ die Begrenzungsflächen, jeweils mit Absorbtionsgrad $a_n$ sind. Für typische Hörräume liefert die Formel von Eyring bessere Werte, die Knudsensche Nachhallformel liefert die genausten Ergebnisse. Die Formel von Sabine ist eine gute Grundlage für Abschätzungen: Nach ihr ist die Nachhallzeit umgekehrt proportional zum Absorptionskoeffizient des eingesetzten Dämmmaterials. Sie liefert so zumindest eine gute Orientierung: Ist $T_{60}$ beispielsweise doppelt so lang wie erwünscht, wird ungefähr eine Verdoppelung des eingesetzten Dämmmaterials erforderlich sein. Die Verbesserungsvorschlägen von Hifi-Apps werden so berechnet.
Verschiedene Normen schlagen unterschiedliche Werte für $T_{60}$ vor. Die folgende Tabelle liefert eine kurze Übersicht:

	Wofür	Raum	T_60
IEC 60268-13	Hörtests für Lautsprecher in häuslicher Umgebung	20 bis 60 m² bei Stereo, 30 bis 70 bei Mehrkanal	0,3 bis 0,6 s
ITU.R Recommendation 1116-1	Beurteilung kleiner Beeinträchtigungen in Audio Systemen	20 bis 60 m² bei Stereo, 30 bis 70 bei Mehrkanal	0,4 bis 0,6 s. Vorgabe für "natürlichen" Klang mit zunehmender Raumgröße: $0,25s \cdot \sqrt[3] {V[m^3]/100}$
EBU 3276	Bewertung von Programmmaterial	>40 m²
AES 20	Hörtests (Lautsprecher), Studio Räume	> 20 m²	0,45 s
N-12 A	Hörtests (Allgemein)	60 +/+10 m²	$0,35s \cdot \sqrt {S[m^2]/60}$

Die Vorgaben müssen für 200 bis 4000 Hz (2500 bei N-12A) erfüllt werden, in anderen Normen sind die Toleranzen größer oder diese Bereiche werden gar nicht angegeben. Die Schwelle für Verbesserungsvorschläge ist bei Hifi-Apps voreingestellt auf 0.6 s für beliebige Räume.

EDT (engl. early decay time) ist die Dauer, in der der Schalldruckpegel die ersten 10dB abgefallen ist, extrapoliert auf 60 dB. Sie spielt für den Höreindruck eine wichtigere Rolle als $T_{60}$, da sie der subjektiv empfundenen Nachhallzeit besser entspricht: Der Beginn der Abklingkurve wird am besten wahrgenommen und oft reicht der Dynamikbereich des Raumes nicht bis -60 dB. [Fuchs, Seite 158] erläutert die Abfallcharakteristik von Nachhall.
$F_s$ ist die Schröder Frequenz. Sie gibt einen Anhaltspunkt für den Übergang zwischen der Dominanz von stehenden Wellen zur Dominanz der geometrischen Akustik. $$ F_s[Hz] = 2000 \sqrt{ \frac{T_{60}[s]}{V[m^3]} } $$ Sie wird indirekt in den Vorgabewerten für die Festlegung der Grenzen der einzelnen Effekte verwendet, z.B. für die obere Frequenz, bis zu der Raummoden detektiert werden sollen. Der Übergang ist nicht scharf, in kleinen Räumen kann bereits bei der $0,5 F_s$ das für hohe Frequenzen typische statistische Verhalten beobachtet werden [Skålevik 2011].
Die Zeitkonstante eines gedämpften harmonischen Oszillators lässt sich aus der Bandbreite der Resonanz bestimmen. Entsprechend lässt lässt sich $T_{60}$ aus der Bandbreite $B$ einer Raummode (bei -3 dB) bestimmen [Skålevik 2011-2]. $$ B = \frac{\log_e(10^6)}{2 \pi T_{60}} \simeq \frac{2,2}{T_{60}} $$
Das Schröder Integral [Schroeder 1965] \begin{align} E(t) &= \int_t^\infty h^2(t) \,dt \\ &= \int_0^\infty h^2(t)\,dt -\int_0^t h^2(t)\,dt \end{align} berechnet die Energiemenge des Nachhalls ab dem Zeitpunkt $t$. Praktisch wird nur über einen Zeitraum integriert, in dem das Hintergrundrauschen vernachlässigbar ist. Es ist Konvention, die ersten 10 dB in dieser rückwärts aufintegrierten Impulsantwort für die Berechnung der weiter oben beschriebenen EDT (early decay time) zu verwenden.
Der Raumeindruck (engl. Spacial Impression) $R$ nach [Ballou 2008] setzt sich aus der gemessenen Schallenergie am Hörplatz ab 25 ms nach dem Quellereignis abzüglich des frontalen Direktschalls von 25 bis 80 ms zusammen. Zuerst zählt also nur der indirekte Anteil, ab 80 ms Alles: $$ R = \log_{10}\left( \frac{(E_{\infty-25})-(E_{80-25}^R)}{E_{25}+(E_{80-25}^R)} \right) $$ Wobei $E^R$ der der mit einem Richtmikrofon gemessene Energieanteil des Schalls ist und $E$ der mit einem omnidirektionalen Mikrofon gemessene Anteil. Das Richtmikrofon hatte einen Winkel von $\pm 40° $ und ist vom Hörplatz auf die Schallquelle zu richten. Die Zahlen sind ms, $E_{\infty-25}$ ist beispielsweise die gesamte Schallenergie abzüglich der Schallenergie bis 25 ms, also Alles was ab 25 ms gemessen wurde.
Mixing Time $t_{mix}$ beschreibt die Zeit des Übergangs zwischen der Dominanz von einzelnen Reflexionen und diffusem spätem Echo, d.h. einem ergodischen Zustand, bei dem die Signalform nicht mehr von Ort und Zeit abhägt. Als Grundlage zur Berechnung kann die Zahl der eintreffenden Reflexionen pro Zeit $\frac{\,dN}{\,dt}=\frac{4 \pi c^3}{V} t^2$ verwendet werden [Kuttruff][Lindau]. Wenn mehr als eine bestimmte Zahl von Reflexionen pro Sekunde eintreffen (Schröder: 1000, Ruback: 4000, Griesinger: 10000) wird das Klangfeld als diffus empfunden. Als Fausregel hat sich für diesen Übergang durchgesetzt $$ t_{mix} [ms] = \sqrt{V [m^3]} $$ $V[m^3]$ ist das Volumen des Hörraums in Kubikmetern. Bei 3 m Deckenhöhe sind bei einem Wohnraum von $15 m^2$ also 7 ms und bei $50 m^2$ 12 ms zu erwarten. Der Wert kann auch aus der Impulsantwort ermittelt werden. [Lindau] vergleicht mehrere Methoden, Hifi-Apps verwendet die von [Huang 2006], da das Berechnete echo densitiy profile $\eta(t)$ als "Beiprodukt" ein Maß zur Bewertung der Impulsantwort vor $t_{mix}$ liefert: $$ \DeclareMathOperator\erfc{erfc} \eta(t) =\frac{1}{2\delta+1} \:\: \frac{1}{\erfc(1/\sqrt{2})} \sum_{\tau=t-\delta}^{t+\delta}{1\{|h(\tau)|>\sigma\}} \\ \sigma= \sqrt{\frac{1}{2\delta+1}\sum_{\tau=t-\delta}^{t+\delta}{\omega(\tau)h^2(\tau)}} $$ Wobei $\DeclareMathOperator\erfc{erfc} \erfc(1/\sqrt{2}) \simeq 0.3173$. $\delta$ definiert ein schmales Fenster der Impulsantwort $h(t)$ (Mittelwert zu 0 gesetzt), typischerweise 500 bis 2000 Samples. Die Länge des Fensters ist also $2\delta+1$. $\sigma$ wird unter Verwendung der Windowing Funktion $\omega(t)$, z.B. Hanning oder Box, berechnet. $1\{\cdot\}$ ist eine Indikatorfunktion, die 1 zurückgibt, wenn ihr Argument TRUE ist und 0 bei FALSE. Hifi-Apps verwendet diesen Algorithmus in leicht abgewandelter Form: Grundlage ist die logarithmische Einhüllende der IR, $\sigma$ wird einmalig im ergodischen Teil der IR bestimmt. Dadurch wird der stark abfallende Bereich des Direktschalls sicherer identifiziert: Dort ist zusätzlich zur Abweichung von der Gaußverteilung auch die Standardabweichung deutlich höher.
Gruppenlaufzeit (engl. group delay): Anschaulich gibt die Gruppenlaufzeit (GLZ, Symbol $\tau_{gr}$, gemessen in Millisekunden) an, wie lange es dauert bis eine bestimmte Frequenz wiedergegeben wird, nachdem das Signal am Eingang angelegt wurde. Ein "schwerfälliger" Tieftöner ist beispielsweise durch eine lange Gruppenlaufzeit im Bassbereich zu erkennen. Bei der Wiedergabe könnte z.B. Schlagzeug dadurch "zu wenig impulsiv" wirken. Mathematisch ergibt sich die Gruppenlaufzeit aus der negativen Ableitung der Phase $\varphi(\omega)$ der Übertragungsfunktion $H(j\omega)$ des Systems nach der Kreisfrequenz $\omega$: $$ \tau_{\rm gr}(\omega) = - \frac{\mathrm{d}\varphi(\omega)}{\mathrm{d}\omega}$$ In welchen Fällen die GLZ hörbar ist, ist umstritten. Hifi-Apps verwenden die GLZ deshalb ausschließlich in Verbindung mit Hörtests. Ausführlich.
Kanalgleichheit. Für ein gutes Stereo Bild dürfen weder die herstellungsbedingten Unterschiede zwischen den Lautsprechern noch die Unterschiede ihrer Stellplätze im Hörraum zu groß sein. Erstere werden oft elektronisch ermittelt, indem bei der Messung statt des Mikrofonsignals die Spannung an den Lautsprecherklemmen verwendet wird, wobei der Verstärker über einen Vorwiderstand angeschlossen sein muss (Internet Suche: "Impedanzmessung bei Lautsprechern"). Für eine genaue Messung mit Hifi-Apps müssen beide Lautsprecher möglichst millimetergenau ihre Plätze tauschen, damit alle äußeren Bedingungen gleich sind. Schallpegel Abweichungen unter 5% sind ein guter Wert. In der Praxis ist es manchmal erstaunlich, wie schlecht auch trainierte Hörer erhebliche Unterschiede durch Defekte, falschen Anschluss oder verstellte Weichen wahrnehmen (wollen).

Für die Berechnung der Zerfallszeiten verwenden Hifi-Apps die Impulsantwort. Einzelne Peaks werden dabei nicht gewertet. In [Cremer, Müller 1982] wird beschrieben, dass sich der Höreindruck eines Peaks durch einen einzelnen Reflektor nicht sehr ändert, wenn man den Reflektor in mehrere Teile mit minimal geänderter Laufzeit zerlegt. In der Impulsantwort werden dadurch aber aus dem einen Peak 3 kleinere Peaks dicht beieinander, sie sieht also vollkommen anders aus. Das Ohr scheint einen kurzzeitiges "Gedächtnis" zu haben und die 3 Peaks "zusammenzufassen".
Hifi-Apps unterteilen die Impulsantwort zur Auswertung in verschiedene zeitliche Bereiche gem. Abb. 3, wobei die Vorgaben für Frequenz, Zeit und Empfindlichkeit angepasst werden können. Innerhalb dieser Bereiche werden die Werte geglättet. Grundsätzlich sind die Übergänge zwischen diesen Bereichen nicht als scharf anzusehen: Stellt man beispielsweise Dipol Lautsprecher zu nah vor eine Mauer, entsteht eine Verschiebung der Quelle (SH in Abb. 3). Ab wann es als Spiegelung (WR 2) zu bezeichnen ist, ist Ermessenssache. Wahrscheinlich spielt auch der individuelle Hörsinn eine Rolle (Stichwort: HRTF Head-Related Transfer Function ).

Die Obere und untere Grenzfrequenz des Lautsprechers werden nicht angegeben. Sie können in typischen Wohnräumen anhand von Messungen am Hörplatz nicht bestimmt werden. Im unteren Grenzbereich treten viel zu starke Störungen durch Raummoden und sonstige Reflexionen auf: Je nach Mikrofonposition kann sich der Wert um mehr als eine Oktave verschieben - auch wenn das aufgenommene Signal rechnerisch durch Glättung oder Windowing aufbereitet wurde. Im oberen Grenzbereich entstehen die Verfälschungen durch Absorption und die Richtcharakteristik der Hochtöner. Oberhalb von etwa 4 kHz ist das eingebaute Mikrofon ohnehin nicht verwendbar. Hifi-Apps lassen deshalb entsprechende Werte (z.B. ab wann der gemessene Frequenzgang einen bestimmten Wert unterschreitet) nicht die Bewertungen einfließen. Sollen die Werte dennoch bestimmt werden, bieten sich Nahfeldmessungen (ggf. Mittelwerte bei mehreren Lautsprecheraufstellungen), Messungen im Freien oder Berechnungen aus den Thiele-Small-Parametern an.

Verbesserungsmöglichkeiten

Neben den oben beschriebenen Verbesserungsmöglichkeiten geben Hifi-Apps anhand der Impulsantworten der einzelnen Lautsprecher an den einzelnen Hörplätzen weitere Hinweise. Das Thema wird ständig weiter entwickelt, so dass hier nur einige allgemeine Statements erfolgen: Insbesondere eindeutige Schwächen in der Kanalgleichheit und auch Nachhallzeiten, die auf sehr wenig Dämpfung hinweisen können den Klang deutlich verschlechtern. Beides lässt sich mit Hifi-Apps leicht messen und oft genauso einfach korrigieren. Vor jeder Messung sollten die allgemeinen Hinweise zur Aufstellung von Lautsprechern und zur Aufstellung von Subwoofern berücksichtigt werden.

Literatur

[Ballou 2008] Glenn Ballou: Handbook for Sound Engineers. 2008, Focal Press (Imprint of Elsevier)

[Blauert] Jens Blauert: Spatial Hearing: Psychophysics of Human Sound Localization. MIT Press Ltd; 2 Rev ed edition (11 Oct 1996)

[Barron 1971] Mike Barron: The subjective effects of first reflections in concert halls—The need for lateral reflections. Journal of Sound and Vibration 15(4):475-494 · April 1971

[Bech 1998] Søren Bech: Spatial aspects of reproduced sound in small rooms: The Journal of the Acoustical Society of America 103(1):434-45 · February 1998 Spatial aspects of reproduced sound in small rooms

[Cremer, Müller 1982] Principles and Applications of Room Acoustics, Volume 1, 2. PENINSULA PUB (25 Mar 2016)

[EBU 3276] Listening conditions for the assessment of sound programme material: monophonic and two–channel stereophonic. EBU Tech. 3276 – 2nd edition https://tech.ebu.ch/docs/tech/tech3276.pdf May 1998

[falstad] http://www.falstad.com/modebox/ Ein im Browser lauffähiges Programm zur 3-Dimensionalen Darstellung von Raummoden

[Fuchs, Seite 158] Helmut V. Fuchs: Applied Acoustics: Concepts, Absorbers, and Silencers for Acoustical Comfort and Noise Control. Springer Verlag 2013 ISBN 978-3-642-29366-5 ISBN 978-3-642-29367-2 (eBook)

[Griesinger] David Griesinger: Homepage. http://www.davidgriesinger.com

Griesinger: Spaciousness and envelopment in musical acoustic pdf

[Griesinger 1998] David Griesinger: General overview of spatial impression, envelopment, localization, and externalization. Proceedings of the 15th International AES Conference, Copenhagen, 1998, S 136ff.

[Griesinger 1999] David Griesinger: Objective Measures of Envelopment. AES 16th International Conference on Spatial Sound Reproduction - Apr. 1999 pdf

[Huang 2006] Abel, Jonathan S.; Huang, Patty: A Simple, Robust Measure of Reverberation Echo Density. AES Convention: 121 (October 2006) Paper Number: 6985 Publication Date: October 1, 2006 https://pdfs.semanticscholar.org

[Lindau] Alexander Lindau1, Linda Kosanke1, and Stefan Weinzierl: Perceptual evaluation of physical predictors of the mixing time in binaural room impulse responses. Audio Engineering SocietyConvention Paper Presented at the 128th Convention 2010 May 22–25. impulse_responses.pdf

[Lochner Burger 1958] J.P.A. Lochner, J.F. Burger: The subjective masking of short time delayed echoes by their primary sounds and their contribution to the intelligibility of speech. Acta Acustica united with Acustica 8(1) · January 1958

[Meyer Schroeder 1952] Erwin Meyer, Manfred Schroeder: On the Influence of Reflected Sound on Directional Localization and Loudness of Speech. Wiss. Göttingen, (Math. Phys. Klasse IIa), vol. 6, pp. 31–42 (1952). 1952.

[Olive 1995] Olive, Sean E.; Schuck, Peter L.; Sally, Sharon L.; Bonneville, Marc: The Variability of Loudspeaker Sound Quality Among Four Domestic-Sized Rooms. AES Convention Papers Forum 1995, https://secure.aes.org/forum/pubs/conventions/?elib=7674

[Olive Toole 1989] Sean E. Olive, Floyd E. Toole: The Detection of Reflections in Typical Rooms. AES Convention: 85 (November 1988) Paper Number: 2719 mariobon.com

[Peter 2013] Martin Peter: Visualization of low frequency sound fields in rooms. Inter Noise 2013 Martin_Peter.pdf

[Sato, Ando] Shin-ichi Sato, Yoichi Ando: Apparent Source Width (ASW) of Complex Noises inRelation to the Interaural Cross-correlation Function. Journal of Temporal Design in Architecture and the Environment (2002) Vol. 2; No. 1, P. 29 http://www.jtdweb.org/journal/2002/004_sato.pdf

[Skålevik 2011] Magne Skålevik: Schroeder Frequency Revisited. Forum Acusticum 2011 http://www.akutek.info/Papers/MS_Schroeder_Revisited.pdf

[Skålevik 2011-2] Magne Skålevik: Small room acoustics – the hard case. A paper presented at Forum Acusticum 2011 http://www.akutek.info/Papers/MS_Hard_Case.pdf

[Sereinig] Andrea Sereinig: Specification of a Standardized Listening Room for an Expert Listening Panel. Audio Engineering Project Report Graz, January 2009 PA_Sereinig_A_Standardized_Listening_Room.pdf