Auphonic sorgt für eine bessere Tonqualität bei Podcast-Aufnahmen und das mit wenigen Klicks.
Was Auphonic alles bietet und welche neuen Features noch kommen werden, erfahrt ihr im Folgenden.
Automatisierte Audio-Verbesserung, Podcast-Features und mehr mit Auphonic
Ich selber nutze bei meinen Podcasts seit Jahren Auphonic, denn trotz einem sehr guten Mikrofon hat man oft Lautstärkeschwankungen und Störgeräusche auf der Aufnahme.
Diese und andere Optimierungen kann ich mit Auphonic einfach und schnell vornehmen, was sehr bequem ist. Und meine Hörer mögen den Sound meiner Podcast-Episoden sehr.
Und da Auphonic auch eine Möglichkeit bietet es kostenlos zu nutzen, habe ich ein Interview mit dem Gründer von Auphonic geführt.
Hallo Georg. Bitte stell dich kurz vor.
Mein Name ist Georg Holzmann. Ich habe Toningenieur studiert und komme aus dem Audiobereich und auch Informatik, also vor allem in die Richtung Signalverarbeitung, und Machine Learning.
Und durch diese Interessen, also einerseits Audio, andererseits Informatik, Learning und auch Web Development hat sich der Background für Auphonic* sozusagen automatisch ergeben.
Könntest du einen Überblick über Auphonic geben und was ihr anbietet?
Ich war ein sehr großer Podcast-Hörer und da hat es früher immer Beschwerden gegeben, wie schwierig die Audiobearbeitung für Podcasts ist, also wie man Kompressoren und Limiter einstellt und auch wie man verschiedene Datei-Formate automatisch generiert mit korrekten Metadaten. Dadurch ist dann die Idee zu Auphonic entstanden.
Auphonic ist hauptsächlich für Podcaster gedacht. Wir bieten einerseits Audio Algorithmen an, also alles was man in der Audio-Postproduktion so machen muss, um einen Podcast hörbar zu machen, versuchen wir zu automatisieren. Das heißt Lautstärken ausgleichen von verschiedenen Sprechern und Musikteilen. Das muss man natürlich intelligent machen, dass man weiß, wo sind verschiedene Sprecher, wo sind Musikteile, weil Musik total anders funktioniert, wie Sprache zum Beispiel.
Des Weiteren verschiedene Störgeräusche entfernen, wie Rauschen und nicht benötigte Frequenzen. Und natürlich das EQing anzupassen, also die spektrale Verteilung der Stimmen, wie sie klingen. Zudem wenden wir den Loudness-Standard an, damit verschiedene Podcasts ähnliche laut sind.
Das sind quasi unsere Audio-Algorithmen und danach bieten wir noch Encoding in verschiedene File Formate an, wie MP3, die Videoerstellung, AC Formate und so weiter.
Und danach gibt es auch noch eine Spracherkennung, so dass man einen Transkript vom Audio hat (Hinweis: diese Interview wurde als Audio aufgenommen und dann per Auphonic in ein Transkript umgewandelt) und die Distribution der Audiodatei bzw. des Videos auf verschiedene Kanäle, wie z.B. auf YouTube, auf den Podcast-Hoster, wie podcaster.de oder Libsyn. Natürlich auch auf Social Media, z.B. Facebook, posten und so weiter.
Wir bieten also einerseits die Bearbeitung der Audiodateien, dann die Erstellung, das Encoding der Formate und auch die Distribution der Resultate auf verschiedene Plattformen an.
Wie ist Auphonic entstanden und warum habt ihr euch auf die Verbesserung der Audioqualität spezialisiert?
Auphonic ist entstanden, weil das Problem vieler Podcaster war, dass sie nicht viel Erfahrung mit Audioprozessoren gehabt haben. Und deswegen haben wir uns auf die Verbesserung der Audioqualität spezialisiert.
Hauptsächlich zuerst einmal mit unserem Adaptive Leveler, der die Lautstärken ausgleicht. Und zusätzlich braucht man natürlich auch Audio-Restaurations-Algorithmen, wie die Noise Reduction, die das Rauschen oder Reverb entfernt
Zudem haben wir spezielle Multitrack-Algorithmen entwickelt, wo man das noch viel genauer machen kann, also die Übersprechung zwischen verschiedenen Tracks und so weiter.
Welche Arten von Audiodateien und -formate unterstützt Auphonic und wie werden sie bearbeitet?
Wir unterstützen alle möglichen Audioformate, also prinzipiell alles was man dekodieren kann. Da sind wir ziemlich transparent. Zum Decoden und Encoden verwenden wir da intern sowieso FFmpeg, das kann fast alle Formate.
Und wenn so ein Audioformat zu uns kommt, wird es einfach dekodiert, egal ob das jetzt MP3 oder Windows Media, ein altes File oder ein Video-File ist.
Dann haben wir die rohen Audiodaten, die werden dann bearbeitet und daraus werden dann wieder die Resultat-Formate generiert. Für Podcasts ist es meistens MP3 oder für Videos MP4 und so weiter.
Im Fall von Video will ich noch dazu sagen, dass wir das Video selbst nicht angreifen, denn da wird nur das Audio entgenommen und bearbeitet. Danach wird der Audio Track wieder in den Video Container hinzugefügt, so dass das Video gar nicht decodiert und encodiert werden muss.
Was sind die wichtigsten Funktionen von Auphonic, die man nutzen sollte?
Das kommt natürlich immer auf den persönlichen Use Case an.
Damit man Podcast-Episoden gut hören kann, ist natürlich unser Adaptive Leveler sehr wichtig, damit die Sprecher unterschiedlich laut sind, weil es ansonsten für Hörer, vor allem wenn man in der U-Bahn ist oder sonst wo, sehr unangenehm ist, weil man immer lauter und leiser machen muss bei verschiedenen Sprechern. Das ist sicher mal das wichtigste.
Aber natürlich auch Funktionen wie Noise Reduction oder Loudness Normalization.
Dann hat man schon ein sehr solides Audio-Ergebnis erstellt und kann noch an allen anderen Ecken und Enden tunen, wenn man will.
Was hat es mit der Speech Recognition auf sich?
Spracherkennung ist natürlich bei Podcasts schon länger ein Thema und wir sind da schon lange dabei.
Einerseits braucht man Spracherkennung natürlich für die Suche in einer Audiodatei. Wenn man einen Transkript hat kann man das natürlich super durchsuchen und schauen wo wurde was gesagt.
Was man aber bei Podcasts bedenken muss ist, dass auch wenn das Transkript zu 100% Wort für Wort passt, zum Lesen ist es meistens trotzdem nicht so gut geeignet, weil die gesprochene Sprache natürlich anders ist, als die geschriebene Sprache. Dadurch wird es sich beim Lesen immer irgendwie komisch sich anfühlen.
Zusätzlich kommt noch dazu, dass Spracherkennung nie 100% funktioniert, sondern nur bis zu einem gewissen Prozentsatz.
Aber das wird natürlich immer besser und da macht die Spracherkennung vor allem für die Suche oder auch wenn man schnell durchschauen will, wo es um was geht, Sinn.
Wie ist bei uns Spracherkennung integriert in Auphonic?
Wir haben immer verschiedene externe Spracherkennungs-Engines eingebunden, weil wir selbst kein Spracherkennungssystem entwickelt haben, sondern nur die Audio-Algorithmen.
Dazu haben wir eine Vorverarbeitung entwickelt, bei der das Audio aufgesplittert und dann zu verschiedenen Spracherkennungs-Engines gesendet wird, je nachdem was der User will. Wir erhalten das Resultat zurück und setzen das wieder zusammen.
Mittlerweile haben wir auch eine, in Anführungszeichen, eigene Engine, die auf dem Whisper-Model von OpenAI basiert. Das ist ein Open Source Model und funktioniert vor allem sehr gut für Englisch, Spanisch, Französisch und Deutsch.
Und weil es vollkommen Open Source ist, haben wir den Service zusätzlich im Pre- und Post-Processing integriert. Aber es ist halt sehr rechnenaufwendig, also läuft das auf spezialisierter GPU-Hardware, die für normale User nicht so leicht zu bekommen ist.
Wie unterscheidet sich Auphonic von anderen Anbietern von Audiobearbeitungstools und was sind die wichtigsten Vorteile eurer Software?
Das ist gar nicht so leicht zu sagen, weil die meisten anderen Audio-Tools entweder ein Audio-Editor, ein Plugins oder etwas ähnliches sind.
Bei uns liegt der Fokus auf der Automatisierung. Wir sind einfach ein Web-Tool. Da hat man ein File, das laden wir hoch und das wird automatisch analysiert und verarbeitet. Dann bekommt man das Resultat.
Da ist wenig manuelle Arbeit notwendig. Bei uns geht es also vor allem um Automatisierung und um die Bearbeitung von großen Mengen an Audiodateien, die man mit Hand nicht wirklich gut bearbeiten könnte bzw. braucht man halt das Wissen dazu.
Gibt es Möglichkeiten Auphonic in andere Tools zu integrieren?
Ja, man kann unsere Algorithmen und unsere Workflows auch in andere Tools integrieren, das wird auch oft gemacht. Das geschieht über eine API.
Das ist eine Schnittstelle, mit deren Hilfe man unser System komplett in andere Tools integrieren kann. Das machen auch sehr viele. Wir laufen bei einigen anderen Firmen und Produkten im Hintergrund mit, zum Beispiel bei einigen Podcast-Hostern oder bei Recording-Software und so weiter. Und oft auch ohne dass es bemerkt wird.
Oder man kann Auphonic in spezialisierte Workflows integrieren. Zum Beispiel machen das einige Universitäten und Rundfunkanstalten so. Wenn sie etwas aufnehmen, wird das gleich automatisch bearbeitet und dann auf den Server ausgespielt und so weiter.
Was kostet Auphonic und an wen richtet sich der Service vor allem?
Wir haben ein freemium Modell. Man kann Auphonic zwei Stunden pro Monat verwenden und das ist gratis. Das richtet sich vor allem an Hobby-Podcaster, die nicht so viele Episoden produzieren, also max. zwei Stunden Podcast pro Monat. Diese können Auphonic vollständig gratis verwenden.
Wer mehr braucht, kann zusätzliche Credits dazu kaufen. Dabei haben wir Recurring Credits, also ein Abonnement, das monatlich bezahlt wird und One-Time Credit, slso wenn man nur einmalig was braucht und da gibt es natürlich verschiedene Pläne. Diese beinhalten verschiedenen Mengen, wie viel man verarbeiten kann und da kann man dann auch nach Belieben mehr dazu kaufen. Zum Beispiel beinhaltet der Auphonic S-Plan für 10 Euro neun Stunden Audio-Verarbeitung pro Monat. (Anmerkung von Peer: Den Tarif nutze ich selber).
Am Ende richtet sich unser Service vor allem an Podcaster und das ist auch unsere Haupt-Kundengruppe. Aber im Prinzip ist alles möglich, bei dem viel Sprache dabei ist, aber auch Musik, wobei es kein Musik Mastering in dem Sinn ist. Wir versuchen keine künstlerischen Änderungen an der Musik vorzunehmen, sondern einfach die Musik an die Sprache anzupassen und umgekehrt.
Zum Beispiel bei Vorträgen, Konferenzaufnahmen, Universitäts-Vorlesungen oder natürlich auch bei Hörbüchern und so weiter.
Welche Tipps hast du für angehende Podcaster, damit diese eine hohe Audioqualität sicherstellen können?
Tipps für eine gute Audioqualität sind natürlich immer, dass das Ausgangs-Signal so gut wie möglich sein soll. Das heißt, dass man ein gutes Mikrofon nutzen und damit so gut wie möglich aufzunehmen sollte.
Dazu sollte man sicherstellen, dass man einen ruhigen Raum hat, wo es nur wenige Störgeräusche gibt. Danach kann man eigentlich alles damit machen, also durch Auphonic jagen oder selbst bearbeiten.
Daneben ist natürlich das Wichtigste der Inhalt des Podcasts.
Was plant ihr für die Zukunft von Auphonic?
Im Jahr 2023 werden viele neue Features rauskommen.
Wir haben da einerseits unseren Auto EQ, der automatisch die Frequenzverteilung der Sprecher verändert. Wenn in einem komischen Raum aufgenommen wurde, in dem man zum Beispiel gewisse Frequenzen nicht so gut hört, das hört sich dann irgendwie muffig oder sehr hell an. Das korrigiert das Auto EQ automatisch.
Dann werden wir automatische Schnitt-Features anbieten, also dass z.B. Stille rausgeschnitten wird oder gewisse andere Teile, die man nicht haben will.
Und wir werden neue Denoising und Dereverberation, also Rauschunterdrückung und Echo- und Hall-Unterdrückungs-Argorithmen, rausbringen. Da arbeiten wir gerade an einem großen Update. Und bei unserem User-Interface sind wir gerade komplett am Umbauen.
Also da ist einiges in der Pipeline und Anfang 2023 wird es viel Neues von uns geben.
Danke für das Interview
Mehr Informationen und Erfahrungen findet ihr in meinem Auphonic Review.