Deep Dive 208 –

AI & Audio mit Georg Holzmann

26.05.2026

// Podcast
// Deep Dive 208

Shownotes

Auphonic gehört für viele Podcast-Workflows längst zum Standard, aber wie baut man eigentlich ein Produkt, das Audio automatisch „gut“ klingen lässt? In dieser Deep-Dive-Folge sprechen wir mit Georg Holzmann über die Entstehungsgeschichte hinter Auphonic und warum die Idee ursprünglich aus einem ganz einfachen Problem kam: schlechte Audioqualität bei Podcasts.

Aus einem Mix von Audio-Engineering, Informatik und Machine Learning entsteht ein Tool, das heute Millionen Nutzer:innen einsetzen. Wir schauen uns an, wie sich das Produkt von ersten Klassifikatoren hin zu komplexeren AI-Modellen entwickelt hat und warum Auphonic schon lange vor dem aktuellen AI-Boom auf diese Technologien gesetzt hat.

Wir sprechen darüber, wie unterschiedliche Komponenten wie Noise Reduction, De-Essing, Equalizing und Loudness-Normalisierung zusammenspielen und warum gerade die Balance zwischen Sprache und Musik eine besondere Herausforderung ist. Dabei wird schnell klar: Viele Probleme lassen sich technisch objektiv lösen, andere bleiben zwangsläufig subjektiv – etwa beim „richtigen“ Klang einer Stimme. Genau hier wird spannend, wie Auphonic versucht, sinnvolle Defaults zu liefern und gleichzeitig genug Flexibilität für unterschiedliche Use Cases zu bieten.

Ein großer Teil der Folge dreht sich um die technische Umsetzung: Statt eines großen „Alleskönner“-Modells setzt Auphonic auf viele spezialisierte Modelle und klassische Signalverarbeitung in Kombination. Wir klären, warum dieser modulare Ansatz im Audio-Bereich sinnvoll ist, welche Rolle unterschiedliche Modellarchitekturen spielen und wie Trainingsdaten überhaupt entstehen – inklusive der Herausforderung, gute Ziel-Daten zu finden und daraus künstlich „schlechte“ Beispiele zu generieren. Außerdem werfen wir einen Blick auf die Infrastruktur dahinter: von GPU-Servern bei Hetzner über eigene Trainingshardware auf einem Bio-Bauernhof bis hin zu Queue-basierten Processing-Pipelines.

Zum Abschluss geht es um Produktentscheidungen und den Markt: Wie entwickelt man ein Pricing für ein AI-Produkt, das mit steigender Modellkomplexität immer teurer werden kann? Warum war es ein Vorteil, früh gestartet zu sein? Und welche Rolle spielt der aktuelle AI-Hype überhaupt in einem Bereich, der schon lange vorher stark von Machine Learning geprägt war? Wir sprechen außerdem darüber, warum vollautomatische, AI-generierte Podcasts bisher keine große Rolle spielen und warum Menschen am Ende vielleicht doch lieber anderen Menschen zuhören.

Download

/transkript/programmierbar/deep-dive-208-ai-audio-mit-georg-holzmann

Jan: Hallo und herzlich willkommen zu 1 neuen Deep Dive Folge hier in der programmier.bar mit gleich 2 Gästen gefühlt für mich. Für euch vor dem Mikro natürlich wie immer der Jan und mit mir am Start der Fabi, der ganz lange
Fabi: nicht mehr mit mir in
Jan: dem Deep Dive war. Hallo Fabi.
Fabi: Ja Jan, ja, das
Georg: ist mal wieder stimmt. Ist mal wieder fast neu, kann man sagen.
Jan: Ja, wir wollen heute über ein Thema sprechen, das mir aus, weiß es nicht, ganz ganz vielen Gründen am Herzen liegt, so, ja. Wir sprechen nämlich heute über ein Tool, über die Geschichte dahinter, über etwas, das wir selbst auch nutzen und das technisch ultrainteressant ist für uns. Wir wollen nämlich heute sprechen über OFONIC und AI und Audio und haben uns dafür eingeladen den Georg Holzmann. Hallo Georg, schön, dass Du da bist.
Fabi: Hallo, danke für die Einladung.
Jan: Wir sind ja selbst, weiß ich nicht, Fabi, schon jahrelange OFONIQ Nutzer, also das war schon, weil der programmier.bar war, bevor ich bei der programmier.bar war, glaube ich.
Georg: Ja, auf jeden Fall schon sehr, sehr lang.
Fabi: Ich meine,
Georg: auch da ist der Partner auch mit dem Audio Postproduction, dafür müssten eigentlich hätten wir den Carlo dazu müssen. Carlo Props und ich, der der hier mal im Nachgang alles schneidet und irgendwie bearbeitet so, ein Tool seiner Wahl, aber ich erzert's auf jeden Fall schon sehr, sehr, sehr lange im Einsatz, ja.
Jan: Warum find ich das spannend, auch wenn ich mit Audio so überhaupt gar nichts am Hut hab und quasi 2 kann man kann man 2 linke Hände für Audio haben oder weiß ich nicht, keine Zweiige Ohren. Zweiige Ohren, 2 linke Ohren, weißte. Weißte. Aber ich find das immer cool zu sehen, wenn jemand oder oder gleich eine ganze Firma quasi so dem Trend so weit voraus ist, ja? Also heutzutage, wenn man jetzt heute rausgeht und sagt, hey, ich mach hier eine Firma mit 'nem coolen AI Produkt, dann dreht sich gefühlt ja niemand mehr irgendwie danach ja. Aber Affonic macht das Ganze ja schon super-, superlange so und auch super-, supererfolgreich. Und das ist natürlich für uns sehr interessant, mal zu hören so, Georg, wie seid ihr da überhaupt drauf gekommen und wie war das so vor 15 Jahren überhaupt was mit mit AI zu machen? So wird man da mehr so belächelt oder mehr so bewundert?
Fabi: Ja, mehrere Fragen. Also wir sind wieder drauf gekommen Und zwar ich war damals oder bin auch immer sehr, sehr starker Podcasthörer und hab halt immer wieder Podcasts gehört, die dann vor dann die Podcast geklagt, haben sozusagen, wie schwer alles ist. Das ganze Audio damals war ja noch viel schwieriger, also alle Kompressoren manuell einstellen, ich hab gleich Filter einstellen, dann weiß man wieder nicht, wie es klingt, ob das besser wird oder schlechter wird. Und mein persönlicher Backstand war eben, dass ich so so ein Studium im Bereich Audio gemacht hab und auch im Bereich Machine Learning und Informatik. Das war so kombiniertes Studium bei uns da damals. Und dadurch habe ich mir gedacht, na ja, da kann man mal probieren, so eine Lösung machen, weil dann sind dann auch andere Sachen dazugekommen, also die Workflows zu automatisieren, verschiedene Fileformate zu generieren und dann das Audio irgendwo hin zu spielen. Und so haben wir nebenbei anschauen, so ein Webservice zu machen, dass das irgendwie abdeckt und dafür haben wir dann auch eben eine Förderung damals bekommen vom von von Österreich. Also wir sind aus Österreich und dadurch habe ich dann auch können andere Leute dazuholen und dort hat sich das dann eben schon langsam entwickelt. Zuerst bleiben wir alles frei und dann schon langsam haben wir so ein Freemyomodell gemacht und so weiter. Eine andere Frage war jetzt an Machine Learning. Ja, Machine Learning war schon irgendwas spannend für mich. Da habe ich auch meine Diplomarbeit gemacht und dann auch Doktorat später angefangen, was ich nicht abgeschlossen hab. Und ja, das habe ich natürlich gleich versucht, so einzubauen. Also das hat damals vor 2012 oder war 'n vom Weg gestartet, hat's natürlich noch 'n bissel anders ausgeschaut wie heute. Also heute hat man halt diese riesigen Modelle, die auf GBUs laufen und so weiter. Damals war das noch viel kleiner. Also zuerst waren das immer hauptsächlich so Klassifikatoren, die erkannt haben, wo was passiert im Audio. Also wenn Musikteile sind, wo Sprachteile sind und so weiter, wo verschiedene Sprecher sind, dass man das 'n bissel besser unterscheiden kann. Und nach diesen Entscheidungen sind dann eben die die Algorithmen gesetzt worden, also die die Kompressor sind dementsprechend gesetzt worden und Limiter und und so so Game Curve Automation und da oder so Dinger. Und ja, das hat sich natürlich über die Zeit raus ein bisschen weiterentwickelt und mittlerweile sind die Modelle natürlich viel größer. Es sind nicht nur so kleine Klassifikatoren, denen man am Laptop dann einmal ein paar Tage trainiert, sondern man braucht halt mehrere Rechner, GPUs und so weiter dafür, solche Modelle zu trainieren. Aber prinzipiell ist das Konzept natürlich immer noch ähnlich. Ich hoffe, ihr habt jetzt nichts vergessen.
Jan: Wie wie wie war das denn für euch damals? Weil also heute, wo wir ja quasi in AI Boom Zeiten leben, so, ja, gibt es ja viel Off the Shelf und Sachen, mit denen man quasi starten kann, auch schon viele Open Source Projekte. Was habt ihr damals vorgefunden? So, ja, wenn Du jetzt sagst, okay, Du hast halt gerne Podcasts gehört und Du wolltest da dann helfen, das das zu verbessern, aber ihr habt ja wahrscheinlich eher so bei bei 0 angefangen oder gab's da schon was?
Fabi: Naja, also gegeben hat's natürlich schon sehr viel. Also in im im Open Source Bereich auch und auch im im wissenschaftlichen Bereich. Ich komme eben da selbst von der Uni, da habe ich viel Zeit mit Python gemacht, auch damals schon. Das ist viel verwendet worden im im Machine Learning Bereich. Da hat's auch schon diverse Bibliotheken gegeben. So wie wie sie jetzt auch noch verwendet werden, also dann für so Klassifikatoren hat's damals als Cykit Learning gegeben. Gibt's jetzt auch noch, aber jetzt wird's in der Software verwendet, zumindest bei uns. Und das waren die Basis Machine Learning Pakete, würde mal sagen. Und die ganzen Audioalgorithmen, was es dann noch dazu braucht, also solche Filter, das kann man sich natürlich auch über syPi generieren. Das haben diese ganzen Filtermethoden drinnen. Kompressoren, die mit da und so weiter haben wir größtenteils selbst gemacht, ja. Teilweise so ein LC und Seiten geschrieben, damit das ein bisschen performanter läuft. Und so die ganzen Stücken zusammengebastelt.
Georg: Und kannst Du für, jetzt haben wir ja schon viel, sind wir schon die die Ecke abgebogen so, was was jetzt sozusagen eigentlich die Technologie so interessant macht, mit welchen Challenges ihr am Anfang oder welches Problem ihr gelöst habt. Kannst Du noch mal für unsere Hörer da draußen, die jetzt nach der Intro mit, weil wir es hier im Podcast nutzen, vielleicht noch nicht ganz so schlau sind, Was gehört denn aktuell zum Produktportfolio, wenn Du da draußen jemandem grade auch vorne beschreiben würdest? Was würdest Du Stand jetzt sagen, macht die grade?
Fabi: Ja. Stimmt. Sind schon schon zu sehr technisch abgebogen. Ja, was machen wir? Also einerseits haben wir mal Audioalgorithmen, die das diesen Audio verbessern oder anders machen, wie immer man das bezeichnet. Dazu gehören einerseits dazu gehören verschiedene Komponenten, also einerseits Audioresteration, also versuchen das Audio besser zu machen. Da gibt's verschiedene verschiedene Sachen, die man machen kann. Also rauschen entfernen, dann auch so nicht nicht stationäre Störgeräusche entfernen oder so ein Tropfen zum Beispiel am Tisch, wie ich jetzt mach, was man wahrscheinlich nicht hört. Oder auch wenn ein Auto, wenn ein Auto, ja wahrscheinlich danach nicht mehr. Oder auch wenn ein Auto zum Beispiel draußen vorbei vor Fahrt oder Baby schreien oder Musik im Hintergrund ist, das kann man theoretisch alles rausrechnen, also Störgeräusche entfernen. Dann da haben wir auch verschiedene Modelle eben, dass man auch sagen kann, was man jetzt rausnehmen kann und was nicht. Also dass zum Beispiel Musik drinnen bleiben soll und Sprache auch oder dass man nur statisches Rauschen rausnimmt und nicht statische Geräusche wie so Effekte blind drinnen und so weiter. Dann der andere der andere größere Teil ist eben den Klang zu verändern, also hauptsächlich Filtering. Das heißt, Stimmen, wo zu wenig Höhen sind, verbessern oder wo zu viel besser sind, wo wo so Blosives, also wenn man ins Mikrofon bricht zum Beispiel, ich kann das jetzt da nicht demonstrieren, das rauszufiltern oder oft hört man, dass die SS so scharf sind, so so die nennt sich das dann, dass man dieses rausrechnet. Mhm. Also alles, was man mit Filtering zu tun hat. Und auch noch andere Sachen, so wie Codec, Artefakte rausrechnen, also so schlechte zum Beispiel. Oder bei bei Online Calls kennt man auch oft diese Codec Artefakte. Dann gibt's eben noch diese Leveling Einheit. Das war am Start unser Hauptding würde ich mal sagen. Die versucht eben verschiedene Sprecher auf gleiche Lautstärken zu bringen. Das war am Anfang oft das Problem in Podcasts, dass dass verschiedene Leute aufgenommen worden sind. 1 weiter weg vom Mikrofon. Oft hat man ja nur ein Mikro gehabt und dann war einem 1 ganz laut, 1 ganz leise. Dann hat man immer ein bisschen laut und leise schalten beim Zuhören. Ist natürlich nervig. Und das da haben wir eben natürlich am Anfang das verschiedene Sprecher klassifiziert und versucht eben diese auf eine ähnliche Lautness zu bringen. Dann muss man das Ganze natürlich mit Musik irgendwie kombinieren, was nicht so einfach ist, weil Musik hat viel mehr Dynamik. Das heißt, da kann man nicht alles einfach ganz gleich laut machen, sonst sonst klingt das natürlich blöd, wenn man dann die ganze Dynamik rausholt. Das heißt, das muss man halt separat behandeln. Und dann ist auch zu der Zeit, wo wir gestartet haben, sind grad diese ganzen Laugnes Standards eingeführt worden oder diskutiert worden, die jetzt mittlerweile schon sehr weit verbreitet sind. Also dieses r-r-einhundertachtundzwanzig von EPU zum Beispiel, der European Broadcastunion. Es ist im Prinzip einfach so ein Wert, der der versucht, die Lautheit von einem Signal zu zu bestimmen, weil das natürlich sehr subjektiv ist. Also jeder hört anders, jeder hat andere Formen der Ohren und Ohren und der Gehörgang ist auch bei jedem anders. Also das ist natürlich nur eine Mittelung über viele Personen, aber man versucht das halt irgendwie abzubilden. Und diese Erlaubnis Standards haben wir dann eben auch auch gleich hinzugefügt, dass man total Produktionen sozusagen gleich gleich auf den richtigen Erlaubnis dran hat präzisieren kann. Zusätzlich haben wir auch noch so spezielle Multitrack Version, also wo man dann nicht nur einen Track hat und dort das präzisieren kann, sondern auch verschiedene Tracks, so wie wir jetzt da sind. Dann machen wir 3 Sprachtracks zum Beispiel, dann könnt man noch einen Musik Track dazugeben und so weiter und so fort. Dann kann man halt alle alle Tracks so extra behandeln von den Settings her und son von Processing auch. Entschuldigung, bin ich bissel verkühlt. Ah. Hast
Jan: Du ja gerade schon eine riesige Bandbreite an an Tools und Polizisten beschrieben. Ja, das
Fabi: kann
Jan: ich mir vorstellen und ich frag mich dann so, wie wie wie bringt dir das am Ende zu den Nutzerinnen? Ja, weil ich mein, wenn ich son Tool wie Offeronic nutzen will, dann bin ich ja wahrscheinlich jemand, der das der da neu ist oder der das selbst gar nicht machen kann, der sich vielleicht da gar nicht so so so auskennt, ja Und dann muss ich ja auch überhaupt erst mal wissen, was von diesen ganzen Sachen, die Du grade genannt hast, brauche ich? Wie viel von welchem brauche ich? Welche Regler muss ich da vielleicht betätigen? Also wie viel Automatisierung von all diesen Tools müsst ihr im Prinzip auch anbieten, das nutzbar zu machen oder bietet ihr nur Low Level an, ne? Wir haben hier diese ganzen Funktionen und und Algorithmen, das eben auszuführen, aber wie Du das nutzt, lieber Benutzer, liebe Benutzerin, das ist so euch überlassen.
Fabi: Nein, das ist natürlich ein schwieriges Problem, ja. Also prinzipiell prinzipiell sollte das ja alles automatisch passieren. Also wir haben so unsere Default Settings und die passen auch für diesen für die meisten Use Cases, würde ich mal sagen. Nichtsdestotrotz gibt's natürlich immer wieder andere Use Cases, die das anders haben wollen, was man nicht automatisch erkennen kann im Vorhinein und dazu kann man sich das dann natürlich anpassen. Im Prinzip haben wir das auch verschiedene Presets für verschiedene Use Cases und jeder kann sich dann auch selber Presets erstellen oder die Production anpassen, soweit er will und in diese ganzen Seitiges reingehen oder eben auch nicht. Aber ist natürlich ein schwieriges Problem hauptsächlich vom vom User Interface, ja.
Jan: Und ist das nicht auch son sehr Subjekt? Also ich kenn, wie gesagt, ne, so Audiotontechnik ist nicht so meins, willkommen bei mir im Podcast, aber wie wie viel Subjektivität steckt denn da da auch drin, ne? Also wenn ihr jetzt sagt, ihr versucht da son son Default zu liefern, das für alle funktioniert, Das ist ja vielleicht auch sehr subjektiv, was man jetzt eigentlich so als Ergebnis haben will und wie es irgendwie klingen soll am Ende des Tages.
Fabi: Ja, das stimmt. Nichtsdestotrotz kann man einiges Sachen einigermaßen objektiv machen, also sowas wie Auderestauation. Also man muss natürlich entscheiden, was man jetzt will als Mensch bin mal, dass Geräusche weg sind oder dass Musik weg ist. Aber wenn man das weiß, kann man schon das versuchen, so gut wie möglich zu machen. Wenn's eine Artefakte gibt, wird's natürlich subjektiv, dann kann man noch einstellen, wie viel man wegnehmen will, aber wenn's theoretisch perfekt funktioniert, sollte es auch subjektiv den meisten passen. Bei Filtering ist es natürlich wieder anders, also da hat jeder oft andere Vorlieben, wie jetzt die Stimme klingen soll natürlich. Wobei wir trotzdem relativ selten so Anpassungswünsche kriegen von den Usern, aber da werden wir jetzt in der Zukunft auch mehrere Settings erlauben, dass man das bissel anpassen kann im im Filtering Bereich. Und zwar beim Bei Lautness Standards ist es sowieso ein fixer Algorithmus, der das vorgibt. Also das ist ähnlich subjektiv. Aber ja, prinzipiell kann man schon einige Sachen objektiv machen, aber es gibt natürlich immer subjektive Sachen. Das kann der User natürlich auch vorher oder nachher noch selbst anpassen. Also das ist prinzipiell kein Problem.
Georg: Und vielleicht, noch die für die Hörer dort nämlich komplett zu machen, was die was genau das Tool ist. Also wie genau nutze ich wie kann ich auch FANING denn nutzen? Wozu benutze ich das nur als Service? Bin ich das in meine Daw ein? Ist das ist das 'n Webportal? Habe ich irgendwelche anderen Integrationen? Also wie wie genau kommt denn Audio zu euch und wie kommt's wieder zurück? Sorry, Fabi, aber in
Jan: was willst Du das einbinden?
Georg: In 1 DAW, an der eine Daw, das ist sozusagen Logic für dich oder wie Du nutzt ja meistens Garage Band.
Jan: Also nur so für alle da draußen, die ähnlich wenig Ahnung haben wie ich, so muss halt das ein oder andere vielleicht noch mitecken. Ich weiß
Georg: gar nicht, ich glaube es heißt Digital Audio Workstation, glaube ich. Also ich glaube, das ist sozusagen der digitale Mischer sozusagen.
Fabi: Ja. Heißt sie. Also ein Audioprogramm im Prinzip. Ja, gute Frage. Gibt's natürlich auch viele Möglichkeiten. Also prinzipiell haben wir einmal als Webservice gestartet. Natürlich ist ja noch immer unser oder 1 unserer Hauptdinger, also auf Honeq Punkt com kann man einfach hochladen und dort verschiedene Settings ausfüllen oder auch nicht. Und dann auf klicken oder Start und dann wird die Datei eben aus unseren Servern bearbeitet und dann bekommt man sie wieder zurück. Dann kann man's noch irgendwo hinschicken lassen und so weiter, alle möglichen Integrationen. Dann haben wir eben auch eine API, wo man unsere Systeme woanders integrieren kann. Also mit der API sind wir auch in vielen anderen Systemen dann so hinten integriert,
Georg: Mhm.
Fabi: Wo man uns gar nicht sieht. Und also irgendwie Podcast Hosting oder Recording Software und so weiter. Und dann haben wir verschiedene andere Möglichkeiten, also ist auch Watchfolder zum Beispiel, das geht wieder übers Websystem, also wo man, ne, wo man zum Beispiel in der Google Drive 'n Verteiler anlegt, dann wird's automatisch präzisiert und dann wird aber anders hin getan. Also ist auch Workflow Automatisierungssachen. Ja, Commandline Interface haben wir mittlerweile auch so wie jeder. Früher haben wir auch noch eine Desktop App gehabt, die gibt's mittlerweile nicht mehr seit 2 weil das waren einerseits waren das noch die alten Algorithmen, also wo wir noch keine GPUs gehabt haben zum Rechnen. Was jetzt natürlich viel schwieriger ist, weil unsere Models nur mehr auf spezielle GPU Hardware laufen, also das für alle anzupassen, ist natürlich noch mal was anderes. Alle Desktop User. Genau und jetzt hat sich das im Moment einfach nicht mehr ausgezahlt. Vielleicht kommt es in Zukunft noch einmal. Dann zu den Digital Audio Workstations. Die verwenden eben meistens so Plug ins, VSD Plug ins und so weiter. Diese Plug ins haben meistens, das war irgendwie der Start von Aphonics, weil früher ja meist in dieser Plug in Welt war oder ist ja jetzt auch noch immer. Und die Plug ins funktionieren meistens so, dass sie eben nur einen kleinen Ausschnitt vom Audio sehen in so ein paar Millisekunden und das prozessieren. Dann wieder rausgeben. Also das kommt noch so aus der analogen Welt. Also Audio rein, Audio raus, möglichst in Realtime. Und unsere Algorithmen funktionieren eben komplett anders. Also das ist komplett nicht Realtime, also da wird das ganze Audio zuerst analysiert und dann
Georg: in mehreren Schritten bearbeitet sozusagen. Also das ist ein bisschen anders, also
Fabi: das ist ein bisschen mehreren Schritten bearbeitet sozusagen. Also das ist ein bissel anders wie dieses VSD Konzept. Deswegen gibt's jetzt auch kein Plug in von uns in dem Sinn. Nichtsdestotrotz gibt's bei Plugins eben auch schon mittlerweile andere Ansätze, die offline funktionieren. Vielleicht kann man da in Zukunft auch noch mal was machen.
Georg: Interessant und weil Du gerade noch mal angesprochen hattest, dass es ja auch viele Services gibt, die euch hintenrum nutzen. Was ist denn der Großteil eures Geschäfts? Ist das wirklich direct to Consumer, dass wirklich Leute eine Subscription bei euch haben oder habt ihr mehr sozusagen über seid irgendwo hinten dran als Schnittstelle?
Jan: Was ist was ist bei dir?
Fabi: Ja, wir sind bei hinten dran als Schnittstelle das Größte. Ich kann jetzt gar nicht sagen. Also ich glaub, es haltet sie so die Waage ziemlich halb halb. Okay. Würde ich sagen. Cool, wenn
Georg: wir jetzt son bisschen verstanden haben, wie das jetzt eigentlich so produkttechnisch läuft, ich ich find's für euch okay ist Jan, dass wir noch mal son bisschen dann wieder auf die technische Ebene mehr gehen, weil was ich gerne mal verstehen will, Du hattest ja vorhin, als Du auf Fonic so featuremäßig erklärt hast und genannt hast, welche Komponenten da drin sind, was ja super viele sind, wo wir noch nicht mal alle von besprochen haben, aber als Beispiel hast Du ja zum Beispiel den DSA genannt und auch gleichzeitig gesagt, eure Machine Learning Modelle, die auf der GPU laufen. Da stellt mir son bisschen die Frage, was bedeutet das denn? Ist denn jede von diesen Featuresektionen eine Art eigenes Modell, eigene Schritt in der Pipeline? Ist überhaupt alles 'n Machine Learning Modell oder sind manche Dinge nur, ich sag jetzt mal, einfach einfache Algorithmen? Also wie kann ich mir das Ganze vorstellen? Weil so aus der AI Welt, aus der wir jetzt mittlerweile die letzten 2 Jahre am Sprechen waren, ist ja meistens so das eine große Modell, das multimodalbild, was einfach immer mehr kann und ich werfe nur 1 rein, eine Sache rein und krieg das Ergebnis wieder raus. Wie kann ich mir das bei iPhoneic vorstellen?
Fabi: Jazz ist eine Kombination von allen, ja. Also prinzipiell sind die verschiedenen Einheiten verschiedene Modelle beziehungsweise Kombinationen von verschiedenen Modellen. Teilweise gibt's auch noch normale Algorithmen, ja, also Signalverarbeitungsalgorithmen, also wie zum Beispiel ein Limitar oder oder lautendes Normalisation und so weiter. Wie kann man das Bild genauer erklären? Also zum Beispiel beim Deinoizing. Da haben wir verschiedene Modelle, die verschiedene Sachen machen. Also da kann man ja einstellen bei uns jetzt zum Beispiel, wie viel man vom Noise wegnehmen will, wie viel man vom Reverb wegnehmen will oder von den Atma, also von den Breath. Und das sind prinzipiell verschiedene Modelle, die dann eben dementsprechend kombiniert werden, damit eben genau dann diese Einstellungen rauskommen oder weil Du die Esser genannt hast. Es ist zum Beispiel in unserem Auto EQ Modell, so nennen wir das. Also da ist jetzt der DSser kein extra Modell, aber dieses Auto EQ Model bekommt halt alle möglichen Daten. Also als Zieldaten immer die schönen Daten sozusagen und dann als Input eben Daten, wo jetzt zu viel von diesen SS drinnen ist oder eben zu viel tiefe Frequenzen drin sind oder zu viel Pops oder was auch immer. Also alles, was man halt ausbessern will, muss man versuchen, in den Trainingsdaten zu modellieren, dass man eben die schlechten Daten vorn reingibt und die die guten Daten soll dann hinten rauskommen. Und so trainiert man dann halt diese diese Models an, ja.
Jan: Und wenn Du jetzt grade schon übers Model Training sprichst, also wir sprechen ja da hier bei uns im Kontext meistens über LLMs und Training davon und wie viel Unmengen Text da da dafür gebraucht werden und da profitieren ja diese ganzen Labs eigentlich davon, dass so viel Text eigentlich kostenlos oder fragwürdig zugänglich im Internet irgendwie zur Verfügung sind, aber wo bekommt ihr denn Trainingsdaten her? Also ne, wenn Du jetzt sagst, Du willst dir dein dein DSing irgendwie machen, dann brauchst Du ja auf der einen Seite Negativbeispiele dafür und die muss man ja auch irgendwo haben und eine Lizenz dafür haben und nutzen dürfen und auf der anderen Seite ja aber auch Positivbeispiele, also wo das quasi schon entfernt worden ist, so. Wie wie wie wie baut ihr son Trainingsset auf?
Fabi: Ja. Das kommt natürlich auf dem Task davon, aber wo die Trainingsdaten. Es gibt einerseits gibt's einmal öffentliche Datensätze für solche Sachen. Wenn auch nicht so viele, aber teilweise schon. Und andererseits verwenden wir auch die die Daten von unserem System fürs Training, außer man macht eben ein Training Opt out. Dann, wie kriegt man diese Beispiele? Das ist natürlich das Schwierigste, weil man braucht vor allem sehr gute Beispiele als Target und vor allem bei diesen ganzen Trainingdatensätzen, die es frei gibt, die sind oft halt auch nicht so gut, dann ist wieder ein bisschen ein Neues dabei oder Verzerrungen in der Stimme, was auch immer. Also das ist wirklich sehr viel von der Arbeit, dass man eben 100000 oder Millionen Audifils durchhört und schaut wo und das aussortiert, was wie gut ist in verschiedenen Kategorien. Okay, das können wir für dieses Model verwenden, das für dieses Model und so weiter, weil verschiedene Models haben ja verschiedene Anforderungen. Also zum Beispiel, wenn ich jetzt dieses Filtering Model trainieren will, also den Auto EQ, dann müssen die Daten spektral sehr gut sein. Also da dürfen wir jetzt keine Spektralverzerrungen drin sein. Aber es ist vielleicht egal, ob da ein bisschen Neues drinnen ist, weil das trainiert das Model ja nicht. Beim DIN Neues ist das wieder anders. Also man muss einmal versuchen, zumindest für diese Models muss man mal versuchen, möglichst gute Daten zu bekommen und dann ausgeht man eben sich so Transformations, also Transformationen zusammen, die aus diesen guten Daten dann schlechte Daten machen. Es kommt dann Okay. Hinten sozusagen rein. Ah. Weil das wär jetzt uns
Georg: auch meine Frage gewesen. Seit draußen gibt's ja bestimmt keine Beispieldaten mit vorher nachher. Das heißt, ihr nehmt immer, Ausgang ist immer das gute Material und ihr bringt sozusagen Neues oder Wie beim DSer kann man kann man wieder mehr s reinbringen sozusagen.
Fabi: Nee, das ist einfach
Georg: hoch drin.
Jan: Ja, das sitzt der Georg dann Nachmittag lang vorm Mikrofon und sagt nur und nimmt das dann die ganze Zeit auf.
Fabi: Genau, zum Beispiel.
Georg: Ja super interessant und also jetzt hat ja grade Jan, ist Du bist son bisschen auf die, okay, wo kriegt man Daten her so und okay, gibt wohl relativ viel frei und dann zumindest ist euer Job die zu kategorisieren, je nach Modell und dann noch die schlechte Variante davon zu zu generieren. Jetzt hast Du aber ja eigentlich also von Trainingsdaten gesprochen und hat man halt sozusagen den den einen Auto EQ und das andere ist der DSer. Und jetzt haben wir ja, wenn man wenn man in dem aktuellen AI Space unterwegs ist, so die oder meine Frage wäre jetzt, wie sind die denn Architekturell? Ist das Architekturell trotzdem alles die gleiche Architektur, die einfach nur mit anderen Trainingsdaten gefüttert wird? Weil wenn man's auch wieder da den LLM Kontext sieht so, basiert irgendwie im Grunde genommen alles auf Transformer so, also die Architektur bleibt immer die gleiche oder wie ist das jetzt im Audiokontext? Also sind das unterschiedliche Architekturen? Ansonsten wär wahrscheinlich mal eine Folgefolge, wenn's die gleiche ist, warum kann ich die nicht einfach alles auf einmal machen lassen?
Fabi: Architekturen und alles auf einmal. Ja, also Architekturen sind das schon verschiedene. Das kommt wieder auch aus Model drauf an. Also die einzelnen verschiedenen Models bei uns haben jetzt sone ähnliche Architektur. Das Auto EQ ist wieder anders. Dann im Moment bauen wir wieder ein komplett anderes Model. Dann haben wir auch so verschiedene Multi Track Models, die funktionieren auch anders, die so im Übersprechen von anderen Tracks wegrechnen und so weiter. Also das sind schon sehr unterschiedliche Architekturen. Es ist jetzt nicht so vereinheitlicht wie bei wie bei den Language Models würde ich sagen. Also wir haben auch viele so im Audiobereich viele so rekorrente Strukturen, also mit LStMs oder GAUs und so weiter. Also wo rekorrente Netzwerke sind, das verwendet man bei Texte fast nicht. Verwenden aber auch viele Transformer natürlich und dann auch schon in letzter Zeit immer mehr so Self Self Supervised Learning Models, wo dann so Features generiert werden, die dann wieder andere Models weiterverwenden und so Also da gibt's sehr verschiedene Architekturen. Und warum kann ich nicht ein alles in einem Model trainieren? Kann man vielleicht schon, aber einerseits will man ja auch eine gewisse Art von Kontrolle haben, weil manchmal willst Du ja zum Beispiel nicht den Auto IQ haben, weil Du schon vorher deine Stimme sozusagen oder danach die selbst so echuen willst, wo Du es willst. Oder Du wirst nur gewisse Sachen entfernen eben vom Au oder den anderen nicht. Also man muss dem User auch irgendeine Kontrolle über das geben, was gemacht wird. Da braucht man natürlich verschiedene Models und jetzt hat man natürlich die Möglichkeit, dass man alle Kombinationen, die es gibt, irgendwie in ein Model rein trainiert und dann braucht man für jede Kombination ein Extramodel, was dann, wenn es mehrere Optionen gibt, gleich mal sehr viel wird. Man versucht eben ein bisschen ein paar aufzuteilen, dass man das dann einfach kombinieren kann im Endeffekt. Zusätzlich, ich glaube, die funktionieren gewiss es auch noch besser, wenn ein Modler von spezialisiert ist, sonst braucht man halt wahrscheinlich nicht ein größeres Modler für für äquivalente Aufgaben.
Jan: Und wenn Du grade die Modelgröße schon angesprochen hast, nur zur zur Einordnung, wie muss ich mir das denn vorstellen? Wie groß ist denn dann 1 von diesen Modellen oder wie viel Hardware brauche ich denn da wirklich, das auszuführen? Sind das so kleine Modelle, die man auch auf kleineren GPUs oder teilweise sogar vielleicht sogar noch auf CPUs irgendwie ausführen kann oder ist das alles schon was, wo er sagt, so, nee, wir haben hier 'n riesengroßes, weiß ich, entweder 'n GPU Cluster oder so TPU Prozessoren, die halt irgendwie super darauf spezialisiert sind, so wie wie anspruchsvoll ist das am Ende, was was eure Models angeht?
Fabi: Ja, also zum zum Training braucht man natürlich die TU Cluster, ja, damit man das einigermaßen trainieren kann. Hängt natürlich auch wieder vom Model ab, wie lang das jetzt dauert, oder wie viel da gebraucht wird. Und von der Inference her lauft es auf auf GPUs, ja auf CPU. Man funktionieren wird schon, aber halt ewig lang würde es brauchen.
Jan: Und das betreibt ihr selbst oder wo wo betreibt ihr so eure Infrastruktur, diese ganze Inference zu machen?
Fabi: Ja, also die Inference machen wir bei Hedgener, der berückserver Server und die Trainingsserver, aber nicht, das wär 'n bisschen teuer, haben wir also hauptsächlich eigene Server zusammengebaut mit Endiografikkarten und die stehen bei so einem Biobauernhof mit sehr großer Fotovoltaikanlage und Serveraum unten. Und der ist halt froh, dass er uns seinen Strom verkaufen kann sozusagen und hat dann superviel Frauen. Und mit der Abwärme soll jetzt dann im nächsten Jahr auch noch ein Heizwerk betrieben werden. Also das ist Und
Georg: dieser Biobauernhof? Das war dann eure Idee oder ist das ja das ist der Business Case von dem Biobauernhof gewesen? Wie kam wie kam dieses wie kam das zustande? Das jetzt auch nicht also hab ich auch zum ersten Mal, dass jemand seine eigene Server auf 'nem Biobauernhof betreibt.
Fabi: Ja, ja, na das war Zufall. Also wir waren vorhin zu einem anderen Rechenzentrum und bei denen haben wir halt dann raus müssen und das hat sich dann so irgendwie ergeben. Das
Jan: Also ich würd, das das wär Teil von meiner Marketingkampagne vorne und hinten, muss ich sagen. So irgendwie AI Produkte von glücklichen Kühen, das ist
Georg: Und aber gut, ich mein, macht ja bei dem Use Case, ich mein dadurch, dass es ja Also da nutzt ihr die Server, die ihr daschnitt, die Server reine Trainingsdaten, das heißt rein theoretisch, würde man sagen, auch keine Ahnung, jetzt irgendwie Erreichbarkeit, Ausfallwahrscheinlichkeit, vielleicht auch die Datenneite, die da hinten liegt, ist gar nicht so wichtig oder würdet ihr da theoretisch auch User Faceing Services drin treiben?
Fabi: Na, das das nicht. Also zumindest nicht im Moment. Aber das ist das ist rein fürs Training, ja? Das Training braucht ja viel viel mehr Ressourcen, weil weil das viel aufwendiger ist, ganz einfach.
Georg: Hast Du da hast Du da irgend eine Kenngröße so? Also wenn ihr da jetzt eine Komponente Ich ich man kennt jetzt irgendwie viel, wenn wir uns drüber unterhalten, so mit LLM und irgendwie Trainingszeiten und Trainingsdaten so, aber Du hast jetzt irgendwie vorhin schon gemeint bei so im Millionenbereich irgendwie an möglicherweise Trainings Daten. Wie lang wie lang dauert das? So 1 von, Du hast da irgend 'nem Beispiel, das letzte Training, was Du gemacht hast, wie lang so was dauert, son Modell zu trainieren?
Fabi: Ja, zum Beispiel eine Woche.
Georg: Okay und das ist aber Das ist aber ja und
Fabi: das ist
Georg: aber eher so relativ ähnlich bei den verschiedenen Modellen, weil auch die Menge an Daten eigentlich auch immer relativ ähnlich ist so oder hast Du da so die Varianz?
Fabi: Na ja, ist leider auch nicht so ganz leicht zu beantworten, weil verschiedene, also manche Models bestehen wieder aus verschiedenen Submodels. Also da trainiert man zuerst einmal alle Submodels. Also da gibt's diese diese Featuremodel, was man zuerst einmal trainiert und dann wieder anderes bemodel, was daraus was macht und dann wieder das DINozy Model, was zum Schluss das Auto wieder generiert. Also da trainiert man zuerst sich mal zum Beispiel alle Submodels und dann trainiert man die, mag man auch kombiniert ein bisschen zum Schluss und also das ist mehr so, mehr so Zusammenbauen von verschiedenen Teilen.
Georg: Okay und wenn wir mal vielleicht noch mal so Big Picture für die Hörer da draußen, die Architektur von euch noch mal son bisschen komplett machen. Das heißt, ich hab jetzt verstanden, ihr habt die Bio Server zum Trainieren auf der beim Bauern. Ihr habt Hetzner GPUs, die Models auszuführen und was gehört denn sonst noch zu eurer Infrastruktur? Also die Services, die ihr die ihr hostet, die liegen auch dann einfach alle bei Hetzner. Wenn ja, was habt ihr da für eine technologiebild Sprache? Was wie sind die umgesetzt?
Fabi: Also zuerst mal zu den Servern. Also unser ganzes Hosting läuft hauptsächlich auf Hetzner, ja. Dann haben wir noch in Island haben wir auch noch ein paar Server also zum Trainieren, weil in Island auch das schon ziemlich billig ist. Und genau, das sind die Hauptstandorte und dann dann wie wie schaut das aus beim bei unserem Proporativsystem? Also die Server eben zum zum sind bei Hetzner. Dann haben wir jetzt kürzlich den Storage aber unten gestellt, der den haben wir mittlerweile bei Cloudflare, weil wir bei Hetzner leider einfach zu viel Probleme gehabt haben mit internationalen Traffic. Das war halt ist halt manchmal einfach zu langsam. Mhm. Und deswegen schaut das jetzt eben so aus, also wir haben unsere ganzen Audiodateien werden zuerst, also wenn wir was zu uns hochclaudert, in so 1 Cloudflare Packet, da gibt's diesen R2 Speicher, was so ein S3 Speicher ist vom Cloudflyer wird es hochgeladen und dann wird es bei Hetzner sozusagen wieder von Cloudflyer bezogen und dann präzisiert und zum Schluss wird es wieder auf Cloudflyer und dann wieder ausgeliefert. Bei Cloudflyer gibt's wiederum verschiedene Packets, je nachdem, ob der User jetzt von der EU kommt. Da gibt's auch Strict EU Juristication, also dass die Daten eben garantiert in der EU bleiben und dann eben international, je nach Kontinent. Es ist im Prinzip unser unserer Struktur Und dann dann das System bei uns, also das Websystem von uns ist Jango, Python Jango. Und da kommen eben die Dateien und die ganzen Einstellungen rein und die Datenbank und so weiter. Also Datenbankserver haben wir auch bei Hetzner, das ist für aufgeteilt. Und dann das Prosetting funktioniert eben in 1 Queue. Dazu haben wir so eine Sellery Queue, bei bei Changle gibt's das. Also da schickst man dann den Job rein, wird vielleicht das Autoprocessing und kriegt's dann wieder raus. Zusätzlich ist es noch 'n bisschen komplizierter mit diesen GPU Rechnern, weil da gibt's dann wiederum ein anderer EQ, wo das ganze GPU Prozesse funktioniert, weil diese ganzen Models müssen dann immer im V-RAM von der GPU gehalten werden, weil sonst Also man kann nicht einfach immer das Model laden, wenn man ein Autofeind prozessiert und dann wieder weg. Also entladen und dann das nächste Laden, weil das ist einfach zu langsam. Also man muss das eben immer im V-Rahmen halten und deswegen muss das eben gut aufgeteilt sein, dass das alles hier ausgeht und so weiter. Wir müssen uns das halt langsam. Und danach, wenn das Auto fertig ist, konzentrieren wir in dieses Cloud Flap Packet und das wars im Prinzip, ja.
Jan: Wie macht ihr denn so was wie Observability, weil das so 1 von diesen ganzen Punkten in diesem AI Space ist ja so viel nicht deterministisches Zeug passiert, wenn man dann das Processing macht. Und wenn ich jetzt hier quasi meine Tonspur hochlade und die und die wieder bekommen, wie habt ihr denn Monitoring darauf, ob das funktioniert hat, ob da komische Artefakte drin waren, ob ich zufrieden bin damit? Also wie wie überwacht ihr das son bisschen im laufenden Betrieb?
Fabi: Ja. Einerseits einerseits viel menschliches Testen. Also bevor wir die Models deployen natürlich. Wir haben einen großen Best Datensatz für für jedes Model, eben unterschiedliche, die wir dann halt da wirklich immer manuell einfach nur durchhören, weil es gibt schon so automatische Mashougs auch, den man sich berechnen kann. Die haben halt leider oft nix mit der subjektiven Wahrnehmung zu tun. Also das muss man halt echt alles menschlich durchführen. So wie die Trainingsdaten auch. Und dann natürlich im System einerseits haben wir son Feedbackmechanismus, wo man eben schreiben kann, wenn irgendwas nicht gepasst hat, die Usern und das schauen wir uns dann natürlich genau durch. Dann haben wir auch so ein bisschen einen Audio Editor bei uns mittlerweile, wo man über diese Features haben wir gar nicht grädert, also zum Beispiel Cutting, muss man viel weiter raus, können wir auch schon detektieren und die automatisch rausschreien oder oder Husten, Räuspern, Stille, was auch irgendwas. Da hat das ja verschiedene Sachen. Und das kann man dann eben auch noch selbst anpassen im im Editor und dadurch sehen wir natürlich auch, bekommen wir natürlich auch diese Daten und sehen, wenn der User was anpasst und können checken, ob ob das das dann zu den Trainingsdaten hinzufügen sollen. Und das das erweitern wir gerade in andere Richtungen auch noch. Also beim Levelar zum Beispiel und bei den Neusser haben wir es auch schon, dass man da im Anker passen kann, wo genau was weggenommen werden soll in der Zeit und so weiter. Also ja Feedback und selbst hören im Endeffekt.
Georg: Wobei jetzt Kannst Du uns noch mal 'n bisschen Kontext darüber geben, weil Du jetzt auch meines, da ist ja viel manuell, man muss es irgendwie durchhören so. Wie viele Leute seid ihr denn bei OFONIC und wie teilt ihr euch so inhaltlich auf?
Fabi: Ja, wir sind 12 Leute. Wir sind mal inhaltlich aufgeteilt. Also 3 Leute tun eben nur hören. Wir bezeichnen das als Audiolabeler, aber wie immer man das bezeichnen will. Also verschiedene Trainingsdaten sortieren, Production schauen, neue Runs, evaluieren und so weiter. Also das braucht ja alles sehr viel Zeit. Das machen hauptsächlich diese 3 Leute und auch die Entwickler natürlich zusätzlich, die dieses Model jetzt entwickeln. Dann Web Development Team sind jetzt sozusagen 3 Leute. Dann Algorithmenentwickler 3 beziehungsweise 4. Dann bin noch ich, ich bin bissel so überall drinnen zur Entwicklung
Georg: und
Fabi: wen haben wir jetzt noch? Einen haben wir noch für Marketing mitm Credit, den ich da vorher schon geschrieben, Jan, gell?
Jan: Genau, genau.
Fabi: Also Marketing wär untertrieben, alles, was sonst denn noch so offen ist.
Jan: Ich glaub, wer nimmt das nicht böse so. Du Du hast grad gesagt, ihr habt diese diese Audio Labeler und aber auch die Developer, die sich das auch dann noch mal anhören, wenn sie gerade eben an diesen Modellen arbeiten. Haben alle bei euch irgendwie 'n Hintergrund auch in so Audioengineering oder ist das was, wo man sagt so, na ja, ob da jetzt noch esse oder stumme Teile drin sind, das hört auch jeder und das Audio Labeling kann jeder machen oder wie viel Domänenwissen muss man denn da quasi mitbringen?
Fabi: Ja, haben eigentlich fast alle Hintergrund in in dem Bereich, ja. Es sind viele, also bei uns gegen Graz, wo wir herkommen oder wo wir unser Büro haben, gibt's eben so ein Toningenieurstudium. Da haben wir einige Toningenieure bei uns. Eben bei den Algorithmenentwickler und bei den Audilabeler dann sogar der Christ, der jetzt Marketing und so weiter macht, ist Toningenieur vom vom Studium her. Dann
Jan: Fabi guckt grad schon so, als ob er sich 'n neuen Job irgendwie grade ausmalt so.
Georg: Ja, ich mein, eine Tonstudie haben wir ja auch bei uns hier, oder? Also von daher.
Fabi: Genau. Genau. Don't Studie haben wir noch nicht. Jo, was haben wir noch? Ja, eigentlich die einzigen, die nicht so den Audioproground haben, sind die Web Developer, aber bei der 1 auch Audioproground hat. Ja. Die waren Musiker, ja. Sind schon alle sehr audioaffin, soll man so.
Jan: Das ist ja cool, also es es spricht ja auch für euch, ja, wenn man sich dann da quasi in der Nische so mit mit austoben kann und spricht ja auch fürs Produkt irgendwie am Ende des Tages.
Fabi: Genau.
Jan: Jetzt, also korrigier mich gerne, wenn ich falschlieg, aber jetzt seid ihr ja nicht irgendwie riesenventurekapital finanziert und schmeißt hier mit Rechenpower euch, wie das irgendwie manch andere große Player in dem Spiel machen. Wie war das denn für euch am Anfang oder wie ist das denn denn jetzt grade, wenn man son AI Produkt vertreiben will und da ja vielleicht pricing mäßig sich erst mal ganz anders orientieren muss als, ich sag mal, klassische Web SARA Produkte irgendwie, ja, die vielleicht 'n Webserver und eine Datenbank brauchen, aber bei euch ja schon richtig viel Rechenpower und Hardware irgendwie gebraucht wird, ja? Wie wie war da so euer Weg hin, 'n 'n Pricing Modell zu entwickeln für das, was ihr da alles macht?
Fabi: Ja, na, ich muss sagen, das Pricing ist eigentlich schon vor diesem ganzen aufwendigen, neuen Machine Learning Hype entstanden. Also am Anfang war's ja noch nicht so aufwendig, diese ganzen älteren Machine Learning Techniken waren nicht so rechen aufwendig. Das heißt, die sind dann hauptsächlich auf CPUs gelaufen. Und das heißt, zu dem Zeitpunkt, wo wir dann mit der CPUs und so weiter angefangen haben, haben wir eigentlich schon schon Cashflow gehabt. Also wir waren da eigentlich schon durch durchfinanziert für die Größe, was wir eben damals waren. Also wir haben keine keine Investoren oder irgendwas. Also wir wir finanzieren uns alles aus unseren Einnahmen. Und ja klar, mittlerweile wird's natürlich teuer. Also wenn man wenn man jetzt dann zum Beispiel Training Runs auf ABS macht, dann wird das halt sehr teuer und das alles anmieten muss. Deswegen haben wir halt immer versucht, das so günstig wie möglich zu machen. Deswegen auch eigene Server gebaut hauptsächlich fürs fürs Training eben und Photovoltaik, Strom und so weiter oder im Island. Ja, im Prinzip, glaube ich.
Jan: Aber würdest Du dann sagen würdest Du dann sagen, es war 'n Vor- oder 'n Nachteil für euch, dass ihr quasi schon diese ganze Preisstruktur und und und Cashflow hattet, weil zum einen, ja, wie Du schon gesagt hast, zum einen hattet ihr schon Cashflow und musstet nicht bei 0 anfangen. Zum anderen hast Du ja aber vielleicht auch schon bei deinen Usern, Userinnen eine Erwartungshaltung irgendwie, was mich jetzt dieses ganze Audioprocessing hier kostet und wenn das jetzt auf einmal so viel komplexer und aufwendiger und und teurer für euch wird, dann ist das ja vielleicht auch nicht so ganz trivial, das 1 zu 1 irgendwie weiterzureichen oder?
Fabi: Na, das war für uns sicher ein großer Vorteil, weil wenn Du jetzt anfangen musst und einmal Du brauchst halt einmal die initiale Investition, dass Du mal ein gewisses gewisse Training Infrastruktur hast, ganz einfach. Wenn Du das nicht hast, musst Du es halt mieten, was natürlich langfristig jetzt viel teurer ist. Für den Anfang natürlich geht's nicht anders, aber Du musst halt einmal ein paar 100000 Euro zumindest in die Hand nehmen, einige Rechner im umzustellen. Und das war für uns natürlich schon viel leichter, weil wir schon die Firma gehabt haben sozusagen. Für die Erwartungshaltung der User, was Du gefragt hast, also wir sind mit unseren Breiten eigentlich nicht wirklich teurer geworden über die Zeit. Also wir haben's halt versucht über die Masse sozusagen zu regeln. Und der Service ist halt natürlich immer größer geworden über die Zeit und dadurch mehr Einnahmen.
Jan: Vielleicht magst Du ungefähr sagen, also muss ja keine geschäftsinterne ausplaudern, aber wie wie viele User hat denn OFONIC so ungefähr? In welcher Größenordnung seid ihr da unterwegs?
Fabi: Wir haben im Moment so circa 3000000.
Jan: Das da kriegt auch Fabi große Augen.
Fabi: Ja, aber das
Georg: sind doch über einige.
Fabi: Das sind jetzt natürlich nicht zahlende User, also insgesamt.
Jan: Ja, aber trotzdem, also auch die nicht zahlenden User wollen ja mit Infrastruktur und Rechenleistung versorgt werden, die kosten euch ja trotzdem Geld.
Fabi: Na ja klar, kommt drauf an halt, wie viel sie prozess sehen. Also gibt sicher viele Account Leichen, so was soll.
Georg: Ja, die gibt's überall. Und ich würd gerne mal son bisschen auf also auf 2 Parts eigentlich eingehen, die möglicherweise miteinander zusammenspielen. Du hast ja vorhin schon gemeint, also auch für alle noch mal draußen, ne, also im Grunde 'n bisschen in erster Linie geht's ja Voice und die Voiceoptimierung, die eure Modelle sind, das ist ja schon gemeint. Musik ist dann schon direkt wirklich viel schwieriger, weil's da irgendwie ganz andere Anforderungen an Dynamik und so was gibt und vielleicht kannst Du noch mal son bisschen auch 'n Ausblick darauf geben. Ich auch die Zeit, wo ihr auf Podcasts gesetzt habt, in der Zeit ist ja einiges sehr viel größer geworden. Das heißt, das ganze das ganze Umfeld, das heißt, es gibt potenziell natürlich sehr viel mehr Kunden für diesen Service, aber denkt ihr darüber nach, auch wirklich Audio und auch vielleicht in Richtung wirklich, keine Ahnung Songproduktion oder so was zu machen oder ist das komplett ausgeschlossen, vielleicht auch für für uns, ja, Neue in diesem Feld so? Ist das wirklich, weil's so viel komplexer ist und einfach ganz andere Anforderungen hat? Oder ist das was in mögliche Richtungen, die ihr euch auch orientieren werdet, so zu nicht nur Stimme, sondern auch Instrumente, Musik, orientieren werdet, sozusagen nicht nur Stimme, sondern auch Instrumente, Musik zu machen?
Fabi: Ja, ein bisschen bisschen machen wir das Also es werden von unseren jetzigen Algorithmen ja auch Musik leider zum Beispiel gelevelt oder angepasst, Noise Redaktion und so weiter. Aber wir haben uns jetzt explizit nicht darauf spezialisiert bis jetzt, ja. Also es gibt ja es gibt ja alle möglichen anderen so Mastering Services mittlerweile für Musik, die das machen. Vielleicht werden wir auch mal ein bisschen einen Schritt mehr in diese Richtung gehen, weil vom technischen her ist es natürlich ähnlich. Also man hat ähnliche Models, man muss halt die Daten anders aufbereiten. Ist fürs Training natürlich, aber im Prinzip ist es ähnlich alles. Es passt halt bei uns auch nicht so wirklich in das Preiskonzept, ganz einfach wie es im Moment ist bei uns, weil man hat unten noch nach Stunden ein Audio sozusagen bezahlt und wenn Du jetzt 3 Minuten Songs hast, dann ist das halt nicht sehr lukrativ.
Georg: Ja, auf jeden Fall müsste Musik und und Sprache auf jeden Fall anders preis werden. Ja, das stimmt.
Fabi: Das wird dann entweder kompetiert werden natürlich, weil in 'nem Podcast kann man ja auch Musik haben. Ja, aber mal schauen. Vielleicht machen wir in die Zukunft da was, ja.
Georg: Und vielleicht noch mal 'n bisschen auch da noch mal eine banalere Frage, die Du vielleicht auch schnell schneller abtun könntest. Aber wenn ich jetzt wenn ich jetzt auch noch mal auf den jetzigen AI Landscape irgendwie schaue und irgendwie Tools sehe wie nehmen wir mal das Größte, was man irgendwie im Audio vielleicht so Hörer da draußen kennt, die jetzt nicht direkt mit Audi zu tun haben, wie so was wie Zoomo AI, wo man ein Modell hat und sagst Text Input und gib mir mal 'n Song direkt hinten raus so. Das bringt mich ja erst mal zu diesem Part so, ich verstehe, dass eure Kunden irgendwie Anforderungen haben, dass sie bestimmte Bereiche selbst irgendwie oder oder 'n bisschen Einfluss darauf haben wollen, wie jetzt, ob wir nur Deacing machen, ob ihr auch das E-Commerce macht, ob ich das irgendwie selbst machen will. Aber ich kann mir auch vorstellen, dass ein Großteil da draußen sagt, ich will eigentlich nur erst mal das Bestmögliche an Qualität, vielleicht gerade auch bei Podcasts, wo ich sage am Ende will ich ja nur, es ist ja vielleicht, was jetzt das Audio angeht, weniger kreativ wie Musik, wo man wirklich irgendwie durch das Leveling und so was noch irgendwie viel Dynamik raus ist und eigentlich sagt, hey, ich will einfach ein, dass es professionell klingt so. Und ist dann nicht vielleicht auch für euch son bisschen sone Gefahr ist da draußen gleich an einem Player kommen mit, sag ich, dem dem eher einem generischen Modell, wo ich sag, hier Audio in, Audio out und die Anforderung ist, mach es zu Studioqualität so. Ist das ist das was, was ihr befürchtet, dass das vielleicht auch oder eine Konkurrenz für euch ist so? Glaubst Du das? Wenn ja, arbeitet ihr an sowas auch selbst oder ist das ist das wirklich, wie Du sagen willst, einfach komplett anderes playing field?
Fabi: Nein, ich mein im Prinzip ist ja das, was genau ist genau das wollen wir ja machen im Prinzip. Also nur, dass man dann zusätzlich noch verschiedene Abstufungen und Einstellungen machen kannst. Also wenn Du jetzt einfach hingehst und unsere Default Settings nimmst, dann soll genau das rauskommen. Bei uns auf der Hauptwebseite, wie Du hier kommst, gibt's jetzt ein großes Drag and Drop fehlt oder sogar auf der Startseite der Link Page. Und wenn Du da in dein Audio reintrobst, dann passiert das ja im Endeffekt. Ob jetzt fehlt es Da ist
Georg: aber vom Ansatz her, wie wie Also ob das jetzt sozusagen im Hintergrund das ist dann ist, ist halt eher die technische Frage so, dass schon die Vorstellung von dir und euch ist so, dafür braucht es einzelne Modelle, die die einzelnen Bereiche in dieser Chain optimieren und das ist dann nicht dieser Ansatz zu sagen, ich pack das alles auch am Ende wieder irgend eine Transformer Architektur und ich mach einfach nur hier sein Audiodatei, wo alles schlecht ist, hier ist eine Audiodatei, wo alles gut ist und den Rest mach Du mal Modell so. Das ist funktioniert bei Audios an der Stelle dann so nicht.
Fabi: Sicher kann man auch so machen, natürlich. Aber auch wenn Du jetzt an meiner Arbeit, wenn Du jetzt so große Models nimmst, gibt's ja in den Models ja wiederum eigene Submodels und Stages, die trainiert werden und so weiter. Also das ist immer irgendwie der Zusammenhang von verschiedenen Dingen, wie man die jetzt bezeichnet. Aber dem User ist ja im Prinzip egal, was dahinter funktioniert, was dahinter passiert, ob da jetzt 3 Models sind oder 4 oder 10 oder 1. Also es soll halt einfach gutes Auto rauskommen im Endeffekt.
Georg: Ja, ich frage auch glaube ich eher aus der Richtung, dass es so Vielleicht jetzt von der Annahme her, stell ich's mir komplizierter vor, so viele kleinere Modelle zu trainieren, wenn man einfach sagt so, hey, ich kann das eine Modell bauen, wo ich sozusagen immer nur mein Datensatz immer weiter optimiere, aber im Grunde genommen immer der gleiche Prozess ist und ich werd neue Versionen davon rausbringen, klingt jetzt von meinem nicht AI Engineer Background, sondern Web Development Background irgendwie, als wäre es möglicherweise der simplere Ansatz, so das also oder der einfachere so. Ich glaube, dass ihr wahrscheinlich zu einem besseren Ergebnis kommt, nur ich in meinem Kopf ist das eine sehr viel mehr Arbeit als das andere. Aber vielleicht liege ich auch da falsch.
Fabi: Wer falsch gibt's sowieso nicht? Man kann's nur probieren, was dann rauskommt.
Jan: Hörflich umschifft, mir zu sagen, dass Fabi doch falsch liegt. Cool. Fabi, hast Du noch sonst noch Anschlussfragen?
Fabi: Nee, ich
Georg: glaube, ich hab jetzt mittlerweile alles, also so mal 'n guten Überblick irgendwie dafür bekommen. Ich find's schon sehr interessant. Ich mein, so Du hast ja vorhin angefangen, Georg oder erzählt von den VST Plugins. Ich mein das im Grunde genommen die Ebene, auf der ich auch irgendwie audiomäßig unterwegs war. Ich hab hier meine dort den Begriff, den wir jetzt gelernt haben, hab da meine verschiedenen Plugins und probiere da sehr schieiefmütterlich rum, das Ganze zu optimieren so. Und von daher find ich's irgendwie sehr interessant, dass euer Machine Learning Ansatz im Grunde genommen das die gleichen Schritte macht, nur das Ganze automatisierter und sehr viel besser und ist auf jeden Fall was. Ich mein, grade uns als Podcast hat es schon sehr viel geholfen, auch wenn der Carlo, der bei uns das Audio hier macht, sehr viel mehr Ahnung von diesen Reglern hat als ich, hat es auch selbst bei so professionellen Leuten die Arbeit so viel vereinfacht. Deswegen war's 'n sehr cooler Einblick mal zu verstehen, was da eigentlich was da eigentlich da hinten dran steckt, deswegen nee, von mir nicht.
Jan: Und man muss auch sagen, auch Fonic hatte uns auch schon die ein oder andere Audiospur gerettet, wo wir irgendwie aus 'ner Aufnahme gekommen sind und dachten, boah, da war aber irgendwie eine Baustelle hinten dran oder sonst irgendwas, was dann doch noch zu gebrauchen war dadurch. Ja, Georg, ich weiß, hast Du noch ein Thema, über das Du unbedingt sprechen wolltest und keiner dich danach gefragt und jetzt ärgerst Du dich nicht, jetzt ärgerst Du dich, dass Du Fabi nicht erzählen konntest, wie XYZ funktioniert?
Fabi: Boah, nein, keine Ahnung. Also wir könnten natürlich noch über viele Details reden, aber ist schon ist schon auch viel, sagen wir mal.
Jan: Dann hab ich vielleicht noch eine ganz andere letzte Frage zum Schluss. Nämlich, Du hast ja ganz am Anfang erzählt, dass ihr das primär gemacht habt, weil Du selbst auch gerne Podcast hörst und eben was dazu beitragen wolltest, dass das 'n bisschen besser wird insgesamt, so. Jetzt ist ja die Podcasting Welt in den letzten 10, 15 Jahren, seitdem ihr das so macht, hat sich schon son bisschen gewandelt, ja. Es gab irgendwie während Corona 'n großen Boom. Es gibt jetzt irgendwie immer mehr Formate, die auch irgendwie mehr auf Video und so was setzen. Wie viel von dieser Wandlung in diesem Ökosystem kriegt ihr so mit Und wie viel davon ist euch aber am Ende auch eigentlich egal?
Fabi: Keine Ahnung. Also Wandlung, Wandlung in dem Sinn haben wir nicht viel mitbekommen. Also im Endeffekt ist alles Audio. Also Video natürlich auch, aber ob da Video dabei ist oder nicht, ist ja uns im Prinzip egal. Was wir natürlich mitbekommen haben, ist, dass dass sie alles gesteigert hat. Also es ist immer mehr Podcast, auch andere Sachen. Das war natürlich in den letzten Jahren schon enorm. Aber jetzt, dass sich beim Content an sich irgendwas verändert hat, das könnte ich könnte ich nicht sagen. Also ich glaub vor so ein, 2 Jahren war auch so die Befürchtung, dass es jetzt nur mehr also von manchen Podcastern, dass es noch mehr so AI generierte Podcasts gibt. Aber ich glaub, das hat man schon gleich gesehen, dass das nicht so kommen wird, weil Menschen halt einfach gern Menschen zuhören, glaube ich halt zumindest.
Jan: Das ist doch Wär 'n schönes Schlusswort gewesen, wenn's schon unser Schluss wäre. So, Okay. Fabi. Na, danke.
Georg: Was kommt denn noch bei uns am Ende? Die Pick up the Days.
Jan: So und weil Fabi vorhin, als sie nach seinem Pick of the day für diese Woche gefragt hab, ganz selbstbewusst gesagt hat, er hat bestimmt was, bis wir soweit sind, darf Fabi anfangen.
Georg: Ja, und ich hab nicht nur was und ich hab im Grunde genommen, ich, wenn man die letzten beiden Deep Dives mir gehört hat, ein sich aufbauenden Pick of the day, jetzt kommt Part 3 meiner Pick of
Fabi: the day. Vielleicht für die,
Georg: die es nicht gehört haben, in den letzten 2 waren. Das erste war Whisperflow sozusagen als Tool, Text to Speech lokal aufm Mac zu machen. Mein zweiter Pick of the Day war der Use Case davon und zwar, wenn ihr mit AI Modellen interagiert, dann ab jetzt einfach nur noch reinsprechen, auch wenn ihr im Büro seid, sprecht einfach. Es ist so viel besser und verliert die Hemmung so. Das sind sozusagen die beiden Punkte und jetzt mein dritter Pick ist ein technischer Pick, an den ich aber in Use Case dranhänge. Und zwar ist mein dritter Pick Starlight von Astro, was ja ihre ihre Bibliothek ist, Dokumentationsseiten zu bauen so, also basierend auf Astro ist im Grunde genommen eine Dokumentationstool, marktdown basiert Dokumentationsseiten. Wird auch superviel im Web auch grade Open Source irgendwie eingesetzt. Und ich nutze das, weil ich mittlerweile unsere Projektdokumentation von unseren Teams mittlerweile, also erstens eher first und zweitens voice first mache, also alles, was bei sonem Projekten dokumentiert wird. Ich hab im Grunde genommen meinen laut Coach irgendein lokales Modell, mit dem ich per Voice interagiere und hab ein kleines GitHub Repo, in dem eigentlich nur Marktdown Dateien liegen mit der Idee, dass es auch gleichzeitig von unseren Development nutzbar als Input für ihre für ihre AI Modelle, wenn sie das Ganze entwickeln. Das heißt, wir wollen alles marktdownbasiert machen und darüber liegt Astro mit Starlight, dass sich wirklich eine schöne Dokumentationsseite gebaut hat, die eben auch noch 'n paar paar nette Features über Marktdown eben hat und 'n durchsuchbares Dokumentationsseite ist. Und ich deswegen sozusagen als Komplettierung meiner Pick of the Days Starlight noch nehmen will, weil ich gratis AI First Dokumentation ist wirklich funktioniert mit dem Setup mega, megagut. Und es ich würde sagen, ich schreibe eigentlich, was Dokumentation angeht. Also ich hab wirklich gar nichts davon geschrieben und ich muss auch nur Kleinigkeiten daran ändern. Das ist krass, wie gut die Qualität ist und grade mit Astra Starlight irgendwie als son minimalstes Setup oben drüber, sowohl AI First für unsere Entwickler, das jetzt Input nehmen können und auch gleichzeitig irgendwie trotzdem noch die supergut Human Readable für Leute, die eben keinen GitHub Account haben und dann in die Markdownviewer gehen wollen oder sich das lokal runterziehen wollen. Alles so Töne scheinen Töne schöne kleine Web App, wo alle Dokumentation mit drin ist. Deswegen Ich muss
Jan: da mal direkt nachfragen. Benutzt Du das wirklich so im Büro? Also ich mein Ja. Ich sitz ja bei bei Matthias, wir haben ja son Zweier Büro, aber Du sitzt ja im im offenen Space so mit allen anderen, ne. Ja. Und ich muss sagen, ich hätte da Hemmungen irgendwie so, wenn 50 Leute mich rumsitzen, auf einmal so in meinen Laptop reinzureden.
Georg: Ja, also ich ich mein am Ende so, deswegen spreche ich's hier offen aus, damit ich mich selbst dazu bringe, es noch mehr zu tun. Ich mach's auch nicht immer. Manchmal gehe ich auch irgendwie, wenn ich dann wirklich sage, okay, ich muss jetzt irgendwie wirklich sehr lang, irgendwie hab eine relativ lange Session, dann gehe ich aktuell schon noch in den Raum, aber ich so immer mal, wenn was einfällt, also ich dann spreche ich mit der RIA auch im im Open Space und glaub, wenn's mehr Leute tun, dann werden wir uns schon irgendwie adaptieren. Und jetzt wollte ich noch mal 'n weiteren Use Case, was ihr damit machen könnt, wenn ihr nicht einfach nur Coding machen wollt, sondern auch für Produktmanager da draußen oder auch alle, die keinen Code schreiben, ist das echt noch mal 'n cooler cooler Use Case, grade mit Starlight. Find ich cool.
Jan: Wunderbar. Und ich freu mich, dass es nicht zum dritten Mal Whisperflow ist.
Georg: Nee, das zweite Mal war ja auch nicht Whisperflow, es war reden. Das eine war Whisperflow, das andere war reden und jetzt ist es
Jan: Ich hab's nur bei uns erzählt am besten gesehen und es war Fabi Whisperflow, Whisperflow, Whisperflow, Whisperflow, Whisperflow.
Fabi: Nee, es gab
Georg: nur ein Gab nur einmal als wirklicher Pick.
Jan: Georg, was hast Du dabei?
Fabi: Was hab ich dabei? Ja, reden in KI Modelle, mit dem hab ich mir noch nicht angefreundet. Speziell im Zug und so schwierig.
Georg: Na, Zug vielleicht ja.
Fabi: Na, wieder vielleicht wieder vielleicht was ganz altmodisches. Also ich bin jetzt wieder, was weiß ich, wie das kennt, in emMAX, so ein Organisationstool. Uralt, im Prinzip so ein bisschen wie das Oblivion oder wie die heißen. Aber sehr praktisch und alles lokal. Also da gibt's eben so Orkfilesinteraks, wo man also strukturieren kann und dann auch superschnell mit Tab navigieren in verschiedene verschiedene Topics und Unterpunkte und dann mit Kalender kann man das gleich machen mit ein paar Tastenkombinationen und so weiter.
Georg: Rock Mode ist es dann ist das ein ist das ein Fileformat oder ist es ein CLI Tool?
Fabi: Na, das ist einfach ein File Format. Im Prinzip ist es einfach ein Textfile, aber es geht beim Editor, mit dem man das interaktiv bearbeiten kann. Ich glaube, das unterstützt entweder der E-Mail-X. Das ist auch das einzige Punkt für was ich E-Mail-X verwenden. Aber es ist ganz praktisch und man hat einen
Georg: Und da machst Du jegliche private Dokumentation oder Firmendokumentationen?
Fabi: Genau. Was was dokumentierst Du? Alles. Also im Prinzip kann man sich das so wie wenn man in einem Gitlab Issues anlegt oder irgendwas, man ist es halt in dieser Textdatei und man kann's so schneller navigieren und suchen und miteinander verknüpfen und so weiter. Und das ist nur ein Teil.
Jan: Also laut laut Webseite gibt's das ja, IMEX, WIM, aber auch für Android, iOS Web, für Visual Studio Code, also tatsächlich ordentlich Support dafür.
Fabi: Aber das funktioniert alles nicht. Das funktioniert nur in EMAX. Zumindest was ich gesehen hab, keine Ahnung.
Jan: Gesprochen wie ein wahrer E-Mail-User oder so, ja? Diese diese ganzen grafischen Tools, die braucht keiner.
Fabi: Nein, überhaupt per E-Mail-User, echt los wird das Ortmot, sonst überhaupt kein E-Mail sein.
Jan: Und dafür hast Du dich jetzt komplett da reingebühlt, das ist ja auch krass.
Fabi: Ja, das ist irgendwie Also
Georg: siehste mal, haben wir schon mal hier heute 2 Pick of the Days für Arten von Dokumentation, ne. Mein Weg ist Markdown, AI und Starlight und Georg hat gesagt Ork Mode mit EMAX. Von daher, siehst Du was? Eigentlich passt ja perfekt zusammen, ohne dass wir uns abgesprochen haben.
Jan: Wunderbar, wunderbar. Ich hab was ganz anderes am Start. Hab eigentlich gemacht doch
Georg: Dokumentation, Stift und Papier kannst Du doch noch machen. Das ist gerade dein
Fabi: Pic kostet ja son Dennis Like. Ich wollt
Jan: eigentlich wollte ich 'n Apple Watch Pick mitbringen für Farvui.
Georg: Nee, das Dann mach dann mach lieber weiter. Ich hab nix gesagt, bloß nix mit Apple Watch.
Jan: Und dann hab ich erst überlegt, ob ich nicht die die Offeric Mobile App picken sollte, weil über die bin ich gestolpert, als ich die Recherche für diese Folge gemacht hab.
Fabi: Die gibt's doch. Und da
Jan: hab ich festgestellt,
Georg: ja, die gibt's doch,
Jan: die gibt's noch auf GitHub. Da hab ich sie nämlich gefunden und da hab ich festgestellt, die ist gebaut worden von einem gewissen Christoph Nakasaba und den kennen wir ja aus einem vorherigen Deep Dive, der war auch schon bei uns, über Game Development zu sprechen und so dachte ich, da ist der Kreis quasi perfekt fließend. Jaja, ist schon, boah, Folge 100 Panvierzig oder so, es muss schon gute 2 Jahre her sein.
Georg: Ja, der Chris war mal bei euch oder was hat der
Fabi: der Begriff? Der Chris hat ganz am Anfang, also der erste Mitarbeiter bei bei APhonic war der André und der Chris war ein guter Freund vom André und hat dem auch da in Graz studiert und ja, so ist ja die Unterstützung auch zu iPhone gekommen. Das und diese Mobile App damals, das war die erste Version, die URL Version. Das war ein Wert dieses Rainbow heißen damals, wo man so Cross Plattform Apps hat keine machen.
Jan: Cordova ist das. Ja, genau. Cordova.
Fabi: Cordova. Cordova. Und hat alles in HTML. Ja. Ja. Aber super.
Georg: Schon damals.
Jan: Ja, also nein, also das hatte ich dann auch erst überlegt, dachte okay, das ist vielleicht 'n bisschen unfair, wenn's das nicht mehr gibt. Stattdessen bringe ich einen einen anderen Pick mit und zwar, Fabi, kann ich das vielleicht sehen jetzt gerade?
Georg: Ja, Du musst aber erst mal wieder das Mikro reinreden, aber schaut auch vorne.
Jan: Ich spring ich spring hier m-desk mit und zwar m-desk sind so Archiv CDs oder Blu rays in in dem Fall sogar, die man so nehmen kann, oh wenn man Sachen wirklich, wirklich lange aufheben will, ne, weil man kennt das ja oder die die Älteren von uns werden sich erinnern, dass, oh Gott, hoffentlich kommt's gleich wieder, werden sich erinnern, dass CDs ja nur sone gewisse Halbwertszeit haben und dann zerfallen die irgendwann, lösen sich auf, kann man nicht mehr sauber benutzen. Und ich bin ja son Back up Fanatiker und mir liegt viel an Datensicherheit und wenn man irgendwie Fotos von seinen Kindern oder der Familie oder was weiß ich nicht anders hat, versucht man ja alles, die irgendwie sauber aufzubewahren und deshalb hab ich jetzt angefangen Du versuchst,
Georg: Mann ist jetzt sehr übertrieben. Du kannst das zu versuchen, aber ich erzähl mal weiter.
Jan: Deshalb hab ich jetzt angefangen, wichtige Daten auf m dis plurace zu brennen und sauber weg zu archivieren, so in der Hoffnung, dass die auch in 100 Jahren dadrauf noch sicher funktionieren. So. Ja, es ist so ein Layer im Back up Netz irgendwie mehr. Es kostet auch nicht die Welt. Man kann das mal versuchen. Es ist irgendwie einfach in eine Kiste gepackt und ausm Haus gebracht
Georg: und würde ich sagen, hast Du die verbuddelt im Garten? Oder was machst Du damit?
Jan: Das ist auch Nein.
Georg: Das ist am Ende, wenn dein Haus brennt, auch nicht, wenn dein Computer verbrannt ist, sodass Du noch wenig Nee, nee, also also
Fabi: Du hast
Georg: im Garten Nee, nee, nee, nee, nee, nee, nee, nee, nee, nee, nee, nee,
Fabi: nee, nee, nee, nee, nee, nee, nee,
Georg: nee, nee, nee, nee, nee,
Jan: nee, nee Fabi so. Ja, ist jetzt nicht so, dass Also ich kann ja ich kann eine Stunde lang nur über meine Back up Strategie reden, wenn wir mal 'n Podcast dazu machen wollen. Wir wollen
Georg: ja klar. Also ich find Jans Back up Strategien finde ich auf jeden Fall, werden 'n gutes Format für die nächste Folge. Ich Also das finde ich sehr interessant, was Du alles, mein, Du hast ja auch irgendwie, also da haben wir auch hier überhaupt Back-up so, falls mal Strom ausfällt, sodass deine Server mal kurzzeitig auch ohne Strom drin und son Kram
Jan: Absolut auch. Alle meine NAS Server haben 'n USB nebendran, hier geht gar nichts kaputt, so, ja?
Georg: Das heißt aber jetzt ausm Haus bringt, wo bringst Du denn diese M-Disqs hin?
Jan: Also tatsächlich hab ich mir son, kennst Du diese Pelican Cases, diese Nein. Superruusten. Als Musiker muss man doch Equipment irgendwie transportieren, so hab ich
Georg: schon mal gehört. Wie heißt denn die Pelkern?
Jan: Pelican wie Pelikan nur mit c. Die machen so richtig robuste Kisten für wasserdicht, staubdicht, bla bla bla. Da pack ich dann diese ganzen DVDs rein und dann lagern die an einem Ort, der nicht mein Haus ist. Was hab
Georg: ich auch nicht genannt werden darf, nicht dass am Ende noch, das ja auch ein weiteres Teil in Sicherheitsnetzig, dass ja niemand diesen Backup Ort rausfindet. Ja.
Jan: Ich sehe, wir verstehen uns, Fabi. Deswegen, also mein eigentlicher Pick, M-Disks. Wenn ihr irgendwie Sachen brennen wollt, von denen ihr hofft, dass ihr länger als 10 Jahre auf der Scheibe bleiben, schaut euch das mal an.
Georg: Und wenn ihr wenn ihr keinen CD Laufwerk mehr habt, der Jan schickt euch gerne einen einen 1 zu 1 zu. Könnt ihr Sharing.
Jan: Du machst dafür tatsächlich 'n ordentlichen Brenner, der Emdes auch sauber brennen kann.
Georg: Was machst Du das machst Du das mit Nero?
Fabi: Nero Learning Robben. Nein,
Jan: nein, nein, das geht mit Bordmitteln mittlerweile alles ganz easy, aber
Georg: Immer noch ist ja nicht, mittlerweile immer noch, gibt's immer noch, kann man noch Sachen brennen. Kann man noch tatsächlich.
Jan: Tatsächlich, ich hab, jetzt machen wir 'n ganz anderes Fass auf, aber ich hab noch son altes externes Super Drive von meinem Mac, ne? Weißt Du, diese externen DVD Laufwerke, die es für die Macs früher gab, Mhm.
Georg: Als die
Jan: aufgehört haben, die Intense verbauen? Das betreibe ich immer noch ab und zu an meinem Windows Laptop, weil das auch kein CD Laufwerk hat, obvisly, aber am Mac wird es tatsächlich nicht mehr unterstützt. Also modernes macOS Betriebssystem erkennt dieses Laufwerk überhaupt gar nicht mehr und weigert sich komplett irgendwie mit optischen Medien da zusammenzuarbeiten.
Georg: Also ich merk schon, Georg ich, Georg ich, Georg ich jetzt hier grad komplett abgehängt. Jan, ich bin diesmal war ich jetzt wirklich ernst. Ich will gern mit dir eine Folge zu deinen Back up Strategie machen. Auch wenn's nur eine halbe Stunde ist, ich würd gern einmal deine Back up Strategien verstehen. Okay, vielleicht
Jan: Ja, ja, ja, ja. Ja, vielleicht Ja, ja, ja.
Georg: Ja, das ist wirklich ernst. Diese Apple Watch Hater Folge war ja nur so halb ernst gemeint, aber auch dazu haben wir Feedback bekommen, aber wenn ihr wenn ihr was zu Back up Strategien von Jan wissen wollt, dann schreibt uns einmal, die machen wir wirklich. Okay.
Jan: Fair. Wunderbar. 1000 Dank, Georg, dass Du dir Zeit genommen hast für uns insbesondere in den letzten 3 Minuten durchgestanden hast. Danke.
Fabi: Danke für deine Back up Strategie. Also wir werden das in der Firma nach damit alles sicher ist. Das ist
Georg: doch sehr gut, dann hast
Fabi: Du wunderbar.
Jan: Ich fand's superspannend, auch wenn ich sagen muss, dass ich zwischendurch bei manchen Audiosachen son bisschen raus war. Aber ich find's immer cool zu sehen, wie Leute tatsächlich produktiv mit AI coole Produkte bauen und nicht nur irgendwelche komischen Proof of Concepts und dann hat man nie wieder was davon gehört. Megacool. Danke, dass Du uns daran hast teilhaben lassen. Danke Fabi, dass Du Zeit gehabt hast für diesen Deep Dive für uns. Und dann hören wir uns alle nächste Woche wieder. Bis deine.
Georg: Tschau, tschau. Danke, Jörg.

AI & Audio mit Georg Holzmann

Shownotes

Picks of the Day

M-Discs

Org Mode

Starlight

Speaker Info

Georg Holzmann