News AI #33 –

OpenAI erst 2029 profitabel // Transformer Architektur wird gechallengt

23.10.2024

// Podcast
// News AI #33

Shownotes

In dieser Folge unterhalten sich Philipp und Fabi über die bekannt gewordenen Profit & Loss Forecasts von OpenAI. Demnach soll OpenAI erst 2029 profitabel werden und dafür ihren Umsatz verhundertfachen müssen. OpenAI hat auch eine neue, experimentelle Library zur Orchestrierung mehrerer Agents herausgebracht und diese Swarm getauft.

Mit Pyramid Flow SD3 haben wir nun ein Open-Source Text-to-Video-Modell, das an die Closed Source Äquivalente heranreicht. ZyphraAI hat ein neues 7B-Modell herausgebracht, das die Transformer Architektur challengt und auf der hybriden SSM-Attention-Architektur basiert. Was genau der Vorteil zu Transformer-Modellen ist, klären wir in dieser Folge.

Ansonsten hat Anthropic eine API für Message Batching herausgebracht. Wenn du also keine direkte Response des Modells brauchst, sondern im Hintergrund Daten damit verarbeiten möchtest, ist diese API genau richtig für dich.

Vor wenigen Wochen haben wir uns noch drüber unterhalten und jetzt gibt es ein Diffusion-Modell, das dich Counter-Strike GO mit 10 FPS spielen lässt. Das Modell generiert alle Frames direkt on-the-fly und basiert auf dem Diamond-Modell, das die Wissenschaftler:innen der Uni Genf und Edinburgh gebaut hatten, um alte Atari-Spiele zu simulieren.

Weitere Themen:

F5-TTS (Link & HF Space)
H100 prices drop (Link )
Local GGUF models with Ollama (Link)
Coreweave 650$ Million Credit (Link)

Download

/transkript/programmierbar/news-ai-33-openai-erst-2029-profitabel-transformer-architektur-wird-gechallengt

Fabi: Hallo und herzlich willkommen zu einer neuen Folge der programmier.bar AI News. Ich bin der Fabi und mit mir ist wie immer dabei der liebe Philipp. Hi Philipp. Hallo. Wir haben ein paar Themen für euch dabei und irgendwie hab ich das Gefühl, ich fang meine Sitze immer gleich in dieser AI News Folge. Und zwar natürlich ist auch OpenAI mit dabei. Wir unterhalten Sie über OpenAI, Swarm und ihr neue Profits and Lost Expectation bis zweitausendneunundzwanzig. Corweef hat mal wieder 'n riesen Kredit aufgenommen. Wir haben jetzt echt ein neuronales Netzwerk, in dem man ein Spiel und zwar Counter Strike spielen kann. Parametr Flow SD drei, es gibt eine neue Architektur von Modell Hybrid s mittention, das möglicherweise die Transformer Architektur Challenge. Antropic hat ihre Message Message Badges AP rausgebracht. Die H-einhundert-Preise sind ordentlich gesunken. Wir haben was für lokale DGF Modelausführungen und das Modell F-FünfTTS. Das heißt, mal wieder ein paar Themen. Und lass uns doch mal einsteigen, weil das dann vielleicht auch noch ganz netter Übergang ist zu unserem OpenAI Profits and lost. Was ist denn, meinst Du mit 'nem h h einhundert Price Drop auf sich? Sind die so viel günstiger geworden?
Philipp: Ja und nein. Also es wurde 'n 'n Blogpost released auf dem, ey, ich glaub, also ist auch son Podcast, den der ein oder andere vielleicht hört, grade im AI Bereich. Und die haben sich 'n bisschen genauer angeschaut, wie sich die H-einhundert-P Adresse entwickelt haben in den letzten achtzehn Monate. Und für alle H-einhundert ist, also Nvidia, H-einhundert ist sozusagen der letzte neueste CPU von Nvidia, wo Meta auch irgendwie dreihundertfünfzigtausend Stück gekauft hat und ist eigentlich der, der den man immer eigentlich benutzen möchte, wenn's irgendwie geht, aber war halt sehr teuer. Und sehr teuer hieß am Anfang ungefähr acht Dollar pro Stunde pro CPU. Und mittlerweile nach achtzehn Monaten gibt es Angebote von für ein bis zwei Dollar, also vierfache Preisreduzierung. Und der Blogpost geht dann halt 'n bisschen darauf ein, okay, warum ist das der Fall? Was hat irgendwie dazu geführt? Und so langsam, also ganz am Anfang hatte man halt diesen diese, ich mein, ganz super traditionell BWL mäßig. Man hat eine sehr hohe Nachfrage, man hat 'n geringes Angebot. Heißt, die Preise sind höher, so langsam verschiebt sich das. Ich glaub, die Nachfrage ist immer noch sehr hoch, aber das Angebot wächst auch. Das heißt, die die Preise sinken einfach ganz normale Marktwirtschaft, weil es auch einfach immer mehr Provider gibt, die h-einhundert anbieten und man muss ja irgendwie konkurrieren. Und als Infrastrukturprovider, ich mein, da hab ich ja nicht auch viel mehr Möglichkeiten als den Preis für den Computer, den ich anbiete. Und sehr interessant allerdings ist es, dass das hauptsächlich für so, ich würd jetzt mal sagen, kleine Provider oder spezialisierte Provider ist. Also es ist jetzt nicht so, dass bei Amazon oder bei Google oder bei Azure die Preise auch gedroppt sind. Mhm. Da hat sich gar nichts geändert, sondern hauptsächlich Die Marge
Fabi: wird halt größer. Genau.
Philipp: Ja, ich wobei, ich mein, der Kaufpreis von den Providern hat sich ja nichts geändert. Das ist ja nur der Consumer Preis, den wir sozusagen sehen. Und halt gerade so Provider wie oder halt andere, die sich auf GPU spezialisiert haben, sinken die Preise. Und ein Grund, was sie hier nennen, ist zum einen, dass halt, es gibt mehr GPUs und vielleicht haben vor zwei Jahren Leute GPUs bestellt und die sind jetzt erst online gegangen. 'N anderer Grund, was genannt wird, ist, dass wir halt immer bessere, kleinere Modelle bekommen. Das heißt so, der Gedanke, den man vielleicht vor zwei Jahren hatte, dass die Modelle größer werden, wir brauchen mehr Comput, ist vielleicht nicht mehr ganz wahr und Unternehmen, denen reicht vielleicht schon eine a einhundert und brauchen nicht mehr acht. Das heißt, man hat da vielleicht auch eventuell anders geplant. Und es gibt einfach diesen Konkurrentkampf, weil ich mein, wenn ich als Infrastruktur Provider gewinnen möchte, brauch ich ja irgendwie Usage und irgendwie, Uzusage zu bekommen, es ist halt mehr oder weniger 'n Preisspielaktor. Und es gibt natürlich auch so langsam Alternativen wie von AMD, Google Deep Views, von AWS gibt's ja auch deren eigene Chips, was dazu führt, dass halt die Preise langsam nach und nach nach unten gehen, was, find ich, 'n sehr schöner Trend ist. Ich bin noch 'n bisschen skeptisch, weil das halt wirklich so auf so Compote Provider speziell für GPS sind und nicht irgendwie auf ABS. Und ich mein, wenn man irgendwas richtig deployed, dann brauch ich ja mehr als Computer. Ich brauch hier irgendwie Storage, Logging, Security und alles andere. Und das ist oftmals bei dem Provider nicht bereitgestellter Service. Das heißt, wenn ich zu einem, so und sag ich mal, gpu specific provider geh, muss ich das entweder alles selber bauen oder hab viel mehr Aufwand. Und dann bleibt mal abzuwarten, wie sich das auf die die großen auswirkt.
Fabi: Ja, definitiv. Aber ich mein, all diese Consumer Facing Preis Drops, die wir jetzt sozusagen eine Zeit gesehen haben, war ja auch in hattest Du irgendwann in Analyse gefahren in Bezug auf die AI Modelle, wie ja auch die Preise runtergegangen sind. Und das war auch ganz interessant, weil's auch im Endeffekt son bisschen der Tenor ist, den auch OpenAI genutzt hat in ihren Investorgesprächen für ihre Fundingrunde, die sie ja kurz vor unserem letzten Podcast vor zwei Wochen abgeschlossen haben, wo sie sechs Komma sechs Milliarden Dollar eingesammelt haben. Und Jaiman Ball, einer der der ja im Endeffekt Investoren bei Ultimeter, hat auch eine Slide gepostet, die es dann damals bei diesem bei diesen ganzen Fundingrunden von OpenAI gezeigt wurden. Und da gibt's im Endeffekt auch einen Price Drop, also dass in seit März dreiundzwanzig bis August vierundzwanzig, also auch diese circa achtzehn Monate, wie 'n neunundachtzigprozentigen De Crease des der Preise gesehen haben, also von GPT-4-zu-o-o-o von vier Dollar oder von sechsunddreißig auf vier Dollar pro eine Million
Philipp: Input
Fabi: Tokens. Und natürlich son bisschen mit dem mit der mit dem Hintergrund zu sagen, das ist natürlich sehr attraktiv für den Zukunft, dass einige Businessmodelle, die halt früher gar nicht fiesibel waren, in naher Zukunft sehr viel interessanter für Businesses werden. Das heißt einfach nur, ich mein, Open Air nutzt natürlich diese Charts, zu zeigen, hey, das ist die die Basis dafür für unsere Modellierung, wie wir unseren Reveny natürlich auch in der nächsten Zeit wachsen sehen, weil sehr viel mehr Es wird zwar günstiger, aber sehr viel mehr Businessmodelle werden überhaupt möglich. Das heißt, die Adoption wird viel höher und insgesamt wird dadurch natürlich auch unser Umsatz immer einiges höher. Genau und die Information hat mal wieder 'n Artikel gebracht, wo son bisschen in die von OpenAI reingeschaut wurde, bis zwei neunundzwanzig. Und das ist genau das nächste Thema, was wir uns mal son bisschen anschauen wollen, weil wir haben natürlich auch vor zwei Wochen mal son bisschen gemunkelt, okay, wie lang halten denn jetzt diese sechs Komma sechs Milliarden, die OpenAI da jetzt eingesammelt hat? Und ist auf jeden Fall sehr interessant, wenn man schaut, so was sie denn erwarten, was Ihr Revenue dieses Jahr Wenn wir uns einfach erst mal das Ganze nur von der Revenue Seite anschauen, ist es so zweitausendvierundzwanzig, also im aktuellen Kalenderjahr erwarten Sie einen einen einen Umsatz, 'n Revenue von vier Milliarden Dollar. Und das Ganze soll wachsen bis zwei neunundzwanzig auf hundert Milliarden. Also und im Endeffekt, wenn man mal so schaut, natürlich 'n multiple Factor in diesen knapp sechs Jahren, die Sie jetzt hier modellieren, von nächstes Jahr zwölf auf sechsundzwanzig auf vierundvierzig auf neunundsechzig auf hundert Milliarden. Und ganz interessant ist, dass zweitausendneunundzwanzig dann auch das erste Jahr sein soll, wo sie auch wirklich nett positiv sind. Also im Endeffekt das erste Mal wirklich positiven Geldfluss hier haben. Das heißt dann, wenn sie bei hundert Millionen Milliarden Dollar Umsatz sind, was natürlich superinteressant ist. Ich glaub, das Maximale, was sie jetzt, also wenn man son bisschen schaut auf die verschiedenen Jahre gesehen, was sie antizipieren, wie viel Geld sie sozusagen verbrennen. Ich glaub, das Maximum haben wir im Jahr zweitausendsechsundzwanzig von vierzehn Milliarden Dollar, die sie im Jahr zweitausendsechsundzwanzig mehr ausgeben, als sie einnehmen. Was natürlich erst mal interessant ist, so wie wie sie das natürlich stemmen wollen mit den sechs Komma sechs Milliarden, die sie bisher die sie bisher eingesammelt haben. Und auch ganz interessant ist, wenn man mal schaut, also aufs Jahr zweitausendvierundzwanzig, was denn jetzt wirklich von diesen vier Milliarden, wie viel Kosten dem Ganzen das Gegenüber stehen und auf was sich das son bisschen aufteilt. Also erst mal ist ganz interessant, dass man jetzt sieht, sodass zwanzig Prozent an Microsoft gehen von diesem Umsatz, was vorher natürlich auch nicht so ganz klar, wie Grosstec hat jetzt wirklich den Microsoft für je zehn Milliarden Investment bekommen hat, noch vor zwei Jahren uns, glaube ich. Und dann schaut man also, das heißt, von den vier Milliarden gehen schon mal siebenhundert Millionen an Microsoft. Dann natürlich Comput fürs Trainieren, fürs für die Inference der Modelle ist natürlich superhoch. Also drei Milliarden gehen aufs Trainieren, zwei Milliarden noch mal auf das auf die Inference der Modelle, also dass zur Laufzeit die Kosten. Dann Research noch mal eine Milliarde und dann geht's runter auf natürlich kleinere Dinge wie siebenhundert Millionen sind die Employy Selleries, die auch übrigens im nächsten Jahr auf zwei Milliarden wachsen sollen, weil sie fleißig weiter einstellen wollen. Und dann natürlich so was wie Sales und Marketing, Datadaten, die sie natürlich auch einkaufen müssen, natürlich auch, hat's jetzt auch fünfhundert Millionen gekostet, so, dass Sie dann aktuell in diesem Jahr, auf wenn man nur auf zweitausendvierundzwanzig schaut, auf fünf Milliarden Loss kommen, wo natürlich auch noch nicht die Stock Compensation Ihrer Mitarbeiter mit drin ist. Was erst mal sehr interessant ist, weil natürlich auch nicht ganz klar ist von den fünf Milliarden, Microsoft hat ja dieses Zehnmilliarden Investment gemacht, was zum Großteil auch an Computerressourcen hängt. Das heißt, wie viel jetzt wirklich von diesen Kosten wirklich Cashflow ist und wie viel am Ende einfach nur Verrechnung mit Microsoft ist, ist natürlich die Frage. Aber was ziemlich klar ist, bis zweitausendneunundzwanzig, wenn Sie da mal profitabel sein wollen, wird es schwierig mit den sechs Komma sechs Milliarden, die Sie jetzt eingesammelt haben, was natürlich erst mal wirkt wie eine riesige Summe. Wenn man aber mal auf den Cashflow der nächsten x Jahre schaut, kann und wird das nicht die letzte Runde sein und es sind auf jeden Fall sehr ambitionierte Wachstumsziele, die Sie da haben. Und letzter Punkt, den noch sehr interessant ist, wenn man's das Jahr zweitausendneunundzwanzig anguckt von diesen hundert Milliarden, sollen weiterhin über die Hälfte dieses Umsatzes von ChatGPT kommen, also wirklich von dem Userfacing Product, wobei API eigentlich nur im Verhältnis einen kleineren Teil ausmacht. Ich hand des Charts sind's so ungefähr knapp unter zwanzig Milliarden und noch mal 'n bisschen mehr sollen andere Produkte ausmachen, die ab dem Jahr zweitausendfünfundzwanzig immer einen größeren Stake in diesem aufnehmen einnehmen sollen. Also andere Produkte wieder in Subsunypedia Modelle, SORA oder Ähnliches, was da wohl noch so kommt.
Philipp: Und vielleicht, das mal 'n bisschen in 'n Verhältnis zu packen, ABS, also Amazons Cloud hat aktuell eine Runrate von hundert Milliarden. Und Google Cloud ist irgendwie bei vierzig Milliarden Runrate, also im Jahr zwanzig vierundzwanzig. Das heißt, wenn das wirklich stimmt, was Open Air da prognostiziert, werden die an Public Cloud vorbeiziehen. Das heißt also, es ist schon, ich bin mal gespannt. Also ich bin wirklich sehr, sehr gespannt. Vor allem am Anfang klingt's ja noch so einfach, ich sag mal, von irgendwie einer Milliarde auf vier Milliarden auf zwölf Milliarden. Aber ich glaub dann innerhalb von einem Jahr von zwölf auf sechsundzwanzig bis vier beziehungsweise auf vierundvierzig, das sind ja schon, es ist nicht mehr so einfach. Am Anfang, wenn man wenig Umsatz hat, das zu verdoppeln oder verdreifachen, ist ja, sag ich mal, sehr realistisch. Aber wenn Du dich wirklich in diesen Milliarden, mehrere zehn Milliarden Bereichen bewegst, dann ist son Wachstum nicht ganz so einfach. Und ich glaub so, der der Cloud Markt ist immer so, ich mein jetzt auch weniger, aber ich glaub, zu Großzeiten nicht mehr das Doppelte gewachsen. Also ich kann mich ich kann mich nicht erinnern, dass Amazon von einem Jahr von zwanzig auf vierzig Milliarden US Dollar oder irgendwie so was gewachsen ist. Das heißt, es bleibt ja ganz schön spannend. Ich glaub, was Sie noch dazu geschrieben haben, ist, die bis zwanzig neunundzwanzig nicht mehr zwanzig Dollar kosten soll, sondern ich glaub fünfundvierzig Dollar.
Fabi: Mhm.
Philipp: Also das wird auch nach oben gehen, aber ich mein, ich bin jetzt nicht so gut in Mathe, aber wenn ich sechzig Milliarden Dollar brauche oder lass mich annehmen, fünfundvierzig Milliarden Dollar und eine kostet fünfundvierzig Dollar, dann brauch ich ja eine Milliarde bezahlende Kunden. Oder täusch ich mich jetzt hier?
Fabi: Nee, bei fünfundvierzig auf ja, ist, wenn's fünfundvierzig Dollar kostet, brauchst Du eine Milliarde Kunden, ja, fünfundvierzig.
Philipp: Ja, das ist dann ungefähr jeder zehnte Mensch auf der Welt, der eine Bezahl Subscription bei OpenAir hat.
Fabi: Wie fänd ich, was sind die, war das nur auf das Userferien, was kosten die Enterprise Pläne und so was, die nicht aktuell auch schon teurer? Also ist für mich glaub ich auch. Ich ich würd einfach
Philipp: mal stärker nehmen, die kosten doppelt so viel.
Fabi: Ja. Und wer weiß, vielleicht hat man ja am Ende auch eine private und die, also vielleicht haben wir manchmal schon zwei Lizenzen, wer weiß.
Philipp: Ja, aber es ist also, es ist schon, also wenn man wirklich bei fünfundvierzig Dollar pro User bleibt und die auf siehst sozusagen diese fünfzig Milliarden Ich mein, selbst wenn Du jetzt das Doppelte nimmst und sagst, okay, und pro bezahlenden Kunden hast Du hundert Dollar, dann brauchst Du trotzdem noch fünfhundert Millionen bezahlende Nutzer.
Fabi: Ja, ich mein, es ist, ich mein, diese ganzen Werte sind krass. Man schaut einfach mal an, die haben mit zweitausenddreiundzwanzig eine Milliarde eingenommen. Sie waren zweitausendneunundzwanzig hundert Milliarden ein. Das heißt, der Faktor hundert. Der wollen sich verhundertfachen innerhalb von sechs Jahren. Das ist das ist schon 'n bisschen was so. Also wie gesagt, zweitausendvierundzwanzig ist noch nicht vorbei, es ist per Expected, vier Milliarden so wahrscheinlich. Ich kann das auch erreichen, aber das sind schon Wachstumszahlen. Also da musst Du auch schon das Geld locker haben, wenn Du jetzt in diesem Jahr wirklich einsteigst mit den sechs Komma sechs Milliarden und einfach weißt, das wird und kann nicht das letzte Mal sein, dass Du bis zweitausendneunundzwanzig da Geld reinpumpen musst.
Philipp: Nee, ich mein, ich glaub, nach aktuellen Zahlen dürfte es in zwei Jahren das Geld vorbei sein. Also das, was sie jetzt eingesammelt haben. Ja. Zwei bis drei Jahren, länger wird's nicht reichen. Und dann Ja,
Fabi: weil man weil man nicht so ganz weiß, ob was jetzt noch irgendwie über Computerressourcen und so was kommt.
Philipp: Ja, aber das das das müsste theoretisch spitzkalieren. Also die Computerausgaben können nicht weniger werden. Das Trainieren von Models kann ich Genau,
Fabi: aber was ja, weil weil eigentlich zweitausendvierundzwanzig haben Sie einen Loss von fünf Milliarden Dollar. Und das das heißt, Du, Sie machen und das, was aus den Zahlen raussehen, konnte ich's gehen hab, Zweitausendsechsundzwanzig machen Sie vierzehn Milliarden Verlust, zweitausendvierundzwanzig fünf Milliarden. Das heißt, insgesamt machen Sie vierundvierzig Milliarden Verlust bis zweitausendneunundzwanzig. Das heißt, es bleiben noch nach allem Riese sechsundzwanzig über. Das heißt, in den anderen drei Jahren, wo ich keine genauen Zahlen gefunden hab, machen Sie im Schnitt noch mal acht Milliarden Loss. Das heißt, Sie machen dieses Jahr und nächstes Jahr zusammen schon dreizehn Milliarden Loss. Also kann schon da nicht ausreichen. Das heißt, je nachdem, wie viel von den zehn Milliarden von Microsoft in Computerressourcen noch offen sind, vielleicht können sie darüber noch was querverrechnen oder keine Ahnung, woher auf einmal dieses andere Geld kommt. Ich bin auch irgendwie manchmal versteigt das meine buchhalterischen Fähigkeiten auch so, weil nach also wenn ich einfach nur fünf Milliarden, acht Milliarden zusammenrechnen würde, würd ich sagen, dreizehn Milliarden los, sechs Komma sechs reichen nicht sonderlich lang Anfang nächsten Jahres ist vorbei. Aber
Philipp: Ja, es ist ja nicht, da gibt's nicht son Sprichwort, das irgendwie sagt, okay, wenn Du irgendwie, wenn Du der Bank zehntausend Euro schuldest, dann ist das dein Problem. Aber wenn Du der Bank irgendwie hundert Millionen Euro schuldest, dann ist es der Bank ihr Problem. Ja. Und hey, wer weiß, ich mein, wenn OpenAI dann einfach sechs Milliarden Schulden hat oder so was, dann ist halt die Frage, ist das dann Microsofts Problem oder OpenAI ist Problem?
Fabi: Ja. Ja, das das stimmt wiederum, ja. Deswegen, also bleibt spannend, aber auf jeden Fall sehr ambitioniert und ich bin mal gespannt, wir können's ja jetzt mal jährlich 'n ehrlichen Check in, wenn wir's so oder so machen. Ich mein, ist ja jede Woche gefüllt hier unser Thema OpenAI. Mal schauen, ob Sie das erreichen. Hundertfache Umsatzsteigerung in sechs Jahren. Vielleicht nicht ganz so ambitioniert, aber ähnlich spannend sind auch die anderen Themen, die wir die wir haben. Erzähl doch mal 'n bisschen was über diese Hybrid SSM Attention Modell, was ja geschrieben hast, son bisschen die Transformer Architektur, die ja bisher sehr vorherrschen ist, bisschen challengen soll.
Philipp: Genau, aktuell sind ja die meisten LLMs, die wir sehen oder vor und wir wissen Transformer Modelle. Aber es gibt seit, glaub, zwei Jahren ungefähr oder eineinhalb Jahren immer mehr Forschung, wie man diese verbessern kann. Ganz einfach gesagt, in Transformers zu skalieren, hab ich eine n zu n Matrix, also sone quadratische Matrix, die halt einfach mit nach oben wächst. Das heißt, umso länger mein Input wird, umso mehr brauch ich, was halt superschwierig ist, umso größer mein Kontext wird. Und auch generell der brauch ich einfach mehr Computing beim Wachsen. Das ist so das einzige große im Anzug, was wir halt bei Transformers sehen. Und es gibt mehr und mehr Research, die versucht halt, dieses quadratische Wachstum auf 'n lineares Wachstum zu machen, was er einfach dadurch Compute spart. Und Start-up Syphera AI hat letzte Woche 'n neues Modell released, was eine Hybrid Architektur hat. 'N Teil Transformer, also runtergesppeckt und 'n Teil Mamba. Und Mamba ist aktuell so, dass die hoffnungsvollste Alternative zu Transformers, was man so gesehen hat. Und dieses neue Modell hat sieben Milliarden Parameter, wurde nur auf zwei Trillionen Tokens oder Milliarden im Deutschen dann Tokens trainiert. Also ich glaub, es dürfte ungefähr siebenfach weniger als Lama drei sein, aber es erreicht ungefähr dieselben Werte wie Lama drei und Jama auf dem. Und zusätzlich einfach durch die andere Architektur ist es fünfundzwanzig Prozent schneller für die ersten Token, die generiert werden und hat auch 'n höheren. Und vor allem, wenn man halt in längere Sequenz längs geht. Das heißt, wenn ich mehr Text generieren möchte, wenn ich mehr Textinput hab und einen neuen Text generieren möchte, brauch ich einfach viel, viel weniger Speicher. Deswegen sehr interessant und mal abwarten, was wir in ein, zwei Jahren haben, ob wir dann diese Mischarchitekturen haben.
Fabi: Ja, superinteressant. Mit dem war man ja vorher ehrlicherweise auch noch gar nicht son Begriff.
Philipp: Ja, also es gibt noch, from von, das ist 'n Start-up aus Israel, die haben auch sone Hybridarchitektur released schon. Und dann gibt's noch ein, zwei weitere Start ups, die auch da rein investieren, weil das ist halt einfach das größte, das wir bei Transformers haben, dass wir einfach nicht in diesen unendlichen Kontext mehr oder weniger eskalieren können, beziehungsweise dass das sehr, sehr teuer ist. Und man macht natürlich Sinn, versuchen, dass man versucht Alternativen zu finden, wie wir die Computeranforderungen reduzieren können, dasselbe Ergebnis zu erreichen.
Fabi: Das stimmt. Ja, sehr cool. Packen wir auf jeden Fall auch in die Shownotes. Lasst doch noch kurz über ein das erste Open Source Text to Videomodell reden oder das erste sehr gute Open Source Modell, was Text to Video angeht. Permitt Flow SD drei.
Philipp: Ja, sehr gut. Ist immer noch 'n dehnbarer Begriff, aber Permitt Flow SD drei ist 'n neues, sehr offenes Text to Video Modell, sehr offen heißt, hat nur zwei Milliarden Parameter, ist 'n, also so ähnlich wie oder. Heißt, ich kann's lokal auf meinem MacBook auf jeden Fall ausführen. Und das Besondere daran ist, man kann so ähnlich wie bei Sora 'n prompt eingeben und dann ein Video generieren, fünf Sekunden beziehungsweise zehn zehn Sekunden Clips aktuell und die sehen echt gut aus. Also für etwas, was ich auf meinem MacBook ausführen kann, innerhalb von ein paar Minuten sehen die echt gut aus. Es gibt auch sone Project Page, wo man so verschiedene Videos sich anschauen kann, die generiert wurden. Und klar, wenn man genauer hinschaut, vor allem bei Menschen oder die Umgebung oder was physisch so mäßig passiert, dann fällt es einem schon direkt auf. Aber ich weiß nicht, ich glaub, ich bin mir sicher, das gibt dem noch 'n halbes Jahr. Ja, dann gerade in irgendwie auf Tiktok oder auf Instagram werden wir ganz, ganz viel solche Videos sehen. Oder wenn ich eine Präsentation mache und anstatt 'n Hintergrundbild, möcht ich 'n Video plötzlich haben oder irgend 'n anderes Video. Ich glaub, da hat man einfach viel, viel mehr Möglichkeiten. Und das ist halt wirklich sehr open, heißt das Datensatz, das genutzt würde zum Trainieren, ist Open Source. Der Training Trainingscode soll noch kommen. Das heißt, man kann das Modell bald feintunen auf eigenen Videos oder anderen Ideen. Und die sind unter MIT Lizenz. Das heißt, man hat keine Restriktionen in dem Sinne.
Fabi: Ja, ist ja auch, ich mein, ich ich denke auch, also ich mein, gibt immer noch 'n halbes Jahr. Ich war ja schon sehr überrascht. Wir hatten, ist ja jetzt kein Thema für heute eigentlich gewesen, aber ich glaub, der Jan hatte auch in unserer Gruppe ja auch das eine Musikvideo gesharht. Ich weiß gar nicht, jetzt hab ich's grad, die schnelle Ja. Ist jetzt, glaub ich, grad nicht mehr. Wenn ich, ob Du noch weißt, von welcher Band das war. Ach, doch, hier hab ich's im Moment. Das war auf, ach genau, vom Lumpenpack. Gucken wir mal in die Kruppstahl Baby, ja? Ja, packen wir mal in die in die Shownotes rein, was ja auch 'n komplett AI generiertes Musikvideo ist. Also die Snippets sind einfach zusammengeschnitten und dann muss ich's schon wirklich sagen, ich mein, ja, mein, natürlich erkennst Du ganz klar, dass das AI generierter Content ist so, aber es ist schon krass, dass sie einfach richtig gutes Storytelling damit hinbekommen, so und irgendwie zumindest 'n paar Charaktere auch konsistenter 'n bisschen durch die Szenerien mit sind. Und da muss ich auch schon sagen, also ich mein, der Content, so, frag mich, warum's nicht eigentlich jetzt schon mehr Leute machen. Also Du kannst ja Storytelling machen, was die sonst so auf dem Niveau, glaube ich, bei dem bei dem Budgets, die sie für Musikvideos haben, wahrscheinlich in der Größe, auf gar keinen Fall tun könnten. Also da auch, deswegen die These ist, glaub ich, nicht so steil zu sagen, in 'nem halben Jahr kommt da noch sehr viel mehr von Content, der den wir auch so täglich konsumieren von Ja, vielleicht
Philipp: gibt's dann auch Zora mal zum Nutzen, ne, im halben Jahr, wer weiß.
Fabi: Wer weiß. In dem Fall wissen wir auch nicht, welches Modell die natürlich auch genutzt haben. Aber weil Du ja auch gerade meintest, so, dass das, was man jetzt schon damit kann und die Qualität davon, dass Du davon überrascht bist, ich muss sagen ja auch, wir hatten ja, weiß nicht, ob's vor zwei Wochen war oder vor vier Wochen, als wir uns grundsätzlich mal darüber unterhalten haben, so wie wie so neue oder wie so AI Modelle im Endeffekt Spiele wirklich argumentieren können und man im Endeffekt wirklich in einem LLM ein ein oder in einem Modell ein Spiel wirklich spielt, wenn ich bei jeder Frame zur Laufzeit generiert wird. Und wo ich auch noch mal so, oh, ich bin mal gespannt so, bis es dahin kommen soll. Jetzt haben wir ein Modell, Diamonds, was jetzt noch mal trainiert wurde auf Daten von Counter Strike Go. Und was im Endeffekt genau so funktioniert, also was das das Modell ist ausführbar auf 'ner Standard Gaming Grafikkarte. Ich glaub, ihr Beispiel war irgendwie eine RTX dreitausendneunzig von Nvidia, wo sie Counter Strike Go mit zehn Frames per Second in dem Modell wirklich spielen können. Also jeder Frame wird zur Laufzeit generiert. Ich glaub, das zwei war die Map, die man spielen konnte. Ja. Und also ich mein, es ist schon beeindruckend so, dass man das über, dass es überhaupt möglich ist. Ich meine, natürlich haben Sie auch direkt generell gesagt so, dass es schon teilweise Modell 'n bisschen strugglet mit Halluzinationen, also irgendwie Weapon Morphing, wo sich Waffen auch immer verändert, wenn man sich generell schnell bewegt, dass dann irgendwelche komischen Artefakte sind. Manchmal, wenn man irgendwelche Gegenwände läuft, wird man irgendwohin teleportiert. Aber es ist schon irgendwie beeindruckend, das so zu sehen. Ich mein, wir hatten ja auch Gaming Gen von Deep Mind, die es auch für Doom gemacht haben so. Aber jetzt haben sie auch dann immer gesagt, sie haben nur null Komma fünf Prozent der der auf null null Komma fünf Prozent der Frames trainiert, was Doom trainiert wurde. Und also ich find's einfach, das es ist definitiv beeindruckend, was sie da machen. Ich glaube weiter noch, wir sind noch relativ weit davon entfernt, wenn man mal wirklich irgendwie denkt, Multiplayer und was es dann irgendwie alles noch da hinten dran geben muss. So, aber also der Stand ist schon nicht schlecht.
Philipp: Ja, ich mein aber, wenn Du's vergleichst mit dem, wo Gaming vor vierzig Jahren war, wenn wo man diese prozedualen, sag ich mal, Text Input Games hatte mehr oder weniger, ich glaub, Du kannst es mit dem Stand ungefähr vergleichen und dann spul einfach vierzig Jahre in die Zukunft, wo wir aktuell sind. Und ich glaub, wir werden schneller sein. Gib dem zehn Jahre oder irgendwie so was. Computing wird auch immer besser. Ich bin mir sicher, dass Du dann, wer weiß, was für Spiele spielen kannst. Ich fand's auf jeden Fall cool, weil ich hab früher viel Counter Strike gespielt und das ist schon abgerechnet, dass es wirklich einfach funktioniert jetzt. Ich mein, ich hab 'n Arbeitskollege jetzt getestet, wenn Du 'n bisschen länger spielst, umso, sag ich mal, schwieriger wird es, umso mehr hast Du diese Fehler. Aber schon alleine, dass Du rumlaufen kannst, schießen kannst, das Ich find das verrückt.
Fabi: Ja, es ist es ist schon super super beeindruckend. Also wie gesagt, es sind auch sehr viele Challenges dann dann zu lösen so. Vor allem, wenn Du auch überhaupt mal überlegen musst, irgendwelche Stände aufm Server synchronisieren. Das sind auch wirklich überhaupt die Physik sozusagen, wer hat wen zuerst getroffen und so weiter? Also ich mein, da steckt sehr, also so so Multiplayer Onlinegames zu machen, da steckt sehr viel Komplexität irgendwie mit drin. Aber es ist allein wirklich, dass es wirklich lokal auch auf irgendwie auf deiner kleinen Grafikkarte oder mit zehn Frames per Second überhaupt funktioniert, braucht man nicht drüber zu reden. Das ist auf jeden Fall sehr beeindruckend. Also supercool waren wurde, glaub ich, von Researchern, von der Uni von der von Genf Edinburgh und 'n paar Researcher von Microsoft gemachtes Paper, was dazu auch veröffentlicht wurde. Wie gesagt, basiert auch auf Diamonds, was sie eigentlich gemacht haben, son paar Atari Spiele im Endeffekt zu modellieren. Das Ganze halt jetzt noch mal genutzt für Counter Strike Go. Packungen mal, die schauen uns, schau dir die Videos mal an, müsst sie nicht direkt lokal ausführen, aber einfach die Videos angucken. Ist schon mal sehr beeindruckend.
Philipp: Weißt Du noch, wie viel Computer Sie gebraucht haben zum Trainieren? Ich glaub, das haben Sie auch irgendwo erwähnt und das ist so viel weniger, als das man eigentlich denkt für das, was Sie geschafft haben oder?
Fabi: Sie haben geschrieben auf einer GPU im Vergleich zu DeepMAN, die hundertachtundzwanzig TPUs gebraucht haben, Gamagen zu trainieren. Das hat mich, also ich hab mich auch gefragt, ob das also ob es ob das riecht. Es klang so wenig, dass ich mich fast gefragt hab, deswegen hab ich nicht ganz genannt, weil ich dachte, ob das falsch ist oder nicht, weil sie haben gesagt, in null Komma fünf Prozent der Frames, die sie gebraucht haben, was Dietmar für Doom gebraucht hat und auf einem GPU. Aber was genau für einen? Oder hast Du noch irgendwo eine andere andere Nee, Du
Philipp: brauchst das das das, ich weiß, also das klang nicht sehr viel. Aber.
Fabi: Ja? Also irgendwie so, dass Deswegen hab ich gedacht, ich sag, hä, wirklich? Klang fast falsch. Aber ich mein, ich ich war auch überrascht davon, dass Du's auf soner relativ einfachen Grafikkarte überhaupt spielen kannst, so. Also ich hab jetzt irgendwie erwartet, so gut, brauchst gar nicht ausprobieren mit deinen mit deinen kleinen Gaming GPUs, die Du die Du sonst hast. Also supercool, was die da was die da erreicht haben. Lassen Sie auch, wir haben vorhin uns kurz über Open AI unterhalten, worüber wir uns aber nicht unterhalten haben. Neben dem ist noch OpenAI Swam, eine Library, die OpenAI rausgebracht hat, was im Endeffekt zur Orchestrierung von Multi Agentensystemen genutzt werden kann. Und was 'n bisschen aus dem Nichts herauskam, ist aktuell noch Experimentell Status und für Educational Purpices, also kein also keine in Produktion befindliche library oder die dafür irgendwie gedacht ist. Aber zumindest erst mal superinteressant, vom Grundkonzept ist es so, dass man verschiedene Agenten definieren kann und jeder Agent eine Funktion hat, die aufgerufen werden können. Und als Return Wert von so einer Funktion kann ein Agent einen weiteren Agenten zurückgeben. Das heißt, wenn man sozusagen irgendwas übergeben will, sagen wir mal, es gibt irgendwie, sagen wir, einen Assistenten, der son bisschen entscheidet, okay, in welchem Film mit welchem gesprochen werden soll und jemand fragt zum Beispiel, wie ist das Wetter in New York? Dann könnte zum Beispiel der Triage Assistance verschiedene Funktionen haben, zum Beispiel eine Funktion, die halt dann in sonem Wetterfall aufgerufen wird, nehmen Sie mal. Die Funktion return dann wieder diesen Wetterassistenten und dieser ganze Kontext, was auch superinteressant ist, man übergibt am Anfang den Kontext und auch Swarm kümmert sich darum, diesen Kontext im Endeffekt über die ganzen Assistenten hinweg in einem Aufruf konsistent zu halten. Das heißt, wir haben da natürlich dann auch hier den den das State Management mit drin in der Library. Und der Wetterassistent wird da im Endeffekt dann die Antwort geben und zurückgeben, dass es gerade, was soll ich mal, dreißig Grad in New York ist. Und super interessant auf jeden Fall, weil es das halt erst mal supereinfach macht, dieses Multi Agent Handling so. Sind natürlich jetzt nicht die Ersten, die solche Funktionalität überhaupt gebaut haben, aber cool, das Ganze jetzt von OpenAI zu sehen und macht wahrscheinlich Multi Agenten Use Cases eine ganze Ecke einfacher in an der Stelle. Feine, hast Du schon, Du hast, glaub ich, Beispielcode genannt in deinem Twitter Beitrag, aber zumindest da waren ja auch teilweise 'n bisschen Dummycode Stellen. Ich weiß nicht, ob Du irgendwie schon mal eine eine laufende Applikation im Zoo umgebaut hast?
Philipp: Nee, noch nicht. Und es war auch sehr interessant, weil wie Du gemeint hast, es kam ausm Nichts und es hat danach auch bisschen auf Social Media zu Diskussionen geführt, weil ich glaub, Open Air hätten niemals gedacht oder diejenigen, die's releast haben, dass es so viele so viel Aufmerksamkeit bekommt. Glaub, das Repository hat jetzt irgendwie vierzehntausend GitHub Stars oder irgendwie so was, also jetzt nicht gerade wenig. Und der Gedanke dahinter, so wie ich's jetzt mitbekommen hab, ist mehr 'n Konzept als wirklich etwas, was sie verfolgen werden. Also ich würd nicht erwarten, dass da irgendwelche Features hinzukommen oder irgendwelche andere und das ganze Konzept hinter, wie es funktioniert, ist scheinbar auch schon gang und gäbe in anderen, sag ich mal, Agen Libraries wie Crew AI oder auch bei. Das Einzige ist halt, dass wieder 'n sehr schönen, leichten, eine leichte Version davon gebaut hat, weil 'n ist immer definiert mit 'nem Namen, mit halt den, den er nutzen kann und halt die Endinstruktion. Zum Beispiel, was ich weiß, auch diesen Triage Agent, also dieses, was Du genannt hast.
Fabi: Mhm.
Philipp: Da gibt's keinen so richtigen Code und irgendwie Beispiele funktionieren auch gar nicht. Also es ist mehr so, sollte man mehr als Konzept verstehen, sich den Code anschauen. Es ist wirklich, es sind glaub fünfhundert Zeilen Code oder irgendwie so was, die die da genutzt haben. Und ganz viel ist einfach nur, wie ich von 'ner Funktion, die ich definier, dieses JSON SGema erzeuge und dann wie ich die OpenAI APIs aufrufen kann. Aber definitiv, wenn man, sag ich mal, sich mit Multi Agents so langsam beschäftigt, dann würd ich vorschlagen, lieber in so etwas reinzuschauen als 'n komplett abstrahiertes Framework, wo man wieder nicht weiß genau, was passiert. Und dieser Hand off Mechanismus ist schon, find ich, interessant und gut erklärt, wo man auch 'n paar mehr Gestaltungsfreie Räume hat.
Fabi: Ja, definitiv. Auf jeden Fall cool. Danke auch noch mal für die zusätzlichen Kommentare dazu. Deswegen, parkt es mir in die Shownotes, schaut euch mal das Konzept dazu an. Ich fand's, also wie Du auch sagst, so selbst ich der, ich hab jetzt 'n, ja noch nie wirklich 'n Multi Agenten System gebaut irgendwie, aber ich fand den Beispielcode im GitHub Repository einfach ziemlich einfach verständlich und so. Und irgendwie klang konzeptionell relativ aufgeräumt, was sie da gebaut haben. Das heißt, wie Du sagst, allein zu Education, sich einfach mal anzuschauen, kann nicht schaden. Kommen wir noch mal zu der hat eine neue Message rausgebracht. Was hat's damit auf sich?
Philipp: Genau, so ähnlich wie Open Air, dann jetzt auch eine Badges API, also eine API, dem ich ganz viele hinschinken kann, die dann asynchron über die nächsten vierundzwanzig Stunden verarbeitet werden, heißt, text generiert. Man hat fünfzig Prozent Preisreduktion. Allerdings, ich glaub, 'n großer Unterschied zu OpenAI ist, dass deine auch expandern können. Also kannst dich das so vorstellen, ich hab neben der Message API, nee, Badge API jetzt Und die bekommt eine Liste auf. Ein ist, wär wie 'n normaler LLM Call, wo ich halt irgendwie sag, okay, ich schreib mir 'n Gedicht über irgendwas. Und dann hast Du den zweiten, schreib mir 'n Gedicht über was anderes. Und dann kann ich sozusagen diesen Badch abschicken, bekomm eine ID zurück. Die ID kann ich dann nutzen, den aktuellen Status zu prüfen. Und es gibt vier verschiedene Statys mit. Das heißt, mein war erfolgreich, arrow, da ist irgendwas schiefgelaufen, kann ein interner sein, kann auch sein, dass man irgendwie gegen die Terms of Service verstoßen hat oder irgendwas anderes. Arrows werden nicht gebildet, wenn der User den irgendwie abbricht und dann. Und was ich ganz interessant fand, wo ich mir die Dokumentation durchgelesen hab, ist, bei. Das heißt, es gibt aktuell dort keine Garantie, dass innerhalb von diesen vierundzwanzig Stunden die, die Du schickst zu der Badge API verarbeitet werden. Mhm. Und wenn man immer diesen, sag ich mal, Status abfragt, bekommt man einen dieser vier Typen pro. Das heißt, man muss selber mehr oder weniger diese Logik handeln. Das heißt, okay, ist 'n Fehler vorgekommen. Warum? Soll ich's einfach vielleicht noch mal probieren? Und dann ist es okay, noch mal hinschicken. Klar, natürlich ist sehr interessant, dass es fünfzig Prozent Preisreduktion hat für sone drei Punkt fünf. Das heißt, nur noch eins Komma fünf Dollar pro eine Million Input Tokens und sieben Komma fünf für eine Million Output Tokens. Definitiv interessant, wenn man irgendwie, sag ich mal, Badgejobs hat, aber man muss sich 'n paar Gedanken machen, wie das genau funktioniert dann mit diesen vierundzwanzig Stunden und was mach ich, wenn Fehler kommen oder wenn's.
Fabi: Ja, also 'n bisschen retrilogik auf jeden Fall, die man bauen muss an der Stelle. Aber cool mit der Badges AP. Zwei Themen haben wir noch. Das eine können wir eigentlich fast 'n bisschen schneller abhandeln und zwar Core Weef, die im Endeffekt das das, ich sag mal, Cloud Provider für GPUs, haben wir schon mehrmals in der in den News gehabt, wurde ja eigentlich mal zweitausendsiebzehn als Krypto Mining Firma gegründet, so ist dann ja mit so ist dann ja mit dem ganzen AI Hype 'n bisschen umgesandet an der Stelle und hatten wir schon das eine oder andere Mal in den Shownotes in den in den AI News gehabt, und zwar in der Nummer fünf, in der Nummer dreiundzwanzig. Jedes Mal ging's darum, dass sie Geld eingesammelt haben. Das erste Mal, also in der a ein News Nummer fünf war September dreiundzwanzig, also knapp genau vor 'nem Jahr, dreizehn Monate her. Da haben sie zwei Komma drei Milliarden eingesammelt und das Interessante war da, dass sie damals ihre h-einhunderts, die sie hatten, als als Sicherheit bei diesem Kredit genommen haben und somit zwei Komma drei Milliarden auf eingesammelt haben. Mittlerweile haben sie zwölf Milliarden Overall eingesammelt. Davon sind aber der Großteil davon, also knapp zehn Milliarden, sind im Endeffekt Kredite, die sie aufgenommen haben, weil sie auch in der Folge in unserer A1 News dreiundzwanzig haben uns drüber unterhalten, dieses Jahr im Juni noch mal sieben Milliarden aufgenommen haben. Und im Endeffekt jetzt die News, die wir jetzt teilen wollen, sind noch mal, sie haben sechshundertfünfzig Millionen weiteren Kredit aufgenommen an der Stelle. Und sie planen damit, dass sie achtundzwanzig Datencenter bis zum Ende des Jahres öffnen wollen und weitere zehn im nächsten Jahr. Und es ist wohl auch einen IPO fürs nächste Jahr geplant. Also auf jeden Fall sehr interessant. Auch da steckt 'n bisschen was an Geld drin. Ich glaub, Sie sind mittlerweile noch vor dem Kredit auf knapp, ich glaub fünfundzwanzig Milliarden Dollar sind sie bewertet. Und wie gesagt, super interessant kam jetzt schon 'n paarmal bei uns auf durch Ihre, ich glaub, Sie haben da auf jeden Fall 'n CEO, der auf jeden Fall ganz clever ist und weiß, wie man sinnvoll Geld einsammelt. Hat mir, wie gesagt, vor 'nem Jahr bei den Sicherheiten mit den H-einhundert-Grafikkarten. Also so von daher aus dem BWL aus der BWL Sicht auf jeden Fall relativ erfolgreich, was der CEO da macht. Covi. Und
Philipp: wenn wir ja am Anfang von Anfang von H-einhundert Preisen gesprochen haben, ich hab grad mal geschaut, der H-einhundert Preis auf Covi, Flick Bay vier Dollar fünfundzwanzig aktuell. Was ungefähr die Hälfte von ABS ist. Und ist schon 'n Provider, die 'n paar mehr Services bereitstellen. Also ist nicht nur, sondern man, ich glaub, die haben auch, also gibt Services und Storage Service wie s drei und auch 'n paar Networking außen rum. Also das ist so, ich wollt den Mars so, sag ich mal, in die Mitte platzieren zwischen, okay, ich hab Public Clouds mit managt alles und auf der unteren Seite irgendwie Lambalaabs mit irgendwie nur VMs und Corvi passt sich so in die Mitte ein.
Fabi: Also einer von den, die auf jeden Fall deiner Kritik von vorhin vielleicht nicht ganz entsprechend sozusagen, wo wir's mal gucken, wo wir mal schauen können, wie's im nächsten Jahr mit solchen Providern dann weitergeht.
Philipp: Ja, ich glaub, also wenn Corvey halt erfolgreich sein möchte, müssen die genau so was machen, was sie mit dem ganzen Schuldenzeug war. Du kannst ja nur gegen Amazon und Google konkurrieren, wenn Du die Verfügbarkeit von diesen Rechenzentren hast, die sie jetzt bauen möchten. Weil ich weiß nicht, als europäischer Kunde möchtest Du halt deine Server nicht in den USA haben. Wenn Du in den USA bist, in der Westküste möchtest Du ja nicht an der Ostküste irgendwie deine Server haben. Wenn Du irgendwie Azure Pacific oder Mittel East unterwegs bist, dann möchtest Du ja auch Server, die in deiner Nähe sind. Und Du brauchst ja nicht nur einen Server, sondern das ganze Cloud Konzept funktioniert ja mit der Elastizität nur, wenn ich 'n Rieseninfrastrukturkonstrukt hab mit Riesenanzahl an Kunden, dass wenn Kunde a halt gerade mal hochskaliert, dass Kunde b vielleicht eine niedrige Last hat und das halt sich so indirekt mehr oder weniger ausgleicht. Und darüber kommt ja dann der der Mehrwert oder das, was die die ganzen Cloud Provider generieren. Und wenn ich halt, also ich mein, Corvys direkte Konkurrent ist halt wirklich ABS und Google und Azure, Da kann ich nicht einfach irgendwie mit zehn Millionen und zwanzig GPS anfangen.
Fabi: Nee, definitiv nicht, aber dafür haben sie jetzt ja wieder 'n bisschen Geld eingesammelt. Obwohl's, wie gesagt, jetzt da eigentlich der Kleinste der Kredite bisher war mit ihren sechshundertfünfzig Millionen. Lassen Sie mal den Abschluss machen, mal wieder lokale LLMs, natürlich eine unserer Lieblingsthemen hier, und zwar mit den GUF Modellen, die man jetzt mit Ohlame ausführen kann. Jetzt sehen Sie uns son bisschen was dazu.
Philipp: Genau. Ich find's sehr, sehr cool. Wir haben bei Higignface eine, ich werd's einfach mal, eine Art Proxy geschrieben. Man hat ja aktuell, wenn man bei Olammer 'n Modell ausführt, muss man ja mehr oder weniger zu der oder deren nutzen und dann kann ich ja in meinem Terminal Olammer Run und dann Dama drei zwei und dann wird er das von Olammer runtergeladen, lokal gespeichert und ausgeführt.
Fabi: Mhm.
Philipp: Und wir haben ja auf Hingingface sehr, sehr viele Modelle. Wir haben auch sehr, sehr viele Modelle, die einfach nachm Training und werden oder auch anderer Weise. Ich mein, ist ja das Format, was Lama CPP nutzt und Lama CPP wird ja in OLama verwendet oder auch in Studio oder bei Jahn oder bei ganz vielen anderen auch. Und was unsere Infrastruktur jetzt Team jetzt gemacht hat, ist sozusagen gebaut, dass wenn ich 'n gguf repository of higingface hab, muss ich das nicht länger zu olama migrieren, sondern kann direkt olama run, dann h f dot co und dann Slash und das Repository. Das heißt, ich kann direkt Modelle von Higingface mit olama ausführen und muss nicht erst warten, bis es irgendwie migriert wird. Oder mal angenommen, ich trainier mein eigenes Modell, möchte das jetzt ausführen, dann funktioniert das mittlerweile jetzt supereasy. Sehr cool. Und ich muss auch nichts updaten, es funktioniert direkt. Also wenn ihr das installiert habt, Dann einfach mal auf die Dokumentation gehen. Da ist 'n Beispiel dabei. Ich glaub, die können wir anhängen. Ja. Und dann Modelle direkt von Higingface ausführen.
Fabi: Sehr schön. Damit haben wir auch das letzte Thema für heute abgeschlossen. Philipp, nächsten Mal, wenn wir uns hören, in zwei Wochen sind wir 'n bisschen zeitlicher Verzögerung unterwegs. Also Du eine weiter, viele Zeitzonen hinter mir. Bin mal gespannt, wie gut unsere Verbindung an der Stelle wird und zu welcher Zeit ich dich antreffen werde. Bis dahin sind's aber noch zwei Wochen. Vielen Dank für deine Zeit und euch wie immer vielen Dank fürs Zuhören und schickt Feedback an Podcast der Programmier Punkt bar oder nutzt die anstehenden Kanäle gern noch über Spotify. Wir hören uns dann. Bis dann. Tschau Philipp.
Philipp: Tschau.