News AI 03/25 –

Nvidia Digits & Cosmos // Sky-T1 // Codestral 25.01 // vdr-2b-multi-v1 // moondream

15.01.2025

// Podcast
// News AI 03/25

Shownotes

Die erste AI-News-Folge mit Dennis als Host ist im Kasten und behandelt folgende Themen:

OpenAI hat diesmal nur eine kleine Rolle gespielt mit der Aussage von Sam Altman, dass der $200-Pro-Plan aktuell nicht kostendeckend ist.

NVIDIA wiederum hat den Jahreswechsel genutzt und einige Neuheiten verkündet: Neben NVIDIA Cosmos, einer Modellreihe, die das Erzeugen von Trainingsdaten primär für physikalisch korrekte Welten verbessert (z. B. für Roboter oder autonome Autos), wurde ein neuer, kleiner Supercomputer Digits vorgestellt.

Red Hat kauft das Unternehmen Neural Magic, um in der Cloud AI-Innovation voranzutreiben.

Philipp spricht über die „Bedienungsanleitung“ für o1.

Die neuen Modelle, die wir diese Woche besprochen haben:
Sky T-1, ein Open-Source Reasoning-Modell,
Codestral 25.01, ein neues Coding-Modell von Mistral, das nicht revolutionär ist.
Weiter ging es mit vdr-2b-multi-v1 und moondream – beides sind multimodale Modelle, die trotz geringer Parameter einiges leisten.

Nicht vergessen: Ab 100 Teilnehmenden gibt es für das Ausfüllen unserer Hörer:innen-Umfrage etwas zu gewinnen! Macht also gern mit und motiviert eure Fellow-Hörer:innen.

Details zum Gewinnspiel findet ihr unter https://www.programmier.bar/gewinnspiel

Download

/transkript/programmierbar/news-ai-03-25-nvidia-digits-cosmos-sky-t1-codestral-25-01-vdr-2b-multi-v1-moondream

Dennis: Hallo und herzlich willkommen zu den ersten AI News im Jahr zweitausendfünfundzwanzig. Und das ist eine neue Stimme, die euch direkt begrüßt, aber ihr vielleicht aus den anderen programmier.bar Formaten kennt. Ich bin Dennis, hi. Ah, schön, dass ihr alle zuhört und was aber gleich geblieben ist und wo unsere Expertise herkommt, ist Philipp. Hi Philipp.
Philipp: Hallo.
Dennis: Bist Du gut ins neue Jahr gestartet?
Philipp: Ja, ich meine, es war ja sehr ruhig und entspannt. Ich hatte Urlaub noch die erste Woche, deswegen alles tipptopp.
Dennis: Sehr gut. Haben sich auch die großen Firmen da ran gehalten, nicht mehr allzu viel zu veröffentlichen in der Zeit, was man hätte verpassen können. Trotzdem haben wir einige Themen, die wir heute mitbringen, die wir kurz besprechen wollen. Nvidia hat zwei Announcements gemacht. Einmal einen neuen AI Computer und etwas, was sie Cosmos nennen. Open AI hat ein kurzes Statement gegeben zu der Profilabilität ihrer Pro Subscription, Die KRAK iOS wurde released. Microsoft und iOS investieren in Datencenter. Red Head hat ein Unternehmen namens Neural Magic übernommen und dann haben wir noch drei beziehungsweise vier Modelle, SkyT eins Codes drauf, fünfundzwanzig null eins und die anderen spreche ich eher später aus. Das ist zu kompliziert, Okay. Die wir besprechen können heute. Ich würde einmal starten, weil normalerweise hat Open Air ja einen relativ großen Block, weil sie immer alles Mögliche machen und haben das oben im letzten Jahr. Jetzt haben sie sich aber seit Weihnachten zurückgehalten mit großen Announcements, aber ein kleines Tippbild, was ganz interessant war von Sam Altman, dass er gesagt hat, dass die aktuelle Pro Subscription, also die zweihundert Dollar Lizenz, die sie dort haben, nicht profitabel ist. Das heißt, die Leute nutzen sie mehr und OpenEye kostet es aktuell etwas Das hat ihn verwundert. Er hat selbst den Preis festgelegt dafür und genau, das war so ein bisschen Dass es also viel viel genutzt wird, die Subscription. Ich bin mal gespannt. Ich mein, ich würde auch vermuten, das ist immer so ein bisschen first, also wenn ein Feature neu ist, dann macht man's vielleicht auch noch mal mehr als dann im Durchschnitt danach. Von daher levelt sich das vielleicht auch irgendwann wieder so ein bisschen ein. Aber
Philipp: Ja, ganz interessant, was ich im gleichen Zug noch dazu gesehen hab, ist so o-One oder halt die Modelle sind ja definitiv anders als zu Chatmodellen. Wird zum einen viel mehr Zeit investiert, bis sie die richtige Antwort generieren und außerdem passiert viel mehr auf der Trainingsseite. Also man hat nicht diesen typischen Chatverlauf einfach. Und was man vermehrt mittlerweile auf Social Media und Twitter sieht, ist, dass Menschen doch nach und nach, also der erste Eindruck war eher so, warum brauch ich o-1-Pro? Ist es überhaupt besser oder nicht? Und einige Stimmen haben sich doch dann geändert von, hey, es ist eigentlich doch richtig gut und son bisschen das Prompting, wie ich son Riesening Modell machen oder benutzen soll, kann, ändert sich so langsam 'n bisschen mit mit 'nem. Auch ist auch 'n AI Podcast, die haben jetzt 'n Blogpost dazu released, wie man o 1 oder wie jemand erfolgreich o 1 prompttet. Mhm. Was dann vielleicht auch noch ganz interessant ist und vielleicht beides im gleichen Zug, weil ich mein, man kann ja nie planen, wie ja wie viel Usage man am Anfang hat. Aber doch, man sieht son leichten von HO1 Pro. Ist vielleicht doch interessanter, als man am Anfang gedacht hat. Das ist ja vielleicht 'n bisschen wie mit allem, wenn man nicht genau weiß, wie ich etwas benutzen soll, dass es ein bisschen dauert, bis man das versteht.
Dennis: Genau. Und O1 Pro ist ja noch mal praktisch O1 auf bisschen mehr Ressourcen laufend.
Philipp: Genau.
Dennis: Aber was wir gar nicht auf der Liste haben, aber bis mir gerade noch einfällt O1 ist aber jetzt über die API auch neu verfügbar, ne? Das war glaube ich auch noch in der Folge.
Philipp: Genau, das war Teil der Chipmess, die Sie ja im Dezember hatten sozusagen. Dass Du
Dennis: Ja okay.
Philipp: O1 darüber über die API nutzen kannst.
Dennis: Und vermutlich ist das ja auch wieder erst mal günstiger oder hast Du da mal mal Preisen geguckt, also wenn man es 'n bisschen benutzt?
Philipp: Ja, günstig ist sone Sache, ne. Man hat halt bei O1 immer diese Voorge Tokens, also die man auch in den Chat GPT ja nicht sieht. Mhm. Und für die musst Du trotzdem bezahlen. Das heißt, wenn Du jetzt nutzt und halt irgendwie eine, ich weiß nicht, Du möchtest irgendwas analysieren, einen Report generieren, Dann zahlst Du die Input Tokens, zahlst die Fault Tokens, die Du nicht siehst und Du zahlst die Output Tokens und die aktuell sind sie bei fünfzehn Dollar pro eine Million Input Token und sechzig sechzig Dollar pro eine Million Output Tokens. Das heißt, in in den Output Tokens sind die Thought Tokens enthalten. Das heißt, wenn man irgendwas Komplexeres macht und erst mal irgendwie zweitausend Thought Tokens hat und dann noch mal eintausend Output Tokens, dann würde man für dreitausend zahlen. Also es ist schon sehr teuer im Verhältnis zu VO oder anderen Modellen.
Dennis: Mhm. Okay. Gut. Zur nächsten großen Firma, die viel vom AI Hype mitgenommen hat, Nvidia. Fang Du gerne mal an mit dem Personal AI Supercomputer.
Philipp: Genau, also ich mein, Anfang Januar war ja gefühlt jeder im Urlaub bis auf Nvidia. Die waren in Las Vegas auf der CES und haben unendlich viele Ankündigungen mehr oder weniger gemacht von AI über Robotics und auch neue Hardware. Zum einen wurde das Projekt Digits vorgestellt, was ein Personal AI Supercomputer ist, den man sich zu Hause mehr oder weniger einbauen kann oder auch im Unternehmen nutzen soll. Ist sehr interessant, weil er ist super winzig, also Jensen hatte den so auf seiner Handfläche einfach getragen. Also ist nicht dieses Riesenserver Rack Ding. Und was sehr, sehr interessant darüber ist, Sie haben extra 'n neuen Chip dafür entwickelt, der son bisschen in die m-One- oder m-Series von Apple geht, wo man 'n CPU und 'n CPU mit hat. Das heißt, der CPU und der CPU nutzen beide den dasselbe Memory. Mhm.
Dennis: Und
Philipp: der Chip nennt sich. Der kommt mit 'nem zwanzig Core Cpu, das ist der von Nvidia und dann mit 'nem Blackwell CPU und hat hundertachtundzwanzig Gigabyte. Der Supercomputer an sich hat noch vier Terabyte Flash, also superschnelle SSD und läuft auf 'nem Linux Derivat speziell von Nvidia. Und ihr ist, dass sie auf diesem Projekt Digitet LLMs mit bis zu zweihundert Milliarden Parameter laufen lassen können zu Hause. Vorsicht hier allerdings ist, dass die zweihundert Milliarden Parameter in f p vier, also in 'ner in 'nem Datentyp, der schon quantisiert ist, laufen. Aber man kann sich son bisschen vorstellen, hundertachtundzwanzig Gigabyte in sind die doppelte. Also man braucht den doppelten Speicher, das heißt, ich kann ungefähr sechzig Milliarden Parameter laufen lassen. Aber in FPE, was mittlerweile 'n gängigeres Standard ist für Production Use Cases kann ich, sag ich mal, hundert Milliarden Parameter Modell laufen lassen. Das heißt, auf dem Project Digital kann ich ohne große Performanceeinbußen dann Lama drei sieben t b zum Beispiel laufen lassen zu Hause. Und man sollte ihn jetzt vorbestellen können und sie shippen ihn ab Mai und ist dreitausend Dollar, was dann doch irgendwie sehr günstig ist, wenn man das vergleicht, wenn ich irgendwie CPU in der Cloud rente, irgendwie zu hosten, dann bin ich oftmals über den dreitausend Dollar schon im Monat. Deswegen definitiv interessant, wo wo's denen hier geht und ob wir bald alle neben unserem MacBook auch son Supercomputer zu Hause haben und einfach alles AI Technische dann darüber machen.
Dennis: Was denkst Du denn, was der tatsächliche Use Case ist? Also glaubst Du, wir stellen uns wirklich die Teile dann irgendwie neben dem MacBook oder ist 'n MacBook stark genug und ist eher irgendwie mit schwachen Rechnern dann diese diese die Bio Power noch zu haben? Ich ich glaub beides.
Philipp: Ich glaub halt MacBooks werden halt auch irgendwie dasselbe, können sie ja jetzt schon irgendwie. Aber ich kann's mir halt gut vorstellen für zwei Use Cases. Der eine ist ja, ich mal, wenn man Immobilien oder neue Häuser baut, die waren werden ja auch immer smarter. Und warum nicht, dass man 'n Teil davon in fünf bis zehn Jahren sonen eigenen Server im Haus hat, Mhm. Der halt dann meine Personal AI hat. Dann ist halt das ganze Smarthome, was ich jetzt schon irgendwie bauen kann, nicht nur über eine App verfügbar, sondern auch über 'n Assistant, der einfach Teil von meinem Homesern ist. Und zum anderen seh ich's halt für Unternehmens Use Cases, also ich nicht jedes Unternehmen und nicht jeder Entwickler hat ja 'n komplettes Macbook m-for, Pro, Macs, whatever. Sondern vielleicht hat man dann einfach im Unternehmen mehrere dieser Supercomputer, die vielleicht nicht Pro Angestellter sind, sondern vielleicht fürn Team und jeder dann seinen eigenen Assistant oder Agent darüber nutzen kann oder man hat einfach Pro Agent sone Art Computer da stehen. Und die die waren ja echt nicht groß. Also die kann ich ja aufn Tisch, neben den Tisch, untern Tisch stellen. Und ich glaub, dreitausend Euro an einmalige Kosten ist schon relativ unternehmensfreundlich. Wenn ich sie dann wieder absetzen kann und abschreiben kann, dann Ja. Sind das schon günstigere Kosten für das, was man vielleicht bekommt.
Dennis: Ja. Spannend. Mal sehen, wohin das geht.
Philipp: Genau, aber Project Digital waren nicht die einzigen GPUs. Auch alle Gamer sollten sich gefreut haben, weil Nvidia die neue RTX Fünfziger Serie vorgestellt hat mit vier Modellen, soweit ich weiß. Fünfzig siebzig, fünfzig siebzig t I, fünfzig achtzig und fünfzig neunzig. Und die Slide, in dem, mit der sie die Fünfzigerserie vorgestellt hat, hat zu großen Aufruhen geführt, sag ich mal, weil sie 'n starkes Claim gemacht haben, dass die neue günstige Variante, die fünfzig siebzig genauso gut wie die wie das bisherige Topmodell, die vierzig neunzig sein soll, allerdings dreimal günstiger mit 'nem Starting von fünfhundertfünfzig Dollar ungefähr, was dann aber schnell ganz leicht wieder, sag ich mal, online widerlegt würde. Also der Claim oder die Claims, die NVIDIA gemacht haben, sind schon 'n bisschen fragwürdig, weil sie vor allem bei den KI Themen verschiedene Datentypen mixen. Also sie sagen, ja, die fünfzig siebzig ist genauso gut wie die vierzig neunzig, obwohl der der die Fünfzigerserie f p vor nutzt, also 'n viel, viel kleineren Datentyp als die vierzig neunzig. Und User haben sich da 'n bisschen rangemacht und wirklich die genaue Performance vergleicht. Und zwischen der fünfzig siebzig, welche fünfhundert Dollar fünfhundertfünfzig Dollar kosten, sondern vierzig neunzig liegen doch noch Unterschiede. Also alle Kunden, die eine Nvidia ATX vierzig neunzig vierzig neunzig gekauft haben, ja, müssen sich jetzt nicht direkt Sorgen machen, weil sie hat trotzdem noch doppelt so viel Memory und auch FP-P-sechs-Flops, was fürs Training zum Beispiel meistens genutzt ist, ist sie zwei Punkt sechsmal noch schneller als die fünfzig neunzig. Und generell der der große Sprung, den VIDI ja da verkaufen möchte, ist nicht ganz so, weil sie auch bei anderen Visualisierungen, wo sie die fünfzig neunzig mit der vierzig neunzig verglichen haben, auch wieder andere Datentypen nutzen. Also für die vierzig neunzig nutzen sie f p acht, für die vierzig fünfzig neunzig dann f p vier, was eigentlich 'n komplett unfairer und unrealistischer Gleiche ist, einfach nur, zu zeigen, hey, die neue Series ist doppelt so schnell, aber das es stimmt halt eigentlich gar nicht, sondern sie ist nur wie bei allen neuen Chips, sag ich mal, die zehn, zwanzig, dreißig Prozent besser.
Dennis: Komisch auch, ne. Also ich frag mich immer, erwarten die, dass sie damit einfach durchkommen und nichts passiert oder was ist son bisschen der Take, wenn man so was eine Faszination erstellt? Ja, ich
Philipp: glaub, es kommt immer darauf an, wer die Taille der Audience ist. Weil ich mein, sie sie sind ja transparent. Also es gibt 'n, unten unter der Visualisierung, wo dann steht fünfzig neunzig in f p vier und fünfzig vierzig neunzig in f p acht. Und sie pushen ja schon stark das Wort, dass hey, wir unsere neuen G PUs sind so viel besser mit den neuen Datentypen, dass sie dieselbe Performance erreichen, was allerdings halt aktuell de facto nicht der Fall ist. Und macht sich halt besser in General News, hey, dass die neue GPU Treiber günstiger für dieselbe Leistung ist. Und es gibt ja, also man kann schon 'n bisschen links, rechts schauen dann sonst sich das 'n bisschen ausreizen, was denn, was Sie unter derselben Performance verstehen.
Dennis: Ja. Cool. Ja, was Sie noch vorgestellt haben, was sich Nvidia Cosmos nennt, ist letztendlich eine also verschiedene World Foundation Models nennen Sie es, die vor allen Dingen dafür da sind, Physical AI Entwicklung zu beschleunigen. Was weiß das? Also wir haben diese Modelle trainiert auf auf auf sehr viel Videomaterial, wo vor allen Dingen Physik irgendwie Inhalt sind. Also sie sprechen von zwanzig Millionen Stunden Video, die sie da aufgenommen haben. Und was diese Modelle können, ist eben Welten oder Videos erstellen, die sehr nah an der an der rechten Physik sind und damit dann wiederum andere Modelle zu trainieren. Also beispielsweise ein klassischer Case ist für autonome Autos. Das heißt, da können einfach Videos erzeugt werden in allen möglichen Situationen, dann eben Modelle zu trainieren, die für autonomes Fahren gut sein sollen. Auch so Sachen, dass man beispielsweise für diesen Use Case verschiedenste Kameras des Autos gleichzeitig generieren kann, dann ein Setting zu haben, wo das alles drin drin passt. Andere Dinge sind, dass man aus einem 3D einen 3D Modell, was man selbst erstellt, darauf dann ein realistisches Mapping und ein realistisches Video hat, auch das eben für Robotics et cetera einsetzen zu können. Also wirklich, ja, eine sehr, denke ich, sehr spezielle Welt nochmal von irgendwie GeneralAD, die da da jetzt eingesetzt eine sehr, denke ich, sehr spezielle Welt nochmal von irgendwie Gen AI, die da eingesetzt wird, aber ein spannender Ansatz, eben ja, Gen AI Modelle zu nutzen, damit dann wiederum andere AI besser trainieren zu können.
Philipp: Und die Modelle sind auch verfügbar. Also es gibt alle auf Huggingface und Cosmos eins hat dann verschiedene Größen, verschiedene Formen und Farben, sag ich mal. Und auch es gibt 'n paar releaste Demo Datensätze. Also wenn ihr euch irgendwie interessiert darüber, was man damit jetzt wirklich machen kann, haben sie auch 'n paar Samples mit released. Mhm.
Dennis: Wie, vielleicht noch mal allgemeinere Frage dazu. Weißt Du, wie denn, also wie das Prompting oder wie kann man die auf Huggingface nutzen?
Philipp: Also Das bedeutet das, dass sie dort verfügbar sind. Ja, genau. Also Cosos hat sehr gemein, dass sie ein Also sie wurden auf verschiedenen Videodaten trainieren und können für alles Mögliche genutzt Und sie nutzen zu können, also von meinem Bild oder meiner drei D-Art 'n Video zu generieren, hab ich verschiedene checkpoints. Und da ist es, je nachdem, was ich halt machen möchte, gibt's halt 'n 'n Modell, zum Beispiel gibt's Video to World, wo ich halt einfach 'n 'n Videoinput bereitstelle, dieser dann genutzt wird, sozusagen weiterzugehen. Oder ich hab auch als also es gibt son Beispiel, wo sie einfach 'n Textprompt haben, so ähnlich wie bei Sora, dass sie dann aus diesem Textprom 'n 'n Video generieren. Und die Basemodelle sind verfügbar, aber nicht die Also wenn, man muss, sag ich mal, jetzt noch einiges machen, damit man die nutzen kann, aber Trainingssripte haben sie auch mit released und paar Beispiele dazu. Also ich, das ist wahrscheinlich eher mir son Release, der stark in Richtung, okay, was erwartet uns zwanzig fünfundzwanzig geht, dass wir weg von reinem Text to Video zu diesen Models gehen und dann halt wahrscheinlich auch auf derselben Ebene immer besser werden. Und dann so ähnlich, wie man das letztes Jahr vielleicht hatte mit dem g p d-for o omni Modell, wo ich plötzlich anstatt nicht nur Text alles mögliche an Modalitäten bereitstellen kann, so wird es halt auch hier passieren, dass ich, wenn ich 'n kurzes Video hab mit 'nem Textprom wird 'n neues spezielles Video generiert, das ich vielleicht für etwas anderes nutzen kann. Vielleicht gerade bei dem autonomen fahren, Use Caseblade, machst Du's, wenn ich 'n Video hab, wo 'n Auto eine Kreuzung fährt und ich muss unbedingt Daten simulieren für unwahrscheinliche Use Cases, wie das zum Beispiel von rechts 'n Traktor einfährt oder vielleicht irgendwie von beiden Seiten ein Fahrradfahrer kommt. Das sind ja einfach so typische Szenarien, die jetzt in normalen Alltag nicht so vorkommen, aber die ja sehr, sehr wichtig sind. Und dann mithilfe von meinem aktuellen Datensatz plus Prompting könnt ich dann son neuen Datensatz erstellen. Und da gibt's mittlerweile oder halt bei Cosmos sagen sie halt, man kann alles machen so. Also ich kann vorn Text Image Videos mit den drei-d-Bildern wieder neue Videos erstellen.
Dennis: Mhm. Gut. Dann noch ein bisschen auf der Business Seite. News rund Redhead. Worum handelt es sich da?
Philipp: Genau, ich glaub, das ist eher son bisschen was sehr Spezifisches, aber Red Head, wahrscheinlich den meisten bekannt über Open Shift, ihre Cubanetes Distribution, sag ich jetzt einfach mal, hat null Neural Magic Acquired. Und Neural Magic ist 'n AI Start-up, welches sich vor allem auf Optimierung von Open LLMs fokussiert hat. Und ist auch 'n zum VLLM Project. Und das VLLM Project ist sozusagen eine Inference Engine, die man nutzen kann, Open Source Modelle zu hosten. Und es ist auch die größte, sag ich mal, und Solution, Modelle wie Lama oder Jamma oder andere open LLMs hosten zu können. Und die würden jetzt von Red Head aquiret, damit sie einfach weiterhin sich darauf fokussieren können, was sie bisher tun. Heißt, weiterhin zu viaLM contributen, Modelle quantisieren und andere Tools machen. Und ist 'n sehr interessante Move von Redhead, find ich zumindest, da wahrscheinlich dadurch auch die AI Features und Support in besser werden sollte. Also ich kann mir sehr gut vorstellen, dass dann wie LLM spezifische Templates in Open Shift kommen und halt einfach das Hosting und Betreiben und skalieren und Managen von in dann besser wird, was vielleicht doch dann ganz Interessantes für für Zuhörer von dem Podcast. Gibt keine Details über die Summe oder wie es genau funktioniert halt. Ich stell mir vor, dass wahrscheinlich 'n großen Aktienanteil ist, also dass wahrscheinlich IBM oder Aktien bekommen hat für Firmenwert.
Dennis: Mhm. Was vielleicht 'n bisschen, was heißt, es passt nicht so wirklich, aber zumindest geht es Investitionen im AI Space. Und zwar hat AWS auch mal wieder gezeigt, wie viel Wert da in der Zukunft noch in der AI stecken soll. Und zwar wollen sie ihre Infrastruktur in Georgia weiter ausbauen, eben AI Technology und Cloud Computing besser zu unterstützen und haben dafür die Summe von elf Milliarden Dollar bereitgestellt. Also einfach auch wieder sehr sehr viel und unsicher, ob ihr das in den AI News, obwohl hier steht Last Week, also wahrscheinlich hattet ihr das noch nicht letzte vorletzte Woche. Auch Microsoft hat noch mal gesagt, dass sie im Jahr zweitausendfünfundzwanzig achtzig Milliarden Dollar ausgeben wollen, eben Datacenter zu bauen, die speziell für AI Training und das Deployment von AI Models zur Verfügung stehen. Also von die großen Firmen weiterhin sehr hohes und großes Investment, die Infrastruktur bereitzustellen für all das, was da noch kommt.
Philipp: Ja, ich bin mal gespannt, wann wir dann die ersten Atomkraftwerke haben, weil das ja im selben Zug haben ja alle majure Cloud Provider letztes Jahr angekündigt, dass sie Atomkraftwerke bauen müssen, die ganzen Energieanforderungen von den, von ihren Datencentern halt bereitzustellen. Und bin gespannt, ob die elfteer Jahren oder achtzig Milliarden von Microsoft schon Teil davon sind oder ob das noch, sag ich mal, einfach normale Datencenter sein werden.
Dennis: Also zumindest in dem Artikel stand auch noch, dass vermutet wird, dass ungefähr neun Prozent der komplett genutzten Elektrizität in den USA bis zum Ende des Jahrzehnts auf eben AI und Data Center gehen werden. Und ja, mal gucken, wo sie den Strom sich dann produzieren. Eine eher kurze News, außer Du hast dann noch was dazu zu ergänzen, ist, dass Grok jetzt auch eine iOS App hat. Das heißt, da gibt's eine Native App zu. Ich hab sie selbst nicht benutzt, probiert, weil sie in den USA only erst mal verfügbar nur ist. Online habe ich 'n bisschen gelesen, gab's natürlich negative Stimmen, dass iOS only erst mal rausgebracht wurde und Android da noch nicht mit dabei ist. Und sonst gibt's aber eigentlich nur die Bewertungen, die man sieht online, die sind relativ also die im App Store sind, die sind sehr positiv und man hat eben Zugriff, also über eine mobile App auf das Groc zwei Modell.
Philipp: Genau. Nee, ich weiß auch nicht mehr, ich hab's nur auch gesehen. Sieht auf jeden Fall schick aus, hat eine Darkmode und vielleicht noch mal kurz, Groc ist das KI Modell von XAI, was auch über Twitter beziehungsweise X verfügbar ist. Das heißt, Du kannst auch bisher schon aufm Mobile testen, aber dann braucht man, glaub ich, x Premium oder pro oder wie auch immer die heißt. Und man kann aber auch jetzt über die App oder Crop direkt nutzen, wenn man in den USA ist oder 'n VPN hat, sag ich mal.
Dennis: Ja. Cool. Gut. So, dann kommt jetzt noch der Modelblock. Wobei beim ersten muss man erst mal überhaupt mir noch mal sagen, ob es dabei Doch da geht es ja ein neues Modell, aber es geht auch glaube ich darum, wie man irgendwie selbst ein Modell für nicht so viel Geld trainieren kann.
Philipp: Ja genau, also Sky T1 hat so ein bisschen seine Runden gedreht in der letzten Woche, weil sie einen starken Claim mit ihrem Titel oder mit ihrem Block und Modell releast haben. Also der Claim ist hier, okay, man kann sein eigenes open LLM genauso gut wie mit nur vierhundertfünfzig Dollar trainieren. Und das Interessante daran ist, also es geht wieder zurück auf, was wir in den letzten Monaten schon hatten, Datenqualität. Und sie haben einfach das Resending Modell von Quen, das QWQ genommen und einfach, sag ich mal, Chain of Ford Daten erstellt, die sie dann gelabelt haben und dann einfach genutzt haben, ihr Sky-T-One-Modell zu trainieren. Und das Interessante dabei ist wirklich, dass das Modell auf den gängigen Benchmarks wie Mav fünfhundert, iMae oder auch GPQA gleich gut oder besser wie performt und sie dafür nur siebzehntausend Datensätze gebraucht haben und neunzehn Stunden einer h hundert node, also neunzehn Stunden acht h einhundert GPS, was ungefähr vierhundertfünfzig Dollar ist. Was schon sehr, sehr interessant ist, weil OpenAI das Ganze ja am Anfang son bisschen verkauft hat mit, hey, sehr komplex, ich brauch und andere Sachen. Und ist doch interessant, dass man vielleicht wieder zum selben zurückkommt, okay, wenn diese guten Daten hab und die dann ist es vielleicht doch relativ einfach, son Modell zu replizieren, was vielleicht auch wieder 'n bisschen da dann reingeht, warum Open AI ihre von O-1 nicht mit den Nutzern teilt und warum die son bisschen versteckt sind, weil wir wahrscheinlich dann schon mehrere solche Modelle gehabt oder erhalten haben. Das ist eigentlich der das das das Ganze son bisschen.
Dennis: Mhm. Okay. Und ist darin auch schon jetzt die die Trainingsdaten dann enthalten oder ist es nur das Training selbst?
Philipp: Nur also das Training hat neunzehn Stunden auf einer a-einhundert Note bei gekostet, was umgerechnet vierhundertfünfzig Dollar sind. Und dabei wär nicht dabei die Generierung von den Trainingsdaten. Aber es ist, also es geht das reine Training, aber die Generierung von den Trainingsdaten ist halt, ich weiß nicht genau, wie viel das gekostet hat, wenn man eine API nutzt oder andere Sachen. Das Interessante halt zusätzlich ist, dass Sie sagen, Sie haben, also Sie haben Ihre Datenset released von den siebzehntausend Traces. Sie haben den Code released, oh, wie man das Modell trainieren kann. Sie haben einen gemacht oder mit released mit Insights, wie sie es trainiert haben, worauf es ankommt. Und haben die Modelwaites mit released auf Higingface unter, ich glaub, auch Patch, die zwei Punkt null Lizenz, also dass es jeder nutzen kann.
Dennis: Ja, okay, cool. Weißt Du irgendwas über, nennen sie sich Nova Sky oder wie spricht man sie aus wahrscheinlich, wo sie herkommen? Aber ja Nova Sky, was Sie bis jetzt gemacht haben. Aber bei Bali waren die schon irgendwie
Philipp: Nee, das Einzige, was ich weiß, ist, dass es von Studenten und Advisern aus von der Berkelys University ist. Also Nova Sky ist Also es ist mehr sone Universitätsorganisation aktuell.
Dennis: Cool. Cool, cool. Dann haben wir allerdings schon häufiger gehört, den Namen.
Philipp: Genau. Und ist aus auch ausm Winterschlaf zurückgekehrt und hat gestern ihr neues Codemodell vorgestellt, Code Strill. Gleich vorweg, kein Open Modell, nur verfügbar über API. Also passt in den ganzen Open AI Cloud, Antropic, Google Gemini Bereich. Und Coderal ist 'n neues Coding Modell mit 'nem zweihundertsechsundfünfzigtausend großen Kontext. Bei ihren Benchmarks, die sie verglichen haben, besser als existierende Modelle, besser als ihr altes Modell, sie vergleichen es interessanterweise mit dem Open AI drei Punkt fünf, also GPT drei Punkt fünf in der, also das ist gerade für so Code, wo ich dann der Vor- und der Nachcode hab und wie gut kann es den fehlenden Code, sag ich mal, generieren? Es ist verfügbar in Continue, was auch eine AI Extension für Vias Code ist Oder auch direkt in VS Code und Chat Brains, wo ich's dann über API im in Cursor oder in Chat Brains AI, ich weiß nicht genau, wie es dort funktioniert, nutzen kann oder auch auf ihrer Plattform, wenn man das testen möchte.
Dennis: Okay. Hast Du schon getestet?
Philipp: Nee. Also ist jetzt nicht, ist jetzt 'n besseres Modell, was sie bisher hatten, aber ist jetzt kein Benchmark oder keine interessante Metrik, wo man sich denkt, okay, ist besser als oder was man bisher hat. Und schade daran ist halt, dass es sozusagen oder es, ich frag mich halt son bisschen, ist okay, ist jetzt besser, natürlich und sehr interessant für Enterprise Use Cases, wenn man halt das irgendwie in 'nem Unternehmens environment dann doch deploylen kann in meinem eigenen oder so was. Aber so für uns als normale Entwickler, die, keine Ahnung, Cursor nutzen oder Co Pilot, wo ich dann oder oder hab, dann ist es halt so, okay, ist es nicht besser? Wieso sollte ich wechseln? Und 'n 'n guten guter Anreiz könnte oder ist für mich halt immer, okay, wenn das Modell öffentlich zugänglich ist, kann ich's fine tune auf meinen Daten? Kann ich's vielleicht irgendwie lokal ausführen, wenn ich dann bald son Nvidia Projekt Digitgets habe? Aber leider ist es kein Open Release. Und auch auf Nachfrage von der Community ist es nicht geplant, bisher das Modell zu releasen.
Dennis: Gut. Dann haben wir noch die letzten beiden Modelle, über die wir heute sprechen, die beide multimodal sind.
Philipp: Genau, das ist Das ist mein und
Dennis: erst hatte man 'n tollen Namen.
Philipp: Ja, ich glaub, dass das kein richtiger Name ist, sondern irgendwie son Project Title, also das ist VDR zwei b MultiV 1. Und die vor allem die beiden Releases sind passend son passen son bisschen, was Fabi und ich in der, sag ich mal, letzten Folge von zwanzig vierundzwanzig besprochen haben. Was passiert zwanzig fünfundzwanzig? Und ein starkes Thema war ja davon, die dass Multimodalität vermehrt Einklang findet von allen Use Cases und vor allem auch kleinere LLMs weiterhin stark gefragt sein werden. Und VDIA, sowohl auch Moonstream, was das andere der andere Release ist, passt direkt schon in diese Schiene. VDIA ist ein multimodales Multilingual Embedding Modell von Lama Index. Also Lama Index ist vielleicht einigen bekannt. Das ist eine 'n Start-up, welches vor allem Tools oder Programmier Tools baut, Agents und Ruganwendungen bauen zu können, so ähnlich wie Langchain. Und sie haben ihr erstes Embedding Modell released. Und wirklich Interessante von VDA ist, dass es multimodal ist. Das heißt, ich kann 'n Text Input reingeben und eine oder 'n Vektor erstellen. Dieser Text kann Deutsch, Englisch, Spanisch, was auch immer sein, aber ich kann auch Bilder mit rein geben. Das heißt, wenn ich zum Beispiel 'n großes PDF Datensatz hab, wo ich jetzt eine RAC Anwendung bauen möchte, welche Charts enthält oder ist vielleicht eingescannt, kann ich jetzt Video nutzen und direkt die Bilder embedden und meine Vektoren erstellen und in meinen Vektordatenbanken speichern und dann mit 'nem Text zum Beispiel 'n Quering, was dann vor allem interessant ist, da ich dann nicht diesen schwierigen Dataprocessing Step hab vorn, okay, wie kann ich meine mein meine PDF oder mein Chart in 'n Text umwandeln? Das ist dann irgendwie den Kontext behält. Das heißt, mit VDA kann ich direkt meine ganzen Daten multimodaltext, wie auch immer, im Betten in Vektordatenbank speichern und dann sozusagen das machen auf diesen multimodalen Daten. Und dann kommt vielleicht das Nächste gleich passend dazu. Moonstream ist 'n auch multimodales Vision Language Modell, was allerdings mehr optimiert ist für Data, Extraction, OCR, Textreading und. Das heißt, wenn ich dann zum Beispiel 'n Bild habe und oder eine Rechnung und möchte halt, also irgendwie 'n JSON daraus erstellen mit den einzelnen Positionen oder ich möchte den Text extrahieren für andere Aufgaben deines Mond Streams sozusagen die Möglichkeit. Und beide Modelle sind nur zwei Milliarden Parameter groß. Heißt, ich kann sie sehr, sehr einfach doch lokal oder auf 'nem kleinen Server auch ausführen.
Dennis: Okay. Spannend. Ja. Gut. Ich glaube Oh, jetzt haben wir ganz Aber gut, am bist bist Du denn wenn ich wollt eigentlich mittendrin, damit das nicht so auffällt, wollte ich Fabi dissen. Darum hat er doch gebeten. Das hoffe, die Hörer*innen sind froh, dass Fabi nicht mehr da ist, sondern ihn aus ihm unterwegs sind. Und Fabi, wenn Du das hörst, dann hast Du jetzt zwei Wochen Zeit, dich zu melden, zu beweisen, dass Du auch in deinem Serverical noch weiter treu die programmier.bar AI News hörst. Was wir aber auch noch haben aus programmier.bar Sicht, ist eine Umfrage. Das den Link findet ihr in den Shownotes. Und zwar wollen wir uns einfach 'n bisschen wissen, was gefällt euch? Was gefällt euch nicht? Wie können wir euch verbessern? Also eine große Jahresumfrage. Es gibt was zu gewinnen, wenn mindestens hundert Leute daran teilnehmen. Also tut das gerne und teilt das mit allen, die ihr wisst, die die programmier.bar hören und folgen. Und ja, wenn ihr Feedback zu dieser Folge speziell habt, dann schreibt uns gerne auch an Podcast at Programmier Punkt bar.
Philipp: Kannst Du schon verraten, was es zu gewinnen gibt, dass man son bisschen den Anreiz schafft?
Dennis: Ich weiß es gar nicht genau. Ich glaube, es es gibt es ist ein es ist wurde das letzte Mal in der Folge als ein Merch Paket der programmier.bar, aber was da alles reinkommt, das weiß ich nicht genau. Ich weiß, dass wir sehr coole Sachen haben und von daher kann's witzig jetzt spannend sein. Aber die genauen Inhalte krieg ich bis zur nächsten AI News raus.
Philipp: Das heißt, was muss ich machen, bei der Umfrage teilzunehmen?
Dennis: Du musst auf den Link klicken, die Umfrage kurz ausfüllen und fertig. Perfekt. Genau. Sehr schön. Ja, Philipp, vielen Dank, dass Du auch mit mir das gemacht hast und die AI News weiterfüßchen. Freu mich auf die nächsten Gespräche, die wir haben und an dich und unsere Hörerinnen zwei schöne Wochen. Bis ganz bald. Tschau, macht's gut.

Nvidia Digits & Cosmos // Sky-T1 // Codestral 25.01 // vdr-2b-multi-v1 // moondream

Shownotes

Speaker Info

Philipp Schmid

Verwandte Podcasts

News 16/25: Firebase Studio // Zod 4 // CVE-Ende // AI Code Interviews

News 06/25: Apples neue App // JavaScript Temporal // Web AI Acceleration Fund // Angular Dokumentation // Ross Ulbricht // Bitcoins in El Salvador

News AI 05/25: Deepseek r1 & Markt // OpenAI Tasks // OpenAI Operator / UI-TARS / browser-use // Trae // Gemini 2.0 Flash Thinking

News 04/25: 21st.dev // Evo // Apple Intelligence // Stargate // TikTok

Rückblick auf 2024

Deep Dive 168 – Low Code mit Till Schneider & Tobias Müller

News 46/24: Oasis // Arc 2.0 // M4 MacBook Pro // DORA Report

News 44/24: JavaScript Features // Flutter Fork // GitHub Universe // Internet Archive // Neue Macs

News 40/24: OpenAI Dev Day und mehr // Wordpress und Open Source // Meta Connect 2024 // Deno 2.0

News AI #30: Aleph Alpha Strategiewechsel // Virtual Try On // Claude for Enterprise