Eine neue Studie über ein Zellmodell mit 27 Milliarden Parametern handelt nicht nur von Biologie. Es geht um Datenengineering und einen Bauplan für die Zukunft der angewandten KI. Das Team entwickelte ein Modell mit 27 Milliarden Parametern, das eine wissenschaftliche Entdeckung machte.Eine neue Studie über ein Zellmodell mit 27 Milliarden Parametern handelt nicht nur von Biologie. Es geht um Datenengineering und einen Bauplan für die Zukunft der angewandten KI. Das Team entwickelte ein Modell mit 27 Milliarden Parametern, das eine wissenschaftliche Entdeckung machte.

Google & Yale haben Biologie in eine Sprache verwandelt: Hier ist, warum das ein Game-Changer für Entwickler ist

2025/11/22 23:00

Eine neue Studie über ein Zellmodell mit 27 Milliarden Parametern handelt nicht nur von Biologie. Es ist Datenengineering und ein Bauplan für die Zukunft der angewandten KI.

\ Wenn Sie ein KI-Ingenieur sind, sollten Sie sofort aufhören, was Sie gerade tun, und den neuen C2S-Scale Preprint lesen, der aus einer Zusammenarbeit zwischen Yale und Google entstanden ist.

\ Oberflächlich betrachtet wirkt es wie eine Nischen-Bioinformatik-Studie. In Wirklichkeit ist es eines der wichtigsten architektonischen Manifeste für angewandte KI, die ich seit Jahren gesehen habe. Das Team entwickelte ein Modell mit 27 Milliarden Parametern, das nicht nur biologische Daten analysierte – es machte eine neuartige, im Labor validierte wissenschaftliche Entdeckung über eine potenzielle Krebstherapie.

\ Als Entwickler interessiere ich mich weniger für das spezifische Medikament, das sie gefunden haben, und bin mehr davon fasziniert, wie sie es gefunden haben. Ihre Methodik ist ein Leitfaden, den jeder KI-Architekt und -Ingenieur verstehen muss.

Das Kernproblem: KI-Modelle hassen Tabellenkalkulationen

Die zentrale Herausforderung bei der Anwendung von LLMs auf wissenschaftliche oder Unternehmensdaten besteht darin, dass diese Modelle auf Sprache trainiert werden, aber unsere Daten in Tabellenkalkulationen, Datenbanken und massiven, hochdimensionalen Arrays existieren. Zu versuchen, ein LLM dazu zu bringen, eine rohe scRNA-seq Genexpressionsmatrix zu verstehen, ist ein Albtraum.

\ Jahrelang bestand der Standardansatz darin, maßgeschneiderte, kundenspezifische Architekturen für die Wissenschaft zu entwickeln - KIs, die versuchen, einige natürliche Sprachfähigkeiten an ein Modell anzufügen, das für numerische Daten konzipiert wurde. Das ist langsam, teuer, und man verpasst die massiven Skalierungsgesetze und schnellen Innovationen des Mainstream-LLM-Ökosystems.

\ Die brillante Erkenntnis des C2S-Scale-Teams bestand darin, das Problem auf den Kopf zu stellen.

Der architektonische Geniestreich: Cell2Sentence

Das Geniale am Cell2Sentence (C2S) Framework ist seine fast absurde Einfachheit. Sie nehmen das komplexe, numerische Genexpressionsprofil einer einzelnen Zelle und transformieren es in eine einfache Textzeichenfolge.

\ Wie? Sie ordnen jedes Gen in der Zelle nach seinem Expressionsniveau und schreiben dann einfach die Namen der Top-K-Gene der Reihe nach auf.

\ Ein komplexer biologischer Zustand einer Zelle, wie: \n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}

\ Wird zu einem einfachen, menschenlesbaren Zellsatz: \n GeneB GeneC GeneA …

\ Dies ist ein tiefgreifender Akt des Datenengineerings. Mit diesem einen Schritt haben sie:

  1. Die Notwendigkeit für kundenspezifische Architekturen eliminiert: Sie können diese biologische Sprache jetzt direkt in eine standardmäßige, fertige Transformer-Architektur wie Gemma oder Llama einspeisen. Sie profitieren kostenlos von der gesamten LLM-Forschungsgemeinschaft.
  2. Multimodalität freigeschaltet: Ihr Trainingskorpus bestand nicht nur aus Zellsätzen. Sie konnten jetzt die tatsächlichen Abstracts der wissenschaftlichen Arbeiten, aus denen die Daten stammten, einbeziehen. Das Modell lernte, die Sprache der Zelle mit der Sprache des Wissenschaftlers in einem einzigen, einheitlichen Trainingsdurchlauf zu korrelieren.
  3. Echtes Vibe-Coding für die Biologie ermöglicht: Das endgültige Modell klassifiziert nicht nur Dinge. Es kann einen Prompt wie Generiere eine pankreatische CD8+ T-Zelle nehmen und wird einen neuen, synthetischen Zellsatz generieren, der die Genexpression einer Zelle darstellt, die nie existiert hat.

Der Ertrag: Industrialisierung wissenschaftlicher Entdeckungen

Diese brillante Architektur ermöglichte die Killer-App des Papers. Das Team führte ein virtuelles Screening durch, um ein Medikament zu finden, das die Sichtbarkeit einer Krebszelle für das Immunsystem erhöhen könnte.

\ Dies war keine einfache Datenbankabfrage. Es war ein in-silico Experiment. Das Modell sagte voraus, dass ein bestimmtes Medikament, Silmitasertib, diesen Effekt haben würde, aber nur im spezifischen Kontext der Interferon-Signalübertragung.

\ Sie nahmen diese neuartige, KI-generierte Hypothese mit in ein echtes Labor, führten die physischen Experimente durch und bewiesen, dass sie korrekt war.

\ Dies ist das neue Paradigma. Die KI fand nicht nur eine Antwort in ihren Trainingsdaten. Sie synthetisierte ihr Verständnis sowohl der biologischen als auch der menschlichen Sprache, um ein neues, nicht offensichtliches und letztendlich wahres Stück Wissen zu generieren. Es ist ein System zur Industrialisierung von Serendipität.

Was das für Entwickler bedeutet

Das C2S-Scale-Paper ist ein Leitfaden dafür, wie man wirkungsvolle KI-Systeme in jedem komplexen, nicht-textuellen Bereich aufbaut, von Finanzen über Logistik bis hin zur Fertigung.

  1. Hören Sie auf, das Modell zu biegen. Beginnen Sie, Ihre Daten zu übersetzen. Die wichtigste Arbeit besteht nicht mehr darin, ein maßgeschneidertes neuronales Netzwerk zu entwerfen. Es liegt in der kreativen, strategischen Arbeit, eine Daten-zu-Satz-Darstellung für Ihren spezifischen Bereich zu finden. Was ist die Sprache Ihrer Lieferkette? Was ist die Grammatik Ihrer Finanzdaten?
  2. Multimodalität ist eine Anforderung, kein Feature. Die wahre Kraft wurde freigesetzt, als sie die Zellsätze mit den Paper-Abstracts kombinierten. Ihre KI-Systeme sollten nicht nur auf Ihren strukturierten Daten trainiert werden, sondern auch auf dem unstrukturierten menschlichen Wissen, das sie umgibt – den Wartungsprotokollen, den Support-Tickets, den Strategiememos.
  3. Das Ziel ist ein Hypothesengenerator, keine Antwortmaschine. Die wertvollsten KI-Systeme der Zukunft werden nicht diejenigen sein, die beantworten können, was bereits bekannt ist. Es werden diejenigen sein, die, wie C2S-Scale, neuartige, testbare Hypothesen generieren können, die die Grenzen des Möglichen erweitern.

Lassen Sie uns bauen: Ein Daten-zu-Satz-Beispiel

Das klingt alles abstrakt, also machen wir es konkret. Hier ist ein super-vereinfachtes Python-Beispiel des "Daten-zu-Satz"-Konzepts, angewendet auf einen anderen Bereich: Serverlog-Analyse.

\ Stellen Sie sich vor, Sie haben strukturierte Logdaten. Anstatt sie einer KI als rohes JSON zu füttern, können wir sie in einen "Log-Satz" übersetzen.

import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously.

Dieses einfache Skript demonstriert das grundlegende architektonische Muster. Die Daten-zu-Satz-Transformation ist der Schlüssel. Sie ermöglicht es uns, beliebige strukturierte Daten zu nehmen und sie in der nativen Sprache der leistungsfähigsten KI-Modelle darzustellen, wodurch eine neue Welt des multimodalen Denkens erschlossen wird.

Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an [email protected] um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.