Новая статья о 27-миллиардной параметрической клеточной модели — это не только о биологии. Это инженерия данных и план будущего применения ИИ. Команда создала модель с 27 млрд параметров, которая совершила научное открытие.Новая статья о 27-миллиардной параметрической клеточной модели — это не только о биологии. Это инженерия данных и план будущего применения ИИ. Команда создала модель с 27 млрд параметров, которая совершила научное открытие.

Google и Yale превратили биологию в язык: почему это меняет правила игры для разработчиков

2025/11/22 23:00

Новая статья о клеточной модели с 27 миллиардами параметров — это не просто о биологии. Это инженерия данных и план будущего прикладного ИИ.

\ Если вы инженер ИИ, вам нужно остановиться и прочитать новый препринт C2S-Scale, созданный в результате сотрудничества между Йельским университетом и Google.

\ На первый взгляд, это выглядит как узкоспециализированная статья по биоинформатике. На самом деле, это один из самых важных архитектурных манифестов для прикладного ИИ, которые я видел за последние годы. Команда создала модель с 27 миллиардами параметров, которая не просто анализировала биологические данные — она сделала новое, подтвержденное лабораторными исследованиями научное открытие о потенциальной терапии рака.

\ Как разработчик, я меньше интересуюсь конкретным лекарством, которое они нашли, и больше одержим тем, как они его нашли. Их методология — это руководство, которое должен понять каждый архитектор и инженер ИИ.

Основная проблема: модели ИИ ненавидят электронные таблицы

Центральная проблема применения LLM к научным или корпоративным данным заключается в том, что эти модели обучены на языке, но наши данные хранятся в электронных таблицах, базах данных и массивных многомерных массивах. Попытка заставить LLM понять необработанную матрицу экспрессии генов scRNA-seq — это кошмар.

\ Годами стандартным подходом было создание специальных, индивидуальных архитектур для науки — ИИ, которые пытаются добавить некоторые возможности естественного языка к модели, разработанной для числовых данных. Это медленно, дорого, и вы теряете преимущества массивных законов масштабирования и быстрых инноваций основной экосистемы LLM.

\ Блестящее понимание команды C2S-Scale заключалось в том, чтобы перевернуть проблему с ног на голову.

Архитектурный шедевр: Cell2Sentence

Гениальность фреймворка Cell2Sentence (C2S) заключается в его почти абсурдной простоте. Они берут сложный, числовой профиль экспрессии генов отдельной клетки и преобразуют его в простую строку текста.

\ Как? Они ранжируют каждый ген в клетке по уровню его экспрессии, а затем просто выписывают имена топ-K генов по порядку.

\ Сложное биологическое состояние клетки, например: \n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}

\ Становится простым, понятным для человека предложением о клетке: \n GeneB GeneC GeneA …

\ Это глубокий акт инженерии данных. Одним этим ходом они:

  1. Устранили необходимость в специальных архитектурах: Теперь они могут подавать этот биологический язык непосредственно в стандартную, готовую архитектуру Transformer, такую как Gemma или Llama. Они могут бесплатно использовать волну всего исследовательского сообщества LLM.
  2. Разблокировали мультимодальность: Их обучающий корпус состоял не только из клеточных предложений. Теперь они могли смешивать фактические аннотации научных статей, из которых были получены данные. Модель научилась соотносить язык клетки с языком ученого в едином, унифицированном обучающем запуске.
  3. Обеспечили настоящее вайб-кодирование для биологии: Финальная модель не просто классифицирует вещи. Она может принять запрос вроде Создай поджелудочную CD8+ T-клетку, и она сгенерирует новое, синтетическое клеточное предложение, представляющее экспрессию генов клетки, которой никогда не существовало.

Результат: индустриализация научных открытий

Эта блестящая архитектура позволила создать киллер-приложение статьи. Команда провела виртуальный скрининг, чтобы найти препарат, который мог бы повысить видимость раковой клетки для иммунной системы.

\ Это был не просто запрос к базе данных. Это был эксперимент in-silico. Модель предсказала, что конкретный препарат, силмитасертиб, будет иметь этот эффект, но только в конкретном контексте интерферонового сигналинга.

\ Они взяли эту новую, сгенерированную ИИ гипотезу в реальную лабораторию, провели физические эксперименты и доказали, что она верна.

\ Это новая парадигма. ИИ не просто нашел ответ в своих обучающих данных. Он синтезировал свое понимание как биологического, так и человеческого языка, чтобы создать новый, неочевидный и в конечном итоге истинный фрагмент знания. Это система для индустриализации случайных открытий.

Что это значит для разработчиков

Статья C2S-Scale — это полевое руководство по созданию высокоэффективных систем ИИ в любой сложной, нетекстовой области, от финансов до логистики и производства.

  1. Перестаньте изгибать модель. Начните переводить свои данные. Самая важная работа больше не заключается в разработке специальной нейронной сети. Она заключается в творческой, стратегической работе по поиску представления данных в виде предложений для вашей конкретной области. Каков язык вашей цепочки поставок? Какова грамматика ваших финансовых данных?
  2. Мультимодальность — это требование, а не функция. Реальная мощь была раскрыта, когда они объединили клеточные предложения с аннотациями статей. Ваши системы ИИ должны обучаться не только на ваших структурированных данных, но и на неструктурированных человеческих знаниях, которые их окружают — журналах обслуживания, тикетах поддержки, стратегических записках.
  3. Цель — генератор гипотез, а не машина ответов. Самые ценные системы ИИ будущего будут не те, которые могут ответить на уже известное. Это будут те, которые, как C2S-Scale, могут генерировать новые, проверяемые гипотезы, расширяющие границы возможного.

Давайте построим это: пример преобразования данных в предложения

Все это звучит абстрактно, поэтому давайте сделаем это конкретным. Вот сверхупрощенный пример на Python концепции "Данные-в-Предложение", применяемой к другой области: анализу серверных логов.

\ Представьте, что у вас есть структурированные данные логов. Вместо того, чтобы подавать их в ИИ как необработанный JSON, мы можем перевести их в "предложение лога".

import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously.

Этот простой скрипт демонстрирует основной архитектурный паттерн. Преобразование данных в предложения — это ключ. Оно позволяет нам взять любые структурированные данные и представить их на родном языке самых мощных моделей ИИ, открывая новый мир мультимодальных рассуждений.

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно