Содержание
- Обновление Gemini 2.0 Flash: мультимодальный прорыв
- Новые возможности Gemma 3: открытость и мощь
- Роботы учатся: Robovox/Robox и сложные задачи
- Продуктивный совет в действии
- MASK: новое слово в ИИ-агентах
- Тестируем A-SOK: автономность на практике
- Учимся промптингу: скидки на курсы
- Google и Anthropic: скрытое влияние?
- Sesame: голос без цензуры
- Тайны Open AI: новая модель для писателей
- Open AI для разработчиков: новые горизонты
- США против Китая: ИИ-шпионаж и ограничения. + Илон Маск против Open AI: иск отклонен
- Microsoft Copilot: геймеры, ваш выход!
- AI Scientist: наука под вопросом
- Gigachat 2.0: новый претендент на трон
- Заключение
Мир никогда не будет прежним. Виной тому Google. Что за секретную модель скрывает от нас Open AI? У вайп-кодеров есть серьёзные претензии к курсору. Люди-роботы. Привет, это продсовет. Меня зовут дядя Д. Очередная неделя, снова обсудим самые интересные и важные новости, которые произошли в индустрии искусственного интеллекта, технологий нейросетей. Поддерживайте нашу работу и канал подпиской, лайком, колокольчиком, комментарием, и мы начинаем.
Обновление Gemini 2.0 Flash: мультимодальный прорыв.
Лучшее обновление от Google. Так я сообщил всем и в Telegram-канал, и сейчас сообщаю, и я искренне так считаю. Посмотрите, какая красота! Наконец-то Google разродился этим анонсом. Теперь LM стала поистине мультимодальной. И вот на что новая моделька, точнее обновлённая моделька, Gemini 2.0 Flash способна: она может самостоятельно генерировать картинки, не прибегая к помощи какой-либо другой текстуально-изобразительной нейросети.
Если вспомните, игрок как бы умеет генерировать картинки, и конечно, Chat GPT умеет это делать, но при помощи DALL-E. Игрок — при помощи там FL, или Авроры, или там своих моделей. Теперь мы можем получить вот такую красоту. Во-первых, сгенерировать картинку, во-вторых, взять любую картинку и заменить что-либо на этой картинке. Ну, например, вот таким образом поразвлечься.
Gemini 2.0 Flash стал первым, и, наверное, тут даже говорить особо нечего, нужно просто показывать, вот на что способна эта модель. По большому счёту, все фотошопы и все те графические, дизайнерские редакторы и сервисы, ну, они, мне кажется, теряют свою актуальность и надобность. Ну, либо точно потеряют её в ближайшем будущем, потому что по обычному текстовому запросу мы можем себя переодеть, далее мы можем себя добавить, и все свои самые сокровенные желания воплотить.
Можно генерировать одного персонажа (вот тот самый consistent characters, о чём так часто и много говорили, ещё в Midjourney, сворачивались, как бы делать этих consistent characters, персонажей, которые на разных картинках имеют одно лицо, один типаж, цвет волос, одежду и так далее). Но теперь моделька Google, она понимает, что это за персонаж, и может поместить его абсолютно в любую обстановку, с любого ракурса. То есть можно полноценные 3D-игры вот делать, какие-то скетчи, ну и даже, пожалуйста, раскрашивать изображение.
Ну и вот корпоративная постправда, как я это назвал. Невозможно теперь отличить истинную фотографию от ненастоящей, потому что вот здесь девушка взяла, поместила себя в Метрополитен с определённой даты, чтобы доказать, что там якобы действительно была, и сказала, что там были какие-то проблемы, не явившись на работу. В общем, можно теперь отличить сгенерированную фотографию от не сгенерированной. И спасибо Гуглу за это.
Если ещё не пользовались, я искренне рекомендую. Заходим в Google AI Studio, выбираем здесь вот Gemini 2.0 Flash Image Generation (её переназвать, чтобы было чуть понятней) и начинаем развлекаться. Ну вот, например, я тоже пробовал генерировать разные изображения. Поскольку модель училась сразу и на текстовых данных, и на картинках (возможно, на видео, но тут я, честно говоря, не уверен, не буду врать), то она способна на вот такие чудесные вещи.
Это не единственное обновление от Google. Они добавили ещё одну функцию, а именно добавление ссылок на YouTube-ролики прямо в Google AI Studio. И выглядит таким образом: вы добавляете ролик, моделька его смотрит, анализирует и выдаёт вам ответ. То есть всё проще и проще работать в Google Studio. На рассвете этой платформы, этого сервиса было очень много вопросов, всё было костыльно, но сейчас Google взялся за это направление и за многое другое, и делает хорошо.
Не для разработчиков, а для юзеров, которые пользуются Gemini, веб-приложения, сервисом, тоже есть несколько интересных обновлений. В первую очередь, это персонализация. Теперь вот такая экспериментальная функция есть в чат-боте, он как-то ориентируется на ваши поисковые запросы, так как экосистема Google, как-никак, и способен давать вам индивидуальные ответы, примерно понимая, что вы там когда-то искали. Вопросики к приватности. Персонализация опциональная, за что спасибо.
Ну и сам под капотом теперь имеет Gemini 2.0 Flash thinking, в том числе с поддержкой файлов, контекстным окном в миллион токенов (750.000 слов), и бесплатные пользователи получают доступ к JS и Deep research. То есть теперь вы можете бесплатно этим всем чудом пользоваться, это круто. Вот Deep research, хоть я видел много позитивных отзывов, поэтому надо, кстати говоря, попользоваться, да, посмотреть. В Telegram-канале в нашем расскажу, как поюзаю Deep research.
Новые возможности Gemma 3: открытость и мощь.
У нас, конечно, не магазин на диване, но и это ещё не всё. Gemma 3. Google обновляет свою модель Gemma, серию моделей в нескольких вариациях: 2 миллиарда, 4.5 и 27 миллиардов параметров, и добавляет достаточно важные критерии, функции, а именно контекстное окно 128.000 токенов. Теперь она прямо вот из коробки мультимодальная. Я так полагаю, даже в вариации 2 миллиарда параметров.
Если вы общались с какими-то крошками-ламами или крошками-дипсиками, то знаете, что они не очень в мультимодальности, на русском отвечать вообще не хотят. Если Gemma 3 отвечает на русском в вариации 2 миллиарда параметров, это, конечно, очень хорошо. Чатбот Arena Score очень достойный. В вариации 27 миллиардов обходит модель Llama v3 вариации 67.1 миллиарда параметров. И сами модели мультимодальные: обработка текста, изображений. Пожалуйста, используйте её для всех этих прелестей жизни. Если я не упомянул ранее, модели Open Source, поэтому скачали, установили, ну либо пошли в какие-то inference-провайдеры, хотя в этом смысла я, конечно, не вижу.
Роботы учатся: Robovox/Robox и сложные задачи.
И ни одним чатботом единым, кстати говоря. Я опять путаю ударение: Robovox или Robox, команда Gemini Robotics (будем это называть), представила набор ИИ-моделей, которые улучшают способность роботов выполнять разные сложные задачи, например, складывать оригами и упаковывать ланчбоксы. Вот давайте посмотрим, как это выглядит: вот свой сэндвич взяли, положили в зип-пакет и радуемся, или оригами заставили сложить.
У Google конкретно нет каких-то своих разработок в робототехнике, они используют разных роботов, в том числе Optimus, в том числе Boston Dynamics, и просто им свои модельки (именно в данном случае уже получается Vision Language Action, то есть это будет VLA Models). Видимо, как-то они её доработали, модельку Gemini 2.0, для того чтобы она стала VLA, и условно запихивают эти модельки в различных роботов и тестируют, как они справляются.
Большая очень конкуренция на этом рынке. Вот там мы недавно обсуждали с вами Helix от Figure, что у них там такая двухсистемная вот модель, на основе которой работают роботы, даже могут друг с другом взаимодействовать (но в прошлых выпусках новостей я про это рассказывал). А вот здесь и Google приходит и говорит, что мы тоже можем вот в такие разные общие, ну, генерализованные задачи. Модель на таких задачах не тренировалась, но способна понимать, разбираться, выполнять задачки.
Продуктивный совет в действии:
Могут промежуточный итог: Google на этой неделе очень сильно радует вообще всех. Давайте дружно поставим им за это класс, лайк можете под этим роликом, а я им передам. Не только Google, но и мы, продуктивный совет, на этой неделе молодцы.
MASK: новое слово в ИИ-агентах.
+ Тестируем A-SOK: автономность на практике.
Во-первых, мы выпустили ролик про MASK. Обязательно посмотрите, если не видели, кажется, что это вот прям новое веяние в ИИ, автономных агентах, автономных ИИ-агентах. Рассказали, объяснили, показали, протестировали. Но, кстати, ещё больше протестировали в эфире, который проходил в нашем Telegram-канале. И вот тут я опубликовал коротенький отчёт, что нам удалось сделать: мы использовали фреймворк A-SOK, это, точнее, опенсорсный проект, который самостоятельно настроили. Рассказал, как всё там, где на Гитхабе клонировать, взять, запустить, где взять API-ключи, и вместе со зрителями протестировали вот такой вот промпт, получив соответствующий результат. В общем, было доказано, что действительно есть потенциал у всего этого чуда, работает не идеально, есть приличное количество вопросиков, но, тем не менее, достаточно интересно, особенно если вы, как и я, являетесь ИИ-энтузиастами и за всем этим делом следите.
Учимся промптингу: скидки на курсы.
А чтобы не переставать быть ИИ-энтузиастом и постоянно подкреплять свою тягу к знаниям, да и в принципе количество знаний, которое у вас есть по теме нейросетей, то рекомендую обратить внимание на наши курсы, скидки на которые заканчиваются, ну, буквально через день, если вы смотрите этот ролик в воскресенье.
Мы собрали несколько таких тарифов, весенних пакетов, которые по скидкам сейчас можно приобрести. Самая большая скидка на тариф «Всё и навсегда» – это все наши курсы по промптингу, наши базы данных промтов, наши самые горячие мозги (это мини-курсы по промпт-программированию). В общем, всё навсегда, и со всеми последующими обновлениями. И несколько других пакетов: для творческих, для деловых, в зависимости от того, что вы хотите, чему вы хотите больше научиться – промптингу в текстовых моделях или промптингу в изобразительных нейросетях.
В нашем боте по соответствующим кнопочкам можно нажать, посмотреть подробнее, что в себя включает каждый из этих курсов, и совершить покупку. Скидки действуют до конца понедельника, поэтому успевайте прокачивать свою технологическую продуктивность, учитесь главному навыку XXI века, ну или хотя бы этого десятилетия.
Google и Anthropic: скрытое влияние?
Независимость — понятие растяжимое. Ну, или в данном случае, скорее, такое латентное или не очень. Подобное хотелось бы думать, что Anthropic и другие ИИ-лабы — достаточно независимые компании, которые никак не влияют и не реагируют на, например, интенции, и мнения, и желания больших корпораций типа Google, Amazon, Microsoft и так далее. Но вот стало на этой неделе известно, что, оказывается, Google владеет 14% Anthropic с общим финансированием 3 миллиарда долларов, и ещё 750 миллионов там по мелочи через конвертируемый долг в двадцать пятом году тоже планируется вложить. Благо, голосующих прав у Google нет, места в совете директоров нет, и как бы прямого влияния тоже нет, но всё-таки поддержка значительная, учитывая, что ещё параллельно Amazon 8 миллиардов тоже имеет в Anthropic. Гуглу тут, безусловно, жаловаться не на что, ну и нам пока что тоже, но я надеюсь, что и не надо будет.
Sesame: голос без цензуры.
В p-rd, семь Open Source, замечательная новость! Если вы пропустили, что такое Sesame, в наши предыдущие выпуски или в Telegram-канал. Моделька с невероятно реалистичным и человечным голосом и манерой общения. Аудиомодель работает абсолютно прекрасно. И теперь вот на Hugging Face она у нас висит, то есть теперь есть демка и на Hugging Face (вот сейчас как-то это чудо у меня здесь всё откроется). И можно, в принципе, озвучивать теперь при помощи Sesame различный текст, но я думаю, что можно это тоже всё как-то вкорчить в свои приложения, на Гитхабе я тоже какой-то репозиторий видел. Очень классная новость, учитывая, что модель невероятно, как я уже сказал, качественная и человечная, только на английском языке работает.
И примечательно, что вот в новости говорится: у неё нет никаких серьёзных защитных мер. Sesame просто призывает пользователей через систему чести избегать имитации голосов, фейковых новостей и вредоносных действий. Так что, рыцари, мы на вас рассчитываем.
Тайны Open AI: новая модель для писателей.
Что-то новенькое находится у Open AI в закромах, о чём они пока не стремятся сильно, и много, и долго распространяться. Альтман анонсировал новую модель на этой неделе, которая обучена творческому письму. Ну вот, как новость сообщает, его метафизика нет, наиграна глубиной, словно подросток гонится за значимостью. Можете зайти к Альтману в X, почитать на английском языке, там достаточно большой текст, который сгенерировала вот эта новая модель. Он сильно, сильно, сильно отличается от того, что мы могли бы ожидать по этому аналогичному промпту от даже GPT-4.5 или любой другой текстовой модели. Ну, правда, как бы креативно.
С другой стороны, критики, люди, сведущие в теме написания чего бы то ни было, прозы, авторы говорят, что, конечно, модель показывает умения, но лишена души. Возможно, из-за промпта, возможно, из-за чего-то ещё. И вот такие фразы, вроде «четверг, пахнущий», вызывают определённые сомнения. Имитация, не новаторство, и вообще все читатели останутся равнодушными, вот так говорят критики. Ну, если интересно, почитайте весь текст, расскажите ваше мнение в комментариях.
Open AI для разработчиков: новые горизонты.
Open AI для разработчиков вышло несколько интересных и вообще важных новостей для тех, кто работает с API. Во-первых, у Open AI представила новые endpoints с API, чтобы создавать ИИ-агентов, и добавила туда несколько инструментов новых, в том числе веб-навигация. То есть теперь те агенты, которые вы используете, можно при помощи специального инструмента отправлять их в интернет, чтобы они при помощи, чтобы они искали в интернете, потом выдавали вам ответ. Это всё делается буквально там при помощи двух-трёх строчек кода. Более того, есть как бы встроенный RAG (извлечения данных), вот это я ещё до конца не изучил, не разобрался.
И доступна модель QA, та самая, которая находится под капотом у оператора. То есть теперь у нас оператор есть в API, вы можете его использовать. Важно понимать, что этот responses API идёт в первую очередь на замену Assistance API. То есть если вы работаете через Assistance API, привыкли к тому, как это всё функционирует, то пора переходить и рассматривать, как работает responses. Вроде как будет ещё поддержка Assistance и Chat completions, но вот говорят, что в двадцать шестом году они совсем уже в Legacy закинут этот Assistance API, поэтому имейте это в виду.
И вот коротенькая такая графика о том, насколько лучше справляются модели с общими вопросами, с ответами на вопросы. Simple QA Benchmark. Chat GPT, точнее GPT-4o Search preview, GPT-4o Mini Search preview дают вот такие вот результаты в сравнении с другими модельками компании. Цены следующие: вы, поиск – это 25-30 долларов за 1.000 запросов вам обойдётся; поиск в файлах – 2,5 бакса за 1.000; и использование компьютера, вот это самое QA – 3 доллара за миллион на input, 12 долларов за миллион на output токенов.
США против Китая: ИИ-шпионаж и ограничения. + Илон Маск против Open AI: иск отклонен.
Большие дядьки против. Во-первых, Open AI предложила США запретить модели китайской лаборатории Zhipu. Кто бы мог подумать, государственно субсидируемые, контролируемые государством? И вот инициатива такая, AI Action Plus, администрация Трампа, была представлена. Не уточняется, это касается запроса вообще чего: API, SDK, то есть нельзя американским компаниям использовать API либо открытых моделей, либо и то и другое.
Учитывая, что, в общем-то, большое количество компаний, и Microsoft, и Perplexity, и Amazon уже используют эти модели, вкорчили в свои сервисы и в общем жизни радуются и платят гроши, но платят это Китаю, очевидно, нет. Zhipu сказал: «У них они локально, конечно, развёрнуты на их серверах, но как минимум они используют эти модели». И вот такая инициатива сейчас появляется.
В то же время, Дарио Амодей отмечает, что шпионы из Китая охотятся за алгоритмическими секретами американских компаний стоимостью в миллионы, точно так же призывает усиление защиты и регуляции со стороны Штатов.
Как отвечает на это Китай? Да, в общем, достаточно просто: ограничивает своих исследователей, ресечеров, которые имеют отношение к этой компании, во всём, забирая у них паспорта. Теперь сотрудникам компании запрещено свободно выезжать за границу, паспорта удерживает материнская компания, потенциальных инвесторов проверяет государство. В общем, США не хочет, чтобы Zhipu что-нибудь скоммуниздил у американских компаний, Китай не хочет, чтобы американские компании что-нибудь скоммуниздили у Zhipu. Те друг друга беспощадно ограничивают и перестраховываются. Ну а мы что? Мы продолжаем следить за этим увлекательным сериалом.
И не только этим. Очередной сериал подходит, кажется, к завершению. Вот картинки у меня тут даже не нашлось, потому что, ну, всё, завершается сериал. Суд отклонил иск Илона Маска к Open AI, который утверждал, что они вообще подлецы и хотят свою некоммерческую организацию превратить в коммерческую, что не соответствует ни политике, ни моральным принципам, ни вообще ничему не соответствует. Ну, очевидно, что иск абсолютно смешной, и очевидно, что это абсолютно надуманные Маском какие-то предъявы. Благо, суд это учёл, рассмотрел и отклонил.
Open AI отмечает, что некоммерческая организация останется, настаивает на её сохранении и укреплении, и говорит, что вообще у нас есть и будут прибыльные дочки, они были у нас годами, но структура общественной выгоды, в которой сейчас переходит Open AI, сделает Open AI, а точнее, её некоммерческую организацию, одной из самых обеспеченных, сильных, властных и замечательных.
Microsoft Copilot: геймеры, ваш выход!
А Microsoft, в свою очередь, хочет отнять хлеб, вот я искренне так считаю, у игроков. Хлеб (под хлебом я имею в виду, ну, хоть какой-то дорогой дофамин, который можно извлечь, когда вы играете в разные игры и сталкиваетесь с определёнными сложностями). Xbox представил Copilot for Gaming, ИИ-помощник для улучшения игрового опыта.
Ну, что он сможет делать? Советы в реальном времени, вроде выбора персонажа Overwatch с учётом сильных сторон команды, прошлых выборов, также подсказки для победы. Вот я считаю, что это лишнее, ну, как бы, хочется, чтобы было сложно, и хочется, чтобы страдание какое-то было в игре, потому что страдание ведёт к счастью, противоречиво, но да.
С другой стороны, Copilot будет сообщать, когда друзья онлайн, предлагает присоединиться, ну, или сам станет напарником, если друзей у вас нет. Вот так вот, знайте. Также выполняет мелочи: вот пересказ сессии, установка игр, рекомендации под ваши вкусы. Это прикольно, но не для того же мы изобретали ИИ, чтобы он вместо нас играл в игры, отметите вы. Я с вами соглашусь.
AI Scientist: наука под вопросом.
Как насчёт науки? Вот вышла такая новость, что Sakana и их AI Scientist, версия 2, создал одну из первых научных рецензируемых публикаций, которые приняли там на определённом воркшопе. Публикация была отозвана быстро авторами или соавторами, людьми, которые знали, что она создана, и Sakana, в общем, она была отозвана для прозрачности, для чистоты и честности. Но сам факт того, что её приняли, конечно, говорит уже о чём-то.
С другой стороны, критики указывают, что был человеческий отбор этих статей, которые подавались на этот контест, то есть подали, подали три статьи, две были отвергнуты, одну взяли. Но, скорее всего, Sakana там нагенерировала до хренища статей, и вот как бы самые cherry-picked и подала. И, опять же, не проходила вся эта статья какие-то там все следующие этапы этой проверки, поэтому, ну, нельзя пока утверждать, что действительно ИИ сгенерировал какое-то научное открытие или какую-то предоставил интересную, ранее невиданную гипотезу. Скорее, это вот какая-то синергия человека и этого AI Scientist. Да, тут, наверное, можно в эту сторону подумать.
Конечно, там были ошибки. Sakana об этом заявляет, что были факапы с референсами, были просто какие-то нелогичные моменты в этой статье, но, тем не менее, что-то новое, какое-то новое видение, а именно многообещающий метод обучения нейронных сетей и остающиеся эмпирические проблемы, в этой статье были показаны.
Gigachat 2.0: новый претендент на трон.
Ну и, наконец, Gigachat 2.0 явился нам. Давайте коротко пробежимся по характеристикам, тренировались, сколько тренировались, что из себя представляют, добавили агентные функции, я так понял, чуть-чуть прокачали в кодинге. Сам Gigachat приходит к нам в трёх версиях: L, Pro и Max. И вот такие вот бенчмарки. Из того, что я здесь вижу, ну, как будто бы да, сравнивают с Zhipu GLM-3. В тексте я видел сравнение с GPT-4o, но почему-то на бенчмарках я его здесь не вижу. Ну, окей, Zhipu GLM-3 примерно сопоставимая модель, и по каким-то бенчмаркам мы видим, что действительно Gigachat его преодолевает, ну, либо, либо где-то маленько отстаёт. Ну вот в кодинге, очевидно, отстаёт, следование инструкциям тоже отстаёт. Какие-то общие знания как будто бы находятся на уровне, а специфичные знания, вот биология, химия, математика, превосходит. Ну, в биологии достаточно значительно, а во всех остальных бенчмарках и доменах, ну, тоже находится на уровне.
Компания говорит, что уже всё доступно. Переходим по ссылке, выбираем playground Gigachat 2 Max и радуемся жизни. Не стал очень долго останавливаться на Gigachat, кому-то это интересно, кому-то это не очень интересно. Но вот из моего супер-супер короткого и быстрого обзора, ну, похоже, что да, какой-то там уровень, где-то вот GPT-4, Zhipu GLM-3 можно по бенчмаркам увидеть, но, разумеется, нужно тестить, к чему я вас и призываю.
Заключение
Если для вас интересная, полезная информация и решения, то как минимум потестируйте, сравните ответы. На этом у меня на сегодня всё. Подписывайтесь на канал, оставляйте лайки, комменты – это помогает продвижению нашего проекта, делает меня и Игоряна немножечко счастливее с каждым вашим вот этим действием в этом прекрасном цифровом мире. Увидимся в будущих выпусках. Пока!