I just ran Qwen3.5 35B on my iPhone at 5.6 tok/sec.
Важность: 7.5
· 4 источников
· 18.03.2026 14:23
AI ModelsLLM PerformancePerformance BenchmarksLLM ResearchResearch Releaseson-device AImodel optimizationmobile AIMoE models
Что произошло
Серия LLM Qwen3.5 (27B, 35B, 4.5B) от Alibaba Cloud получила высокую оценку сообщества за производительность и "плотность знаний". Пользователь "Alexintosh" успешно запустил Qwen3.5 35B на iPhone (5.6 токенов/сек, 4-бит, MoE). Модель ColQwen3.5-4.5B-v3 заняла #1 место в MTEB ViDoRe leaderboard, демонстрируя эффективность при меньших ресурсах.
Почему это важно
Qwen3.5 превосходит конкурентов (Minimax M2.7, Mistral small 4, Nemotron Nano) по качеству. Запуск 35B модели на iPhone — прорыв в локальном развертывании LLM на мобильных устройствах, открывающий путь для офлайн-AI. Достижения ColQwen3.5-4.5B-v3 подчеркивают возможность создания высокопроизводительных, ресурсоэффективных моделей, критичных для внедрения.
Между строк
Активное обсуждение на Reddit свидетельствует о растущем влиянии китайских LLM. Использование "SSD streaming" для MoE на мобильных устройствах указывает на инновационные решения аппаратных ограничений. Фокус на эффективности и доступности (ColQwen) говорит о стратегическом сдвиге от масштабирования к оптимизации. Отсутствие официальных анонсов при активном тестировании сообществом может указывать на стратегию "снизу вверх".
Что отслеживать дальше
Официальные анонсы и бенчмарки Qwen3.5 от Alibaba Cloud. Прогресс "Alexintosh" в запуске 379B модели на iPhone. Дальнейшие оптимизации Qwen3.5 для локального и мобильного использования. Появление Qwen3.5 в независимых сравнительных тестах.
Анализ через линзы
INVESTOR
Модели Qwen3.5 демонстрируют превосходную производительность и эффективность, включая запуск на мобильных устройствах, что открывает значительные рынки для локальных и периферийных вычислений. Это снижает операционные затраты и расширяет потенциал монетизации через лицензирование и новые бизнес-модели. Данное технологическое преимущество создает сильный конкурентный ров, способствуя быстрому внедрению и привлечению инвестиций.
Риски:
• Быстрое развитие рынка ИИ может нивелировать текущее преимущество Qwen3.5.
• Зависимость от бенчмарков не всегда отражает реальную ценность в специфических задачах.
• Сложности с масштабированием on-device решений на широкий спектр устройств и ОС.
Возможности:
• Расширение рынка за счет on-device и edge-AI приложений (мобильные, IoT).
• Привлечение значительных инвестиций благодаря доказанной эффективности и конкурентоспособности.
• Возможность установления премиальных цен на лицензии и API для корпоративных клиентов.
• Увеличение доли рынка в сегментах, требующих конфиденциальности и низкой задержки.
BUILDER
Qwen3.5 представляет собой мощную и гибкую серию моделей, предлагающую высокую плотность знаний и производительность [Doc 6561, Doc 6559]. Ключевая возможность — эффективное развертывание на мобильных устройствах (iPhone) с использованием оптимизаций MoE и SSD-стриминга , что открывает путь для локальных ИИ-приложений. Также доступны компактные версии (ColQwen3.5-4.5B-v3) с отличной производительностью и низким потреблением ресурсов для встраиваемых систем и RAG .
Риски:
Зависимость от специфических аппаратных оптимизаций (например, Metal на iOS) для максимальной производительности на устройствах . Необходимость генерации весов для больших моделей MoE может быть ресурсоемкой . Бенчмарки не всегда отражают реальную производительность, требуется тщательное тестирование в конкретных сценариях .
Возможности:
Создание высокопроизводительных, конфиденциальных мобильных ИИ-приложений, работающих полностью на устройстве, без облачных вызовов . Разработка эффективных RAG-систем и семантического поиска с использованием компактных моделей ColQwen3.5, снижающих затраты на память и вычисления . Интеграция Qwen3.5 в корпоративные рабочие процессы для задач, требующих глубокого понимания контекста и высокой точности, благодаря превосходной обработке длинных контекстов .
OPERATOR
Qwen3.5 демонстрирует высокую плотность знаний и надежность [Doc 6561, Doc 6559], эффективно работая на мобильных устройствах и в компактных версиях . Это открывает операционные преимущества в снижении затрат, конфиденциальности и гибкости развертывания.
Риски:
{"execution_risk": "Зависимость от быстро меняющейся экосистемы Qwen может вызвать нестабильность и частые обновления, влияя на сроки разработки и ресурсы .", "process_and_workflow_implications": "Интеграция потребует пересмотра MLOps, новых инструментов или экспертизы для развертывания на устройствах или управления компактными моделями .", "compliance_and_policy_concerns": "Локальное выполнение улучшает конфиденциальность , но обеспечение этичности ИИ и отсутствие предвзятости требует постоянного аудита."}
Возможности:
{"impact_on_operations": "Локальное выполнение и эффективные компактные модели значительно сокращают облачные расходы и задержки, улучшая UX и позволяя новые продукты на периферии.", "impact_on_teams_and_hiring": "Надежность моделей может сместить фокус найма с промпт-инженеров на специалистов по оптимизации моделей для конкретного оборудования и разработке приложений.", "product_development": "Превосходная плотность знаний позволяет создавать более сложные и надежные функции ИИ, расширяя рынки или улучшая существующие предложения."}
SKEPTIC
Эти новости демонстрируют значительный хайп вокруг серии моделей Qwen3.5, подчеркивая их предполагаемое превосходство в плотности знаний, производительности на устройствах и общей «умности». Однако критический анализ выявляет, что многие заявления основаны на анекдотических данных, личных впечатлениях и неполных бенчмарках, что может скрывать коммерческие интересы и нераскрытые риски.
Риски:
• Непрозрачность и «черный ящик»: Отсутствие детального анализа того, как достигается «плотность знаний» или «умность», создает риски непредсказуемого поведения и предвзятости.
• Зависимость от поставщика: Активное продвижение одной серии моделей (Qwen от Alibaba) может привести к зависимости от конкретного вендора и его экосистемы.
• Энергопотребление и экологический след: Несмотря на заявления о работе на устройствах, не упоминается общее энергопотребление при обучении и эксплуатации больших моделей, а также потенциальное увеличение нагрузки на батарею мобильных устройств.
• Безопасность и конфиденциальность данных: При работе моделей «полностью на устройстве» (Doc 7147) не обсуждаются риски утечки или несанкционированного доступа к локально обрабатываемым данным, а также потенциальные уязвимости в оптимизированных движках.
• Потенциал злоупотреблений: Мощные локальные модели могут быть использованы для генерации вредоносного контента или дезинформации без централизованного контроля.
Возможности:
• Расширение возможностей локальных ИИ: Работа мощных моделей на мобильных устройствах (Doc 7147) открывает перспективы для офлайн-приложений, повышения конфиденциальности и снижения задержек.
• Инновации в оптимизации моделей: Достижения в уменьшении размера и повышении эффективности (например, ColQwen3.5-4.5B с меньшим количеством параметров и памяти, Doc 6586) способствуют демократизации доступа к передовым ИИ.
• Конкуренция на рынке ИИ: Появление сильных игроков, таких как Qwen, стимулирует инновации и улучшение продуктов от других разработчиков.