SemanticScuttle - klotz.me » Tags: multimodal+llm+machine learning

Tags: multimodal* + llm* + machine learning*

0 bookmark(s) - Sort by: Date ↓ / Title /

Introducing Qwen2.5-VL: Advanced Vision-Language Model Capabilities

Qwen2.5-VL, the latest vision-language model from Qwen, showcases enhanced image recognition, agentic behavior, video comprehension, document parsing, and more. It outperforms previous models in various benchmarks and tasks, offering improved efficiency and performance.

2025-02-09 Tags: qwen2.5-vl, vision-language model, image recognition, document parsing, ocr, multimodal, llm, machine learning by klotz
Chat with Your Images Using Llama 3.2-Vision Multimodal LLMs

Learn how to build Llama 3.2-Vision locally in a chat-like mode, and explore its Multimodal skills on a Colab notebook.

2024-12-08 Tags: llama 3.2-vision, multimodal, llm, vision, machine learning by klotz

First / Previous / Next / Last / Page 1 of 0