Even with search grounding, it scored a 2.5/5 on a basic botanical benchmark. It...

WarmWash · 2026-04-02T17:10:29 1775149829

Even multimodal models are still really bad when it comes to vision. The strength is still definitely language.

nostrebored · 2026-04-03T03:43:05 1775187785

Training for tasks still works petty well, but “vision” is a super broad domain and most seem optimized for OCR and screen processing (which have verifiable outputs and relatively straightforward data generation)