IA para desarrollador (Parte 1, IDE)

Heathrow Cerrado: La suspensión de vuelos debe continuar durante los próximos días, según el gerente del aeropuerto de Londres.

[detalles=Del sitio web de la BBC]

British Airways estimó que el 85% de sus vuelos programados se realizarían el sábado, pero todos los despegues fueron retrasados. A las 7:00 a.m. GMT, la mayoría de los despegues habían procedido según lo esperado, pero de los llegados, nueve de los primeros veinte vuelos programados para aterrizar fueron cancelados.

[/detalles]
Heathrow Cerrado: La suspensión de vuelos debe continuar en los próximos días, afirma el gerente del aeropuerto de Londres

[detalles=Del sitio web de la BBC]

Una empresa británica estima que el 85% de sus vuelos programados operarán el sábado, pero nueve de las primeras 20 llegadas previstas para aterrizar fueron canceladas.

[/details]

Результаты тестов

Ревью кода 102 строк скрипта Python. У некоторых моделей была вторая попытка запуска, чтобы исключить время загрузки модели в память и прогрев. В колонке Recom приведено количество рекомендаций от модели. Знак плюс означает подробный разбор. Code = none означает вывод без примера исправленного кода.
Время анализа в колонках 1st, 2nd, секунд.

Arch VL Model Params Quant GB Recom Code 1st 2nd
1 qwen3 deepseek-r1-0528-qwen3 8b q8_0 8.71 3 - 126
2 llama deepseek-r1-distill-llama 8b q4_0 5.28 6 - 34 s
3 qwen3 deepseek-r1-0528-qwen3 8b q4_k_m 5.03 3 none 85
4 gemma3 gemma-3 12b q6_k 9.66 10+ - 84
5 gemma3 :eye: gemma-3 4b q8_k_xl 6.84 11+ - 49
6 gemma3n gemma-3n 6.9b q8_0 7.35 2 none 20
7 gemma3 gemma-3 12b q4_k_m 7.30 10++ - 66
8 gemma3 :eye: gemma-3 4b q8_0 4.98 4 - 41
9 llama llama-3-gpt4o-ru 8b q4_k_m 4.92 8 none 25
10 llama llama 3.2 8x3b q3_k_s 8.25 6 - 24
11 llama llama 3.1 8b q6_k 6.60 8 - 25
12 llama llama 3.1 8b q8_0 8.54 8 - 35
13 phi3 phi-4 15b q4_k_m 9.05 12 - 47 34
14 phi3 phi-4-reasoning 15b q4_k_m 9.05 13 - 66 14
15 llama mistral-nemo-2407 12b q6_k 10.06 5 - 40 25
16 llama oh-dcft-v3.1-gemini-1.5-flash 8b 6_k 6.60 5 - 29 27
17 qwen3 qwen3-14b-gemini 14b q4_k_m 9.00 13+ - 127 76
18 qwen3 qwen3-8b 8b q8_0 8.71 14+ - 63 43
19 qwen2 qwen2.5-coder 14b q4_k_m 8.99 8 - 47 36
20 qwen2vl qwen2.5-vl 7b q8_0 8.10 8+4 - 41 36
21 qwen2vl spaceQwen2.5-vl 3b f16 6.18 3 - 30

Итоговый код не проверялся на работоспособность. Давалась субьективная оценка глубины анализа. Наибольший интерес представляют модели №5, 7, 14, 18 и в меньшей степени 20. С помощью этих моделей проведена суммаризация выбранной темы форума и результаты лучше всего у Phi 4. Gemma 3 и Qwen 3 тоже выглядят неплохо. У геммы к тому же есть функция распознавания картинок, а квен часто переходит на английский.

Тест проводился на RTX 5060Ti 16gb (15,5, в которые больше модели больше 9,5gb не загрузятся). Qwen часто переключается на английский, поэтому его сложно использовать в суммаризации.

Сервер: https://lmstudio.ai

Длина контекста повышалась с 4096 до 8192.

Для ревью кода и чат-бота:

Для ревью, чат-бота и суммаризации

Для чат-бота и суммаризации

Для распознавания картинок