Основной контент книги Podlodka #433 – Как оцениваются LLM
Podcast

Episode duration 1 h. 27 min.

2025 year

12+

About the podcast

Когда-то для оценки AI мы использовали только тест Тьюринга – человек общался с собеседником через чат, а потом пытался определить, кожаным или кремниевым был его собеседник. Сегодня мы видим, что оценка качества работы LLM – гораздо более сложная задача. Вместе с Пашей Чижовым из PleIAs мы закопались в то, как вообще сегодня оценивается AI, и обсудили все виды бенчмарков, арен, метрик, их врожденные недостатки, а заодно и как быть, когда по капоту вашего КАМАЗа ползет черт. Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
 Telegram-чат: https://t.me/podlodka Telegram-канал: https://t.me/podlodkanews Страница в Facebook: www.facebook.com/podlodkacast/ Twitter-аккаунт: https://twitter.com/PodcastPodlodka Ведущие в выпуске: Евгений Кателла, Егор Толстой Полезные ссылки: Бенчмарки https://huggingface.co/datasets/cais/mmlu https://huggingface.co/datasets/MMMU/MMMU https://huggingface.co/datasets/allenai/ai2_arc https://huggingface.co/datasets/Rowan/hellaswag https://huggingface.co/datasets/allenai/winogrande https://huggingface.co/datasets/Idavidrein/gpqa https://lastexam.ai/ https://www.swebench.com/ https://arcprize.org/arc-agi https://github.com/t3dotgg/SnitchBench Арена https://lmarena.ai/ Фреймворк для эвалов https://github.com/EleutherAI/lm-evaluation-harness Бумаги https://arxiv.org/abs/2504.07825 https://arxiv.org/abs/2311.12022 https://arxiv.org/abs/2406.12045 Тех репорты с таблицами https://www.anthropic.com/news/claude-4 https://ai.meta.com/blog/llama-4-multimodal-intelligence/ https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro https://openai.com/index/introducing-o3-and-o4-mini/

Last update:
15 July 2025
What is a podcast?
Audio
Средний рейтинг 4,1 на основе 1104 оценок
Audio
Средний рейтинг 4,8 на основе 140 оценок
Text, audio format available
Средний рейтинг 4,1 на основе 169 оценок
Text, audio format available
Средний рейтинг 4,8 на основе 1476 оценок
Text
Средний рейтинг 4,9 на основе 1682 оценок
Text, audio format available
Средний рейтинг 4,7 на основе 515 оценок
Text, audio format available
Средний рейтинг 4,8 на основе 1697 оценок
18+
Text
Средний рейтинг 4,9 на основе 146 оценок
Audio
Средний рейтинг 4,9 на основе 33 оценок
Text, audio format available
Средний рейтинг 4,7 на основе 433 оценок
Log in, to rate the book and leave a review
Age restriction:
12+
Release date on Litres:
15 July 2025
Writing date:
15 July 2025
Duration:
1 h. 27 min. 44 sec.
Copyright Holders:
Автор, Егор Толстой, Стас Цыганов, Екатерина Петрова и Евгений Кателла
Download format:
1x