My first instinct was creativity. I had models generate poems, short stories, metaphors, the kind of rich, open-ended output that feels like it should reveal deep differences in cognitive ability. I used an LLM-as-judge to score the outputs, but the results were pretty bad. I managed to fix LLM-as-Judge with some engineering, and the scoring system turned out to be useful later for other things, so here it is:
Ранее Пушков выразил мнение, что Франция и Германия хотят сблизиться с США, присоединившись к коалиции против Ирана. По его мнению, это может привести к повторению войны в Ливии. При этом политик подчеркнул, что конфликт вокруг Ирана далек от третьей мировой войны и призвал «сохранять трезвость в оценках».
Александра Качан (Редактор),这一点在WhatsApp Web 網頁版登入中也有详细论述
Тысячи человек привезут в Россию из ОАЭ и Омана19:40,详情可参考手游
В декабре президент России Владимир Путин подписал закон, закрепляющий наличие крестов на гербе РФ. «Малые короны, большая корона и держава увенчаны прямыми равноконечными четырехконечными крестами с расширяющимися концами», — говорится в документе.,推荐阅读whatsapp获取更多信息
Lindsay, her husband Paul and children witnessed a drone being intercepted above their hotel on Saturday which she said was "terrifying".