人間評価によるLLMランキング、chat.lmsys.org


LLMのモデル名が伏せられた状態で人間が投票を行い、そのデータを元に作成されたLLMランキング。

LMSYS Chatbot Arena Leaderboard
https://chat.lmsys.org/?leaderboard

現在(2024.04.23)だと GPT-4-Turbo や Claude-3-Opus はもちろん、OSS の Llama-3-70b や Comannd-R+ などが頑張っている様子がわかる。


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です