Инновационные бенчмарки для оценки навыков ИИ в генерации кода
SolidityBench от IQ стал первой рейтинговой таблицей для оценки LLM (больших языковых моделей) в генерации кода Solidity. Доступный на Hugging Face, он представляет два новаторских бенчмарка: NaïveJudge и HumanEval для Solidity, разработанные для оценки и ранжирования эффективности моделей ИИ в генерировании кода смарт-контрактов.
Созданный BrainDAO (подразделением IQ) в рамках предстоящего набора инструментов IQ Code, SolidityBench служит для улучшения собственных LLM EVMind и сравнения их с моделями общего назначения и созданными сообществом.
Наивная оценка и оценка человеком
NaïveJudge предлагает новый подход, поручая LLM реализовывать смарт-контракты на основе подробных спецификаций, полученных из аудированных контрактов OpenZeppelin. Эти контракты являются золотым стандартом корректности и эффективности. Сгенерированный код оценивается на соответствие опорной реализации, используя такие критерии, как функциональная полнота, приверженность наилучшим практикам Solidity и стандартам безопасности, а также эффективность оптимизации.
Процесс оценки использует передовые LLM, включая различные версии GPT-4 OpenAI и Claude 3.5 Sonnet в качестве беспристрастных рецензентов кода. Они оценивают код на основе строгих критериев, включая реализацию всех основных функций, обработку пограничных случаев, управление ошибками, правильное использование синтаксиса, а также общую структуру и обслуживаемость кода. Также оцениваются факторы оптимизации, такие как экономия газа и управление хранилищем. Оценки варьируются от 0 до 100, обеспечивая комплексную оценку функциональности, безопасности и эффективности, отражающую сложность профессиональной разработки смарт-контрактов.
Результаты бенчмаркинга
Результаты бенчмаркинга показали, что модель GPT-4o от OpenAI достигла самого высокого общего балла – 80,05, с результатом NaïveJudge – 72,18 и показателями сдачи HumanEval for Solidity – 80% при сдаче@1 и 92% при сдаче@3. Интересно, что более новые модели рассуждения, такие как o1-preview и o1-mini от OpenAI, заняли второе место, набрав 77,61 и 75,08 баллов соответственно. Модели от Anthropic и XAI, включая Claude 3.5 Sonnet и grok-2, продемонстрировали конкурентоспособную производительность с общими баллами около 74. Llama-3.1-Nemotron-70B от Nvidia получил самый низкий балл в десятке лучших – 52,54.
Баллы SolidityBench для LLM (Hugging Face)
Модель | Общий балл | NaïveJudge | HumanEval для Solidity (Pass@1) | HumanEval для Solidity (Pass@3) |
---|---|---|---|---|
OpenAI GPT-4o | 80,05 | 72,18 | 80% | 92% |
OpenAI o1-preview | 77,61 | – | – | – |
OpenAI o1-mini | 75,08 | – | – | – |
Anthropic Claude 3.5 Sonnet | 74,44 | – | – | – |
XAI grok-2 | 73,97 | – | – | – |
Nvidia Llama-3.1-Nemotron-70B | 52,54 | – | – | – |
Цели использования моделей ИИ в разработке смарт-контрактов
Вводя эти бенчмарки, SolidityBench стремится продвигать разработку смарт-контрактов с помощью ИИ. Он поощряет создание более сложных и надежных моделей ИИ, предоставляя разработчикам и исследователям ценные сведения о текущих возможностях и ограничениях ИИ в разработке Solidity. Набор инструментов для бенчмаркинга направлен на развитие LLM EVMind компании IQ Code, а также на установление новых стандартов для разработки смарт-контрактов с помощью ИИ во всей экосистеме блокчейнов.
Инициатива направлена на удовлетворение критических потребностей отрасли, где спрос на безопасные и эффективные смарт-контракты продолжает расти. Разработчики, исследователи и энтузиасты ИИ приглашаются исследовать и вносить свой вклад в SolidityBench, который направлен на постоянное совершенствование моделей ИИ, продвижение передовой практики и развитие децентрализованных приложений.
Посетите таблицу лидеров SolidityBench на Hugging Face
Права принадлежат BITboosters.ru
Пульс Новости 8 из 10
- Значимость новости: 8/10. Новость касается важного аспекта криптовалютного рынка – разработки смарт-контрактов на языке Solidity. Она дает представление о текущем состоянии ИИ-моделей в этой области.
- Инновационная ценность новости: 9/10. Создание SolidityBench представляет собой инновационный подход к оценке возможностей ИИ-моделей в генерации кода смарт-контрактов. Он использует два новых эталона, обеспечивающих более точную оценку.
- Потенциальное влияние новости на рынок: 9/10. Результаты бенчмаркинга могут повлиять на выбор разработчиками ИИ-моделей для разработки смарт-контрактов. Это может привести к повышению качества и безопасности смарт-контрактов, что будет положительно отражаться на всей отрасли.
- Релевантность новости: 10/10. Новость напрямую связана с криптовалютным рынком и разработкой смарт-контрактов, представляя собой крайне актуальную тему.
- Актуальность новости: 9/10. Новость основана на недавно опубликованной информации (21 октября 2024 г.) и не является устаревшей.
- Достоверность новости: 8/10. Новость опубликована на авторитетном сайте CryptoSlate, известном своим надежным освещением новостей о криптовалютах. Кроме того, результаты бенчмаркинга подтверждаются данными с Hugging Face.
- Общий тон новости: 7/10. Новость написана в нейтральном и объективном тоне, предоставляя фактические данные о результатах бенчмаркинга без каких-либо предвзятостей или гипербол.