Рейтинг ИИ-моделей для создания кода смарт-контрактов Solidity

32+ млн успешных сделок

Копитрейдинг на крипте

Компенсация убытков
100 USDT

Попробуй без риска

Get a Shocking Discount!

Get 85% OFF on all our selected products

Check it out

Инновационные бенчмарки для оценки навыков ИИ в генерации кода

SolidityBench от IQ стал первой рейтинговой таблицей для оценки LLM (больших языковых моделей) в генерации кода Solidity. Доступный на Hugging Face, он представляет два новаторских бенчмарка: NaïveJudge и HumanEval для Solidity, разработанные для оценки и ранжирования эффективности моделей ИИ в генерировании кода смарт-контрактов.

Созданный BrainDAO (подразделением IQ) в рамках предстоящего набора инструментов IQ Code, SolidityBench служит для улучшения собственных LLM EVMind и сравнения их с моделями общего назначения и созданными сообществом.

Наивная оценка и оценка человеком

NaïveJudge предлагает новый подход, поручая LLM реализовывать смарт-контракты на основе подробных спецификаций, полученных из аудированных контрактов OpenZeppelin. Эти контракты являются золотым стандартом корректности и эффективности. Сгенерированный код оценивается на соответствие опорной реализации, используя такие критерии, как функциональная полнота, приверженность наилучшим практикам Solidity и стандартам безопасности, а также эффективность оптимизации.

Процесс оценки использует передовые LLM, включая различные версии GPT-4 OpenAI и Claude 3.5 Sonnet в качестве беспристрастных рецензентов кода. Они оценивают код на основе строгих критериев, включая реализацию всех основных функций, обработку пограничных случаев, управление ошибками, правильное использование синтаксиса, а также общую структуру и обслуживаемость кода. Также оцениваются факторы оптимизации, такие как экономия газа и управление хранилищем. Оценки варьируются от 0 до 100, обеспечивая комплексную оценку функциональности, безопасности и эффективности, отражающую сложность профессиональной разработки смарт-контрактов.

Результаты бенчмаркинга

Результаты бенчмаркинга показали, что модель GPT-4o от OpenAI достигла самого высокого общего балла – 80,05, с результатом NaïveJudge – 72,18 и показателями сдачи HumanEval for Solidity – 80% при сдаче@1 и 92% при сдаче@3. Интересно, что более новые модели рассуждения, такие как o1-preview и o1-mini от OpenAI, заняли второе место, набрав 77,61 и 75,08 баллов соответственно. Модели от Anthropic и XAI, включая Claude 3.5 Sonnet и grok-2, продемонстрировали конкурентоспособную производительность с общими баллами около 74. Llama-3.1-Nemotron-70B от Nvidia получил самый низкий балл в десятке лучших – 52,54.

Баллы SolidityBench для LLM (Hugging Face)

Модель	Общий балл	NaïveJudge	HumanEval для Solidity (Pass@1)	HumanEval для Solidity (Pass@3)
OpenAI GPT-4o	80,05	72,18	80%	92%
OpenAI o1-preview	77,61	–	–	–
OpenAI o1-mini	75,08	–	–	–
Anthropic Claude 3.5 Sonnet	74,44	–	–	–
XAI grok-2	73,97	–	–	–
Nvidia Llama-3.1-Nemotron-70B	52,54	–	–	–

Цели использования моделей ИИ в разработке смарт-контрактов

Вводя эти бенчмарки, SolidityBench стремится продвигать разработку смарт-контрактов с помощью ИИ. Он поощряет создание более сложных и надежных моделей ИИ, предоставляя разработчикам и исследователям ценные сведения о текущих возможностях и ограничениях ИИ в разработке Solidity. Набор инструментов для бенчмаркинга направлен на развитие LLM EVMind компании IQ Code, а также на установление новых стандартов для разработки смарт-контрактов с помощью ИИ во всей экосистеме блокчейнов.

Инициатива направлена на удовлетворение критических потребностей отрасли, где спрос на безопасные и эффективные смарт-контракты продолжает расти. Разработчики, исследователи и энтузиасты ИИ приглашаются исследовать и вносить свой вклад в SolidityBench, который направлен на постоянное совершенствование моделей ИИ, продвижение передовой практики и развитие децентрализованных приложений.

Посетите таблицу лидеров SolidityBench на Hugging Face

Права принадлежат BITboosters.ru

Contents

Инновационные бенчмарки для оценки навыков ИИ в генерации кода Наивная оценка и оценка человеком Результаты бенчмаркинга Баллы SolidityBench для LLM (Hugging Face)Цели использования моделей ИИ в разработке смарт-контрактов Посетите таблицу лидеров SolidityBench на Hugging Face Пульс Новости 8 из 10

Оригинал новости

Пульс Новости 8 из 10

Значимость новости: 8/10. Новость касается важного аспекта криптовалютного рынка – разработки смарт-контрактов на языке Solidity. Она дает представление о текущем состоянии ИИ-моделей в этой области.
Инновационная ценность новости: 9/10. Создание SolidityBench представляет собой инновационный подход к оценке возможностей ИИ-моделей в генерации кода смарт-контрактов. Он использует два новых эталона, обеспечивающих более точную оценку.
Потенциальное влияние новости на рынок: 9/10. Результаты бенчмаркинга могут повлиять на выбор разработчиками ИИ-моделей для разработки смарт-контрактов. Это может привести к повышению качества и безопасности смарт-контрактов, что будет положительно отражаться на всей отрасли.
Релевантность новости: 10/10. Новость напрямую связана с криптовалютным рынком и разработкой смарт-контрактов, представляя собой крайне актуальную тему.
Актуальность новости: 9/10. Новость основана на недавно опубликованной информации (21 октября 2024 г.) и не является устаревшей.
Достоверность новости: 8/10. Новость опубликована на авторитетном сайте CryptoSlate, известном своим надежным освещением новостей о криптовалютах. Кроме того, результаты бенчмаркинга подтверждаются данными с Hugging Face.
Общий тон новости: 7/10. Новость написана в нейтральном и объективном тоне, предоставляя фактические данные о результатах бенчмаркинга без каких-либо предвзятостей или гипербол.

BitBoosters - Новости криптовалют

Рейтинг ИИ-моделей для создания кода смарт-контрактов Solidity – Пульс новости ‘8’

Инновационные бенчмарки для оценки навыков ИИ в генерации кода

Наивная оценка и оценка человеком

Результаты бенчмаркинга

Баллы SolidityBench для LLM (Hugging Face)

Цели использования моделей ИИ в разработке смарт-контрактов

Посетите таблицу лидеров SolidityBench на Hugging Face

Пульс Новости 8 из 10

Обход санкционных ограничений с использованием криптовалют

Новое

Добро пожаловать в TapCoins — Мобильное заработное приложение – Пульс новости ‘3.6’

Дания вводит налог на нереализованные криптоприбыли – Пульс новости ‘8.5’

Флоккерз переосмысливает индустрию мемкоинов – Пульс новости ‘6.3’

Возможности, предоставляемые смарт-контрактами – Пульс новости ‘8.3’

Доверие институтов к цифровым активам: Ledn предоставляет кредиты на $1,67 млрд. – Пульс новости ‘8.6’

Невзаимозаменяемые токены (NFT): Революция в цифровой собственности – Пульс новости ‘7,43’

Борьба за голоса на крипторынке: кандидаты раздают обещания – Пульс новости ‘8’

Незаменяемые токены (NFT): Цифровые активы для собственности – Пульс новости ‘8‘

Follow Us on Socials