Claude 3.5 vs GPT-4o (feat. 프롬프트 엔지니어링)

GPT-4o보다 성능이 뛰어나다는 Claude 3.5 Sonnet을 직접 써보고 비교해봤습니다.

2024. 7. 9.

이 메일이 잘 안보이시나요?

# 47 위클리 딥 다이브 | 2024년 7월 10일
에디터 배니

💡 이번주 뉴스레터에는 이런 내용을 담았어요!

Claude 3.5 Sonnet 출시 소식과 함께 특징을 알아봅니다.
프롬프트 엔지니어링을 통해 원하는 답변 얻는 법을 소개합니다.
Claude 3.5와 GPT-4o 체험기를 직접 비교해봅니다.

🤖 Claude 3.5 체험기 (feat. 프롬프트 엔지니어링)

지난달 21일, Antrhopic이 Claude 3.5 Sonnet 버전을 선보였습니다. Anthropic은 OpenAI의 대항마로 불리며 과열된 LLM 시장 속에서도 살아남았습니다. 이번 Claude 3.5 Sonnet은 MATH와 MMLU를 제외한 모든 벤치마크에서 GPT-4o를 능가하는 성능을 보였다고 알려졌습니다. 그리고 국내 커뮤니티 사이트에서도 ‘한국어나 코딩은 Claude가 낫다’는 의견이 속출하고 있습니다.

그래서 비교해봤습니다. 이번 뉴스레터에서는 GPT-4o와 Claude 3.5 Sonnet에 동일한 프롬프트를 입력하고 무엇이 더욱 좋은 성능을 보이는지 정성적으로 평가해보도록 하겠습니다.

Claude 3.5 Sonnet은 무엇인가?

우선, Claude에 대해 알아보겠습니다. Claude는 Anthropic에서 개발한 대규모 언어 모델(LLM)로, 다양한 작업을 수행할 수 있는 AI 어시스턴트입니다. 이번에 출시된 Claude 3.5 Sonnet은 Claude 3.5 모델 제품군의 첫 번째 모델로, 경쟁 모델과 기존의 Claude 3 Opus를 능가하는 성능을 보여주고 있습니다. 특히 대학원 수준의 추론 능력, 학부 수준의 지식, 그리고 뛰어난 코딩 실력을 자랑하며, 뉘앙스와 유머를 이해하고 복잡한 지시를 수행하는 데 탁월한 능력을 보입니다.

Claude 3.5 Sonnet의 주요 특징 중 하나는 속도와 비용 효율성입니다. Claude 3 Opus보다 두 배 빠른 속도로 작동하면서도 중간 수준의 가격대를 유지하고 있어, 복잡한 고객 지원이나 다단계 워크플로우 조정과 같은 작업에 이상적입니다. 또한, 시각적 추론 능력이 크게 향상되어 차트와 그래프 해석, 불완전한 이미지에서의 텍스트 추출 등에서 뛰어난 성능을 보입니다. 이는 소매업, 물류, 금융 서비스 등 다양한 산업 분야에서 유용하게 활용될 수 있습니다.

Anthropic은 Claude 3.5 Sonnet과 함께 새로운 기능인 'Artifacts'를 소개했습니다. 이 기능을 통해 사용자는 Claude가 생성한 코드 스니펫, 텍스트 문서, 웹사이트 디자인 등을 별도의 창에서 확인하고 편집할 수 있습니다. 이는 Claude를 단순한 대화형 AI에서 협업 가능한 작업 환경으로 발전시키는 첫 걸음입니다. 앞으로 팀 협업 지원 기능이 추가되어, 조직 전체가 지식과 문서, 진행 중인 작업을 한 공간에서 안전하게 중앙 집중화할 수 있게 될 예정입니다. 이러한 발전은 AI와 인간의 협업 방식을 크게 변화시킬 것으로 보입니다.

Claude 3.5 Sonnet vs. GPT-4o, 누가 글을 더 잘 쓸까?

앞선 문단에서 Claude 3.5를 소개해드렸는데요, 혹시 어떻게 읽으셨나요? 위는 제가 아닌 Claude 3.5 Sonnet이 작성한 내용입니다. 생각보다 괜찮은 결과를 생성한 것 같아 (이미지를 제외하고) 그대로 실었습니다. 이렇게 실무에 직접 활용할 만큼 좋은 답변을 생성하기 위해서는 적절한 프롬프트 엔지니어링(Prompt Engineering)이 필요합니다.

프롬프트 엔지니어링에는 다양한 방법이 있지만, 몇 차례 시도 끝에 아래와 같이 간단한 프롬프트를 구성했습니다. 우선, AI 에이전트에 역할을 부여하고, 해야 할 일을 명확히 제시했습니다. 그리고 저희 뉴스레터가 지금까지 작성하던 방식에 따라 내용을 생성하기 위해 조건들을 명시하고 예시를 제공했습니다. 제시한 프롬프트는 아래와 같습니다.

📖 Claude 3.5 Sonnet과 GPT-4o에 입력한 프롬프트

너는 AI와 관련된 전문가야. 아래 내용은 LLM을 개발하는 Anthropic 사의 Claude 3.5 Sonnet 출시 소식을 다루고 있어. 아래 조건에 따라서 아래 내용 전문을 활용해 답변을 생성해줘.

Claude에 대해 설명하고, Claude 3.5 Sonnet 무엇인지 어떤 특징을 갖는지 설명할 것
전체 내용을 모두 요약하지 말고 핵심적인 내용만 소개할 것
3문단, 20문장, 700자 내로 작성할 것
내용을 단순히 요약하는 것이 아니라, 독자에게 전달하는 형태로 글을 작성할 것
예시의 말투를 활용할 것

예시) …
—-
내용 전문: ”””Today, we’re launching Claude 3.5 Sonnet—our first release in the forthcoming Claude 3.5 model family. (이하 생략) ”””

여기에 지난 뉴스레터에 대한 일부 문단 예시(🔗 링크)와 Claude 3.5 Sonnet 블로그 글(🔗 링크) 전문을 입력했습니다. 저는 실험 결과를 그대로 공유드리기 위해 단 하나의 문장도 바꾸지 않았지만 만약 실제로 활용할 일이 있다면 위와 같이 초안을 만들어두고 작업해볼 수 있겠죠. 아래는 GPT-4o가 작성한 내용은 아래 이미지에서 확인해보세요!

Claude 3.5 Sonnet에 대해 프롬프트에 따라 GPT-4o가 생성한 답변
© deep daiv.

여러분들은 어떻게 보셨나요? 프롬프트를 다양하게 구성하며 실험할 때는 GPT-4o가 더 마음에 들 때도 있었지만, 결과적으로는 Claude 3.5 Sonnet이 조금 더 조건을 잘 따른다고 느꼈습니다. 특히 GPT-4o의 경우에는 조금 장황하게 답하는 경향이 있다는 생각이 들었는데, 다른 사용자들의 반응을 보니 비단 저만 느끼는 것은 아닌 것 같네요. 실제로 위의 GPT-4o의 답변 길이는 조건(700자)를 초과해서 답변하기도 했습니다.

Claude 3.5 Sonnet의 코딩 실력은?

앞서 Claude 3.5 Sonnet의 특징 중 하나로 ‘Artifacts’를 설명드렸는데요. 이 기능을 활용하면 실시간으로 수정 사항을 확인하고 요청할 수 있습니다. 그럼 Claude 3.5의 웹 페이지 개발 실력을 체험해보도록 하겠습니다. 레퍼런스 삼고 싶은 페이지(🔗 토스 테크 블로그)를 캡처해서 입력한 뒤에 Artifacts로 검토해보도록 하겠습니다.

별다른 프롬프트 엔지니어링 없이도 벌써 오른쪽과 같은 이미지를 만들어낸 모습입니다. 여기에 몇 가지 수정사항을 요청해보도록 하겠습니다. ‘전체’, ‘개발’, ‘디자인’ 탭이 예쁘게 디자인되어 있지 않고, 이미지들이 없어 심심한 느낌이 듭니다. 이 내용들을 한 번 요청해보도록 하겠습니다.

요청 사항을 제대로 이해하고 반영한 모습입니다. 하지만 여전히 디테일한 부분들에서 아쉬움이 느껴지는데요. 본문 요약 내용에서 가독성이 떨어진다는 느낌이 듭니다. 그리고 생성한 코드를 기반으로 딥 다이브(deep daiv.) 블로그로 바꿔서 쓰기 위해 ‘toss tech’ 부분을 바꿔보겠습니다.

분명히 ‘deep daiv.’라고만 말을 했는데 알아서 본문 내용까지 바꾼 모습입니다. 그리고 전체적으로 컬러 코드를 원하는 대로 바꿔준 모습입니다. 물론, 당장 배포할 수 있는 수준은 아니지만 Claude가 생성해준 코드를 기반으로 수정해나간다면 훨씬 더 빠른 속도로 개발할 수 있을 것 같다는 생각이 드네요.

그렇다면 GPT-4o에게 동일한 요청을 넣었을 때는 어떨까요? 아래 이미지를 살펴보면, 전체적으로 내용은 깔끔하지만 캡처한 내용을 잘못 이해한 것으로 보입니다. 단편적으로 판단하기는 어렵지만 우선 Artifacts 기능을 통해 실시간 확인할 수 있는 Claude 3.5가 확실히 매력적으로 보입니다.

GPT-4o에 동일한 요청을 보낸 후 생성한 코드로 구현한 웹 페이지
©deep daiv.

이렇게 Claude 3.5을 직접 실행해보며 그 특징과 Artifacts를 소개해봤습니다. 사실 저희는 콘텐츠를 제작하면서 AI의 활용은 최대한 지양하고 있습니다. 저희만의 시각을 담아, 딥 다이브 독자 여러분들만을 위해 작성하는 것이 다른 콘텐츠와 차별화되는 지점이라고 생각해왔기 때문입니다. (지금까지 여러분들께 드렸던 글들은 모두 저희가 한 땀 한 땀 작성한 글들입니다. 🤗)

그러나 점차 성능이 개선되면서 무엇이 사람의 글이고, AI의 글인지 구분하기 어려운 수준에 이르른 것은 사실인 것 같습니다. 게다가 AI의 글을 초안으로 삼아 사람이 수정한다면 AI가 작성한 글이라고 무작정 비판하기도 어려운 상황이고요. 큰 흐름에서 AI를 삶의 영역으로 받아들이는 것은 거부할 수 없어보입니다.

SNS를 팔로우하면
최신 소식을 가장 빠르게 확인하실 수 있습니다 😆

deep daiv.

manager@deepdaiv.com

수신거부 Unsubscribe

Weekly deep daiv.를구독하고 이메일로 받아보세요

deep daiv.에서 AI 트렌드를 전달합니다.

Weekly deep daiv.

deep daiv.에서 AI 트렌드를 전달합니다.