저는 바로 이전 글에서 영어 발음 공부를 하기 위해서는 GPT 플랜에 돈을 내는 게 가장 좋은 방법이라고 말했습니다.
그런데 오늘 출시된 모델이 이 말을 바꿀 수도 있겠다는 생각이 듭니다.
소개 글에 앞서 약간의 AI 지식 배경을 알려드리면, GPT와 같은 AI들을 LLM이라고 부릅니다.
지금 LLM을 개발하는 기업들은 굉장히 많은데,
- GPT를 만든 OpenAI
- Claude - Anthropic
- Gemini - Google
- Phi 시리즈 - Microsoft
등 많은 대기업들이 LLM 모델을 개발하고 있습니다.
그중에서도 Microsoft는 그들이 만든 모델을 사람들에게 무료로 공개하고 있는데,
이렇게 Microsoft에서 지속적으로 공개하고 있는 모델 시리즈가 바로 Phi 입니다.
무료로 공개된 LLM 모델은 컴퓨터나 핸드폰의 사양만 충분하다면 아무 제한없이 이용할 수 있습니다.
Phi-4-multimodal 모델 스펙
그리고, 오늘 글을 쓴 이유는 사람이 말하는 것을 직접 들을 수 있으면서
컴퓨터의 성능까지 너무 고사양을 요구하지 않는 Phi-4 멀티모달 모델이 공개되었기 때문입니다.
이번에 공개된 모델은 이러한 스펙을 가지고 있습니다.
가장 중요한 점은 이 모델이 텍스트 뿐만 아니라 사진, 음성까지 입력받을 수 있다는 겁니다.
LLM이 음성을 입력받는 단건 정말 큰 차이점인데
이전 글에서 말했듯이, 지금까지 대부분의 LLM 모델은 문장만 입력 받았으며,
그렇기에 ai랑 말하는 과정은 음성을 문장으로 변환하는 STT가 반드시 인간과 LLM 사이에 존재해야 했습니다.
하지만, LLM이 사람의 음성을 직접 들을 수 있다면 STT가 필요하지 않게 됩니다.
이러한 차이점은 Microsoft의 공식 소개문에서도 설명되고 있습니다.
공식 소개문
Phi-4-multimodal-instruct는 정말 굉장한 새로운 컴퓨터 모델입니다! 이전 모델들과는 다르게, 텍스트, 이미지, 그리고 소리를 모두 동시에 이해할 수 있어요. 예전에는 음성을 텍스트로 바꾸는 모델(STT)과, 그 텍스트나 이미지를 이해하는 또 다른 모델, 이렇게 두 개의 모델을 사용하는 "파이프라인" 방식이 필요했어요. 이런 방식은 주요 모델이 여러 명의 목소리나 배경 소음 같은 모든 정보를 얻지 못한다는 뜻이었죠.
하지만 Phi-4는 다릅니다. 모든 것을 한 번에, 함께 처리해요! 덕분에 누가 말하고 있는지, 배경에 어떤 소리가 있는지, 그림과 단어가 서로 어떻게 연관되는지 등 전체적인 맥락을 훨씬 더 잘 이해할 수 있습니다. 또한, 더 많은 어휘를 알고, 여러 언어를 이해하며, 지시를 따르는 능력도 훨씬 향상되었습니다. 앱 개발자나 텍스트, 이미지, 소리를 이해하는 강력한 모델이 필요한 모든 사람에게 아주 유용하죠. 개발자들은 여러분의 성원에 매우 감사하며, 모델을 더욱 발전시키기 위한 피드백을 환영합니다.
요약
이번에 공개 된 Phi-4 멀티모달은 인간의 음성을 직접 들을 수 있는 모델입니다.
더 놀라운 건 이 모델이 무료로 공개되었으며, 모델의 크기가 작고 요구하는 사양이 가볍기 때문에 나중에는 핸드폰에서도 돌릴 수 있게 될 지 모른다는 겁니다.
아직 성능 테스트를 해보지는 못했지만, 최대한 빨리 테스트를 해보고 글을 올리고 싶네요.
모델 사용 관련 링크
이 모델은 허깅페이스에서 다운받고 실행하실 수 있습니다.
microsoft/Phi-4-multimodal-instruct · Hugging Face
microsoft/Phi-4-multimodal-instruct · Hugging Face
Model Summary Phi-4-multimodal-instruct is a lightweight open multimodal foundation model that leverages the language, vision, and speech research and datasets used for Phi-3.5 and 4.0 models. The model processes text, image, and audio inputs, generating t
huggingface.co
개발자가 아니라면 직접 쓰기엔 조금 어려울 텐데,
저도 쓰기 쉬운 방법을 찾아보고 글 올리겠습니다.
그리고 맛보기로만 쓰고 싶다면
https://build.nvidia.com/microsoft/phi-4-multimodal-instruct
phi-4-multimodal-instruct Model by Microsoft | NVIDIA NIM
Cutting-edge open multimodal model exceling in high-quality reasoning from image and audio inputs.
build.nvidia.com
엔비디아 공식 사이트에서 데모 체험을 할 수 있습니다.
'프로젝트 > GPT로 영어 공부하기' 카테고리의 다른 글
GPT로 영어 발음 공부하기 가장 좋은 방법 (2) | 2025.02.13 |
---|