Machine & Deep Learning
-
[yongggg's] A Survey on Audio Diffusion Models: Text To Speech Synthesis andEnhancement in Generative AI 요약(2)Machine & Deep Learning 2025. 4. 28. 15:11
이전 장의 A Survey on Audio Diffusion Models: Text To Speech Synthesis andEnhancement in Generative AI 요약(1)에서는 소리의 기초 지식과 소리에서의 Diffusion model의 배경인 DDPM 모델을 자세하게 다루었고, Acoustic model이 어떻게 발전되어 왔는지, 어떤 역할을 하는지를 살펴보았습니다.https://yongggg.tistory.com/100 [yongggg's] A Survey on Audio Diffusion Models: Text To Speech Synthesis andEnhancement in Generative AI 요약(1)안녕하세요 요즘 TTS 연구에 필수로 들어간다고해도 과언이 아닌 Diff..
-
[yongggg's] A Survey on Audio Diffusion Models: Text To Speech Synthesis andEnhancement in Generative AI 요약(1)Machine & Deep Learning 2025. 4. 22. 10:43
안녕하세요 요즘 TTS 연구에 필수로 들어간다고해도 과언이 아닌 Diffusion model의 survey 논문을 소개 해드리겠습니다. Diffusion model은 vision model에서 연구가 먼저 되었지만, 음성 합성 분야에 많이 쓰이는 model입니다.다른 Survey이의 Diffusion model은 vison 쪽에 focus 되어 있지만 이 논문에는 Audio 쪽에 focus가 되어 있어서 audio 쪽 diffusion model에 관심이 있으신 분은 한 번 읽어보시면 좋을 것 같습니다! 그럼 요약 시작하겠습니다!AbstractText-to-Speech 변환 과제에서는 모델이 적용되는 단계에 따라 세 가지 범주로 나뉜다.acoustic model (음향 모델)vocoderend-to-en..
-
[yongggg's] Mixture of Experts (MoE) LLMSMachine & Deep Learning 2025. 4. 16. 15:43
MoE는 효율성과 성능을 동시에 향상시키기 위해 사용되는 신경망이며, 모델 architecture에 희소성을 도입하여 모델 크기를 크게 증가시키면서도 컴퓨팅 비용을 증가시키지 않는다는 장점을 갖고 있습니다. 이 내용을 공부하면서 간단한 아이디어이지만, 그 아이디어에서 나오는 문제까지 집요하게 해결할 수 있는 눈을 길러야 겠다는 생각을 했습니다. 지금부터 설명을 시작하겠습니다.1. MoE를 공부하기 위한 기본 지식1-1. LLMMoE 기반 LLM은 Decoder 전용 transformer architecture를 기반으로 한다. 이 Decoder 전용 LLM의 한 Block에서는 Normalization(LayerNorm, RMSLayerNorm 등), Masked multi-headed self-atte..
-
[yongggg's] Speech To Text (STT; whisper로 갖고 놀기)Machine & Deep Learning 2025. 3. 12. 13:24
안녕하세요, 이번 장에는 음성을 텍스트로 바꿔주는 기술에 대해 이야기해보려고 합니다.STT opensource 모델인 구글의 whisper로 이를 구현해보았는데,mac M1 칩(16GB memory)에서도 돌아가니 관심이 있으시다면, 한 번 시도해보셔도 좋을 것 같습니다! 이제 설명 시작하겠습니다!1. STTSTT는 'Speech-to-Text'의 줄임말으로 쉽게 말하자면, 사람이 말하는 소리를 듣고 그걸 텍스트로 변환해주는 기술이다.예를 들어, 너가 "안녕"이라고 말하면 그걸 "안녕"이라는 글자로 바꿔주는 것이다. 이 기술은 스마트폰 음성 비서, 회의 기록, 자막 생성 같은 데서 유용하게 쓰이며, AI가 발전하면서 정확도 또한 높아져 실생활에서 점점 더 자주 사용되는 추세이다.2. Whisper Moe..
-
[yongggg's] AI Model Tools Comparison (SGLang, Ollama, VLLM, LLaMA.cpp)Machine & Deep Learning 2025. 1. 6. 11:20
현재 LLM 기술 흐름은 지능형 고객 서비스 및 콘텐츠 생성부터 연구 지원 및 코드 생성에 이르기까지 다양한 분야에서 개발을 이끄는 핵심 원동력이 되었습니다. 시장에 수많은 AI 모델 도구가 넘쳐나면서 가장 적합한 도구를 선택하는 것은 많은 개발자, 연구자 및 애호가에게 어려운 일이 되었습니다. 오늘은 SGLang, Ollama, VLLM 및 LLaMA.cpp와 같은 몇 가지 인기 있는 AI 모델 도구를 심층 분석하여 고유한 기능과 이상적인 사용 사례를 살펴보겠습니다.SGLang: The Rising Star with Outstanding PerformanceBerkeley team에서 개발한 open-source inference engine인 sglang은 다음과 같은 핵심 기술을 가진다.Zero-o..
-
[yongggg's] CLIP: Learning Transferable Visual Models From Natural Language Supervision paper reviewMachine & Deep Learning 2024. 11. 5. 10:06
요새 멀티모달의 연구가 활발히 진행되고 있습니다. 저도 이 분야에 관심이 생겨서 제일 기초가 되는 중요한 논문을 하나 리뷰하고자 합니다. 이 논문이 나오기 전, 컴퓨터 비전 SoTA 모델은 특정 카테고리 내에서 이미지-라벨 처럼 고정된 형태(ex; 특정 카테고리 내의 데이터, 간단한 짧은 텍스트 및 레이블이 붙은 데이터)의 데이터를 학습했습니다. 이 방법은 모델의 generality와 다른 task에서 사용 가능성이 줄어듭니다. 하지만 이미지와 이 이미지를 설명하는 조금 더 상세한 텍스트(raw text)를 라벨로 사용한다면 위의 문제를 해결할 수 있을 것입니다.어떻게 CLIP을 구현했는지 자세하게 알아봅시다!Introduction자연어처리 분야에서 raw text를 이용해 pre-training 하..
-
Retrieval as Attention: End-to-end Learning of Retrieval and Reading within a single TransformerMachine & Deep Learning 2024. 11. 1. 09:31
Open-domain QA 시스템은 일반적으로 두 단계로 구성됩니다. 대규모 Corpus에서 관련 문서를 효율적으로 검색한 뒤, 선택된 문서를 자세히 읽어 답변을 생성합니다. Retrieval와 Reader는 보통 각각 모델링 되어 번거로운 구현과 End-to-end Training이 불편한 문제점이 있었다. 이 연구에서는 위 문제를 해결하기 위해, 이러한 설계를 재검토하고 별도의 아키텍처와 훈련을 피하여 Retrieval as Attention (ReAtt)라는 single Transformer를 도입하여, QA 작업의 최종 supervision 기반한 end-to-end training을 수행합니다.End-to-end의 single 모델이 경쟁력 있는 검색 및 QA 성능을 달성할 수 있음을 처음으로..
-
[yongggg's] KTO: Model Alignment as Prospect Theoretic Optimization reviewMachine & Deep Learning 2024. 10. 2. 13:41
안녕하세요 이번 장에서는 RLHF의 목적을 조금더 쉽게 이루기 위한 또 다른 알고리즘인 KTO에 대해 설명드리겠습니다.KTO 연구는 Kahneman & Tversky’s prospect theory을 바탕으로 하며, KTO는 DPO와 유사하게 LLMs을 human feedback에 맞춰 조정하는 최정화 방법입니다. 이전 연구들은 현재의 선호도 기반의 Loss를 줄임으로써 기존의 Cross entropy 최소화 방법보다 효과적이었지만, KTO에서는 그런 선호도 기반의 방식 대신 인간의 효용을 직접적으로 최대화하는 방법을 사용하여 성능을 향상시킵니다.KTO는 입력에 대한 출력이 바람직한지의 여부를 이진 신호로만 학습하여, DPO 등 기존 방법과 동일한 데이터를 사용하면서, 더 나은 성능을 보여준다고 합니다...