본문 바로가기

Project

(6)
영어 한글 독음 변환기 제작 (1) STT+LM관련 실무를 하며 중간에 영어로 태깅되어 있는 데이터를 한글 독음으로 바 꿔야 될 때가 있는데 이럴때 쓰기 좋은 사이트 https://transliterator.herokuapp.com/ 출처: https://rroott.tistory.com/91 [rroott:티스토리] 를 발견하고는 활용해보다가, 데이터를 추가로 학습시켜 성능을 올려 사용하고 싶다는 생각도 생기고 구현하는게 어려울거 같지 않아서 pytorch 버전의 영어 한글 독음 변환기 제작에 착수. torch에 translator 구현하는 간단한 튜토리얼이 seq2seq로 많기도 하고 위의 처음 참조한 변환기가 seq2seq라서 encoder, decoder가 lstm인 seq2seq로 변환기를 만들기로 생각하였다. 입력에 사용한 데이..
[AI Human 5] FSGAN inference 성능 높이기 간단 팁 이거는 모델적인 튜닝은 아니고 영상 넣을 때 source로 들어가는 영상이 너무 배경이 화려(?)하면 얼굴 합성이 잘 안되길래 적용한 간단 팁. FSGAN에 애초에 face detection 부분이 있어서 사실 웬만한 걸 넣어도 알아서 얼굴 잘 디텍해서 붙여주긴 하는데 이런걸 소스 영상으로 넣었더니 얼굴을 잘 못찾았는지; 이런 식으로 완전 뒤섞여버린 합성 영상이 만들어짐 ㅠ;; 다른 영상 소스로 넣었을 때 이런 문제는 없었는데 이렇게 까지 낮은 퀄의 결과가 나오는건 소스 탓인거 같아서 어도비 프리미어를 이용하여 간단하게 소스 영상에서 얼굴 근처에 배경을 많이 날려 주고 다시 넣음. 이런식으로 소스 영상을 다시 처리해서 넣어주니 다시 이런식으로 비교적 얼굴이 잘 붙은 영상을 얻을 수 있었다. 그나저나 ou..
[AI Human 4] FSGAN 파라미터 튜닝 (구글코랩프로) FSGAN은 제일 좋은게 그냥 inference만 하면 되니까 training 따로 할 필요도 없고 한 30분이면 15초짜리 영상은 그냥 얼굴 합성을 할 수 있다는 거 ( source도 한 10~20초라고 할 때) 그런데 거지같은 코랩이 pro로 돈을 낸다고 해도 자꾸 cuda 메모리가 부족하다나 어쩐다나;;; 그러면서 뜨는 에러 문구를 보면 몇기가를 할당했는데 몇기가가 남았고 얼마나 필요해서 부족해;; 라고 하는데 그 말이 매번 바뀌고 지금 분명 GPU가 넉넉따리한데도 나 못해;;;하면서 돌다가 끊겨버림; import os from fsgan.inference.swap import FaceSwapping from fsgan.criterions.vgg_loss import VGGLoss #@markdow..
[AI Human 3] FSGAN으로 딥페이크 얼굴 영상합성 (ffmpeg 모듈 충돌 해결) 첨엔 영상합성할때 트레이닝부터 시켜야되는 faceswap으로 (https://github.com/deepfakes) 결과를 뽑아내려고 했는데 내 로컬컴은 똥컴이라서 당췌 training이 끝날 기미가 안보이고 (기본 셋팅 기준 내 놋북으로 열흘 넘게 걸림) 한 이틀 돌려본 결과 아래 사진과 같이 성능도 쒯일거 같아서 포기함...로스는 거의 0.020 이런 수준으로 트레이닝하면서 낮아진게 아래임...(이목을 집중시키려고 두 대상을 선정한거지 정치적인 의도 전혀 없음) 그래서 택한게 FSGAN. 트레이닝 다 되어있고 inference만 시키면 아무 얼굴이나 일단 붙기는 붙음. 붙는다고 했지 퀄리티가 높다곤 안했다 ㅎ(그러나 faceswap 트레이닝 시키는것보다는 나을듯) 근데 짧은 시간안에 해야되는 프로젝트..
[AI Human 2] StarGAN Voice Conversion 모델 사용하여 음성 합성하기 https://github.com/liusongxiang/StarGAN-Voice-Conversion GitHub - liusongxiang/StarGAN-Voice-Conversion: This is a pytorch implementation of the paper: StarGAN-VC: Non-parallel many-to- This is a pytorch implementation of the paper: StarGAN-VC: Non-parallel many-to-many voice conversion with star generative adversarial networks - GitHub - liusongxiang/StarGAN-Voice-Conversion: T... github.com 원본..
[AI Human 1] Python 음성데이터 (wav 파일) 길이 분포 알아보기 프로젝트를 진행하며 먼저 수집한 음성데이터의 길이 분포를 알아보기 위해 짠 코드. 길이 분포가 너무 다른 사람 간에 voice conversion을 시행하면 잘 안될 거 같기도 하고 그냥 뭐 하나라도 더 해보려고 해봄. 모듈은 soundfile 사용. librosa나 뭐 다른거 이용해도 될 거 같긴 한데 그냥 이걸로 함 import matplotlib.pyplot as plt import numpy as np import wave import soundfile as sf import os DIR = "/content/drive/MyDrive/StarGAN-Voice-Conversion-master/data/custom/wav16/" files = os.listdir(DIR) files.sort() len..