본문 바로가기

Developer/Librosa5

[Python 음성 데이터 분석] Librosa 라이브러리 사용법 지난 포스팅까지 파이썬을 활용하여 음성 데이터를 분석하는 전반적인 단계들에 대해 다뤘습니다. 중간중간 Librosa 패키지를 사용하는 방법에 대해서도 설명했습니다만, 아무래도 한 포스팅에서 모아서 요약해놓는 것이 좋을 것 같네요. Librosa 라이브러리 Python에서 음원 데이터를 분석해주는 아주 고마운 라이브러리입니다. short time fourier transform이나 mel spectrogram, mfcc 등 흔히들 사용하는 기능들을 모두 제공하고 있습니다. 기본 셋팅 pip install librosa import librosa 음원 데이터 불러오기 아래와 같이 간단하게 wav파일을 불러올 수 있습니다. y: 음원의 파형 데이터 sr: sampling rate (주파수 분석 및 파형의 시간.. 2020. 7. 28.
[Python 음성 데이터 분석] MFCC 개념 및 Librosa 사용방법 지난 포스팅까지 소리의 특징부터 주파수 분석 및 Mel Scale까지 다양하게 살펴봤습니다. 이번 포스팅에서는 특히나 음성 분석에 많이 쓰이는 Mel Frequency Cepstral Coefficient에 대해 알아보겠습니다. 혹시나 잘못된 부분이 있으면 댓글 달아주시면 감사하겠습니다. MFCC (Mel Frequency Cepstral Coefficient) mel spectrogram을 DCT(Discrete Cosine Transform) 처리하면 얻게되는 coefficient를 말합니다. 쉽게 얘기하면, mel scale로 변환한 스펙트로그램을 더 적은 값들로 압축하는 과정이라고 볼 수 있습니다. 이미지를 압축하는 과정에서도 DCT를 사용하기도 합니다. DCT (Discrete Cosine Tr.. 2020. 7. 27.
[Python 음성데이터 분석] Librosa로 Mel Spectrogram 생성 지난 포스팅까지 Librosa 라이브러리의 short time fourier frequency에 대한 이론 및 방법에 대해 알아봤습니다. 이번에는 더 나아가, 음성데이터 분석에 주로 쓰이는 mel spectrogram에 대해 다뤄보겠습니다. 공부한 내용을 바탕으로 작성하기 때문에, 혹시나 잘못된 내용이 있으면 알려주시면 감사하겠습니다. Mel-Spectrogram 인간의 귀는 컴퓨터와 달리, 주파수 간 간격이나 소리의 크기 등을 정확하게 판단하지 못합니다. 저주파대역인지, 고주파대역인지에 따라 판단하는 기준?이 달라지기 때문입니다. 예를 들어 사람이 500Hz와 1000Hz 소리는 쉽게 구분할 수 있습니다만, 10000Hz와 10500Hz는 구분하기 어렵습니다. 같은 500Hz 간격인데도 다르게 느껴지는.. 2020. 7. 24.
[Python 음성 데이터 분석] Librosa 라이브러리를 이용한 주파수 분석 이번 포스팅에서는 지난 포스팅에 이어, 실제로 파이썬을 이용해 어떻게 음성 데이터를 불러오고 가공하는지에 대해 알아보겠습니다. Librosa 라이브러리 만든이 칭찬해~~ 파이썬은 배워두면 참 쓸모가 많은 언어인 것 같습니다. 찾아보면 라이브러리가 다 있으니까요. Librosa 라이브러리는 음성 데이터를 다루는 대표적인 라이브러리입니다. 간단하게 wav파일을 불러와서 파형을 직접 가공할 수도 있고, FFT나 MFCC 등 다양한 형태로 변환하는 기능들도 제공합니다. 상세히 살펴보겠습니다. 음원 데이터 불러오기 아래와 같이 wav 파일을 불러올 수 있습니다. 123import librosaaudio_path = 'waveFile.wav'y, sr = librosa.load(audio_path)cs y: 파형의.. 2020. 7. 23.
[파이썬으로 음성데이터 분석하기] 소리와 데이터의 형태 이번에는 음성 데이터를 분석하는 방법에 대해 다뤄보겠습니다. 아직 공부중이긴 합니다만, 지금까지 진행한 내역들에 대해 초심자의 마음으로 서술하고자 합니다. 혹시 잘못된 내용이 있으면 댓글로 알려주시면 감사하겠습니다. 소리의 형태 우리가 듣는 소리는 진동의 형태라고도 볼 수 있습니다. 공기 중의 진동을 통해 파형이 전달되면서, 그 파형을 귀에서 인지해서 소리를 듣는 것입니다. 인간이 들을 수 있는 최소 압력단위인 20uPa 부터 그 위로 다양한 소리의 세기들이 결정됩니다. (http://www.physicsclassroom.com/Class/sound) 진동의 형태는 주파수와 밀접한 관련이 있습니다. 주로 중고등학교때부터 배워온 sin, cos 함수 등으로 진동이 표현된다고 볼 수 있겠습니다. 예를 들어 .. 2020. 7. 22.