반응형

새 버전이 나왔습니다. 새 버전을 사용해주시기 바랍니다.


우리나라에서 자막 파일에 주로 사용되는 형식은 SAMI이다.


그런데, 이 포맷은 치명적인 문제들이 많다.

무엇보다도 HTML에 기반을 둔 포맷이라 표현하지 못하는 글자가 많다[각주:1].

게다가, 쓸데없는 태그[각주:2]가 너무 많아 파일이 깔끔해보이지도 않는다.


그런 등의 이유로 개인적으로는 SRT를 더 선호했는데, 이번에 아예 SRT를 주력으로 하기로 했다.




자막 작업을 하면서 필요로 하던 기능들을 모아 SRT 자막을 손쉽게 조작할 수 있는 프로그램을 만들었다.



이 프로그램의 주요 기능은 아래와 같다.


- SRT 파일 교정: SRT 파일을 읽은 뒤 오류를 수정한 뒤 다시 기록하거나 시간을 조정함

- 자막 변환: SAMI/SSA/ASS 자막을 SRT로 변환, SRT 자막을 SAMI로 변환

- 텍스트 추출: SRT 자막에서 텍스트만 추출

- 텍스트 합치기: 기존의 SRT 자막의 시간 코드에 맞춰 텍스트 파일의 내용을 합침


조금 더 상세히 보면 기능들은 이렇다.


1. SRT 파일 교정

   - OCR 과정에서 따옴표가 잘못 인식된 경우나 I(i)를 l(L)로 잘못 인식된 경우를 수정

   - OCR 과정에서 숫자 사이에 불필요한 공백이 들어간 경우 수정

   - 시간 수정. 일괄적으로 더하거나 뺄 수도 있고, 영상과 fps 및 싱크를 맞추기 위해 일정 비율로 적용 가능


2. 자막 변환

   - SSA/ASS 자막을 지정하면 SRT로 변환함

   - SAMI 자막을 지정하면 SRT로 변환하며, 다중 언어 자막인 경우 별도의 파일로 생성

   - SRT 자막을 지정하면 SAMI로 변환하며, ANSI 포맷의 표준 자막과 UTF-8 유니코드 자막을 동시에 생성

   - 모든 경우에 원본 파일의 코드 페이지를 자동으로 인식하며, 적절히 인식해서 처리함

   - SRT를 생성할 때는 UTF-8 포맷으로 저장하므로 유니코드의 모든 문자를 표현 가능함


3. 텍스트 추출

   - 주로 자막 번역시 편리하게 적용할 수 있는 기능으로, 시간 정보를 제거하고 텍스트만 추출함

   - 번역 시에 이 텍스트 파일을 문단별로 번역하면 됨


4. 텍스트 합치기

   - 3번에서 추출한 텍스트 파일에 다시 시간 정보를 입히는 기능

   - 역시 자막 번역시 활용할 수 있는 기능임


이 프로그램은 아래 링크에서 다운받을 수 있다.


SRTier.zip



  1. HTML 기반이면서도 코드 페이지를 명시할 수 없기 때문에 유니코드를 사용할 수 없다. 가끔 유니코드 SAMI 파일이 보이는데, 이걸 사용할 수 있는 건 단지 플레이어가 너무 똑똑해서 그런 거다. [본문으로]
  2. 인간적으로 "Sync Start" 같은 태그는 어이 없다. "End"라는 태그는 없고 "Start"만 있는 건 대체 뭘까? [본문으로]
반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band