Automatyczna transkrypcja nagrań z dyktafonu – mój projekt w końcu gotowy :)
Nagrywasz czasem swoje pomysły i przemyślenia na dyktafon? Może zalegają na jakimś dysku w chmurze i od lat obiecujesz sobie, że je przejrzysz? Witaj w mojej bajce 🙂
Chciałbym podzielić się z Wami efektem pracy nad projektem, który był moją obsesją od jakiegoś czasu. Udało mi się w końcu zbudować automatyzację, która całkowicie bezobsługowo i zamienia każde takie nagranie z mojego telefonu na rekord (wiersz) w bazie Airtable. Są tam nie tylko data nagrania i link do pliku audio ale przede wszystkim transkrypcja nagrania na tekst. Wszystko dzieje się automagicznie, zaraz po tym jak skończę nagranie i odłożę telefon.
Dlaczego to (dla mnie) ważne? Od lat nagrywam różne pomysły na dyktafon. Robię to zwykle jadąc autem, będąc na spacerze w lesie, leżąc w łóżku. Nagrania gniją w pamięci telefonu i denerwują mnie tym, że nie mam czasu ich przesłuchać.
Od tygodnia już nie mam tego problemu. Wszystko dzieje się “samo”. Aby to uskutecznić spędziłem radosne kilka wieczorów aby połączyć w sprawny mechanizm szereg narzędzi:
- FolderSync (apka Android, która wrzuca każdy nowy plik z dyktafonu na OneDrive)
- Telegram (powiadomienia o nowych gotowych nagraniach)
- OneDrive (repozytorium nagrań)
- Airtable (baza danych o nagraniach)
- Salad API (transkrypcja)
- no i najważniejszy składnik – N8N
Po pojawieniu się nowego pliku w wyznaczonym folderze OneDrive cały proces wykonuje się z pomocą 3 przepływów (workflow) N8N, które kolejno:
- rejestrują plik w Airtable (dodając pewne metadane z OneDrive)
- zgłaszają nowe pliki do Salad API (rejestrując w bazie ID zadania zwrócone przez API)
- co 5 minut sprawdzają wszystkie nieukończone zadania i “odbierają” gotową transkrypcję, zapisując ją do Airtable.
Rozwiązanie pozwala transkrybować wiele plików równolegle, dzięki czemu mogłem przesłać hurtem ponad 100 notatek głosowych i patrzeć jak w Airtable pojawiają się kolejne gotowe transkrypcje.
Co najlepsze API jest śmiesznie tanie – całość pracy kosztowała około 3 dolary. To znaczy kosztowałaby mnie, gdybym nie nabył kiedyś dożywotniej licencji na 100 godzin miesięcznie, w ramach promocji na AppSumo.
Oczywiście rozwiązanie można rozbudować o dodatkowe integracje, które umożliwiają np. automatyczne przygotowanie treści do wpisów na blog firmowy, osobisty czy do social media. Można też zaprząc jakieś tanie AI to kategoryzacji nagrań na zadania (+rejestracja w Todoist), pomysły na wpisy (+dodanie szkicu do WordPress czy Drupal), notki na social media i tak dalej.
Jeśli interesujesz się szczegółami mojego rozwiązania, zachęcam do obserwowania mojego bloga i profili na social media. Wkrótce udostępnię więcej informacji na temat każdego etapu tego procesu oraz szczegółowy opis wykorzystanych narzędzi.
Jeśli samodzielnie chcesz budować takie rozwiązania – zapraszam na moje kursy z Airtable i N8N, które znajdziesz tutaj.