Automatyczna transkrypcja nagrań z dyktafonu – mój projekt w końcu gotowy :)

Nagrywasz czasem swoje pomysły i przemyślenia na dyktafon? Może zalegają na jakimś dysku w chmurze i od lat obiecujesz sobie, że je przejrzysz? Witaj w mojej bajce 🙂

Chciałbym podzielić się z Wami efektem pracy nad projektem, który był moją obsesją od jakiegoś czasu. Udało mi się w końcu zbudować automatyzację, która całkowicie bezobsługowo i zamienia każde takie nagranie z mojego telefonu na rekord (wiersz) w bazie Airtable. Są tam nie tylko data nagrania i link do pliku audio ale przede wszystkim transkrypcja nagrania na tekst. Wszystko dzieje się automagicznie, zaraz po tym jak skończę nagranie i odłożę telefon.

Dlaczego to (dla mnie) ważne? Od lat nagrywam różne pomysły na dyktafon. Robię to zwykle jadąc autem, będąc na spacerze w lesie, leżąc w łóżku. Nagrania gniją w pamięci telefonu i denerwują mnie tym, że nie mam czasu ich przesłuchać.

Od tygodnia już nie mam tego problemu. Wszystko dzieje się “samo”. Aby to uskutecznić spędziłem radosne kilka wieczorów aby połączyć w sprawny mechanizm szereg narzędzi:

  • FolderSync (apka Android, która wrzuca każdy nowy plik z dyktafonu na OneDrive)
  • Telegram (powiadomienia o nowych gotowych nagraniach)
  • OneDrive (repozytorium nagrań)
  • Airtable (baza danych o nagraniach)
  • Salad API (transkrypcja)
  • no i najważniejszy składnik – N8N

Po pojawieniu się nowego pliku w wyznaczonym folderze OneDrive cały proces wykonuje się z pomocą 3 przepływów (workflow) N8N, które kolejno:

  • rejestrują plik w Airtable (dodając pewne metadane z OneDrive)
  • zgłaszają nowe pliki do Salad API (rejestrując w bazie ID zadania zwrócone przez API)
  • co 5 minut sprawdzają wszystkie nieukończone zadania i “odbierają” gotową transkrypcję, zapisując ją do Airtable.

Rozwiązanie pozwala transkrybować wiele plików równolegle, dzięki czemu mogłem przesłać hurtem ponad 100 notatek głosowych i patrzeć jak w Airtable pojawiają się kolejne gotowe transkrypcje.

Co najlepsze API jest śmiesznie tanie – całość pracy kosztowała około 3 dolary. To znaczy kosztowałaby mnie, gdybym nie nabył kiedyś dożywotniej licencji na 100 godzin miesięcznie, w ramach promocji na AppSumo.

Oczywiście rozwiązanie można rozbudować o dodatkowe integracje, które umożliwiają np. automatyczne przygotowanie treści do wpisów na blog firmowy, osobisty czy do social media. Można też zaprząc jakieś tanie AI to kategoryzacji nagrań na zadania (+rejestracja w Todoist), pomysły na wpisy (+dodanie szkicu do WordPress czy Drupal), notki na social media i tak dalej.

Jeśli interesujesz się szczegółami mojego rozwiązania, zachęcam do obserwowania mojego bloga i profili na social media. Wkrótce udostępnię więcej informacji na temat każdego etapu tego procesu oraz szczegółowy opis wykorzystanych narzędzi.

Jeśli samodzielnie chcesz budować takie rozwiązania – zapraszam na moje kursy z Airtable i N8N, które znajdziesz tutaj.

Nie chcesz przegapić wpisu?

Otrzymuj jeden mail miesięcznie z najnowszymi wpisami. Poprzednie wydania są tutaj. Po zapisaniu możesz zmienić kategorie jakie obserwujesz.

zapisując się do biuletynu zgadzasz się z polityką prywatności tego bloga

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *