생각보다 프로젝트가 만들기 힘들것이라는 예상이 됩니다!
stt와 tts를 가져오는것 까지는 어떻게든 구하였지만
이걸 openAI와 연동해서 입력을 stt로 받아들이고 그것을 tts로 적어서 표현하고 openAI에게 메뉴를 추천하고 만들어주는 기능을 하는 것이 생각 보다 쉽지 않을 것 같다는 생각이 들었습니다!.
처음에 문제가 되었던 부분이 stt를 바로 마이크로 입력을 받아서 그것을 검색으로 넣고 싶었지만 스트리밍으로 받아오는 음성입력을 어디서 부터 끈어서 가져올 것 인지를 정하고 적용하는 것이 생각보다 쉽지 않다고 느꼈습니다.
우리가 처음에 만들려고 했던 규모가 생각보다 엄청 큰 큐모였다는 것이 작은 거 하나부터 직접 경험을 해보니 정말 잘 느껴지더군요
일단은 만들수 있는 기능 부터 빠르게 만들어 보야 할 것 같다는 생각이 들었고 필수로 구현이 되어야 하는 부분을 만들어서 기본적인 기능이 작동을 할 수 있도록 만들어야 할 것 같습니다!
구글링 (GTTS - 구글 TTS 공식문서 참고), 유튜브 자료 참고 (https://www.youtube.com/watch?v=79_WXPWdaWE&list=PLK4RQ-UUydTc9p79pc22ZAqsg3nujF0bd&index=2)
gTTS - 기본 로컬에서 구현 가능한 TTS
gTTS — gTTS documentation
© Copyright 2014-2024 Pierre Nicolas Durette. Revision 9998410e.
gtts.readthedocs.io
TS, STT 주요 기능들을 활용하기 전 동작 여부 확인
# 환경 변수에 API 키 설정
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "/path/to/your-service-account-file.json"
gSTT - 스트리밍 음성 변환 기능
Transcribe audio from streaming input | Cloud Speech-to-Text Documentation | Google Cloud
스트리밍 입력에서 오디오를 텍스트로 변환 | Cloud Speech-to-Text 문서 | Google Cloud
Vertex AI의 최첨단 멀티모달 모델인 Gemini 1.5 Pro를 사용해 보고 토큰 100만 개 규모의 컨텍스트 윈도우로 무엇을 빌드할 수 있는지 알아보세요. Vertex AI의 최첨단 멀티모달 모델인 Gemini 1.5 Pro를 사용
cloud.google.com
openAI - AI 응답 기능
'코딩 교육 TIL' 카테고리의 다른 글
2024-05-17 AI 코딩 TIL (0) | 2024.05.17 |
---|---|
2024-05-16 AI 코딩 TIL (0) | 2024.05.16 |
2024-05-13 AI 코딩 TIL (0) | 2024.05.13 |
2024-05-09 AI 코딩 TIL (0) | 2024.05.09 |
2024-05-08 AI 코딩 TIL (0) | 2024.05.08 |