האם לגוגל יש תכונת שעתוק
תעתיק במסמכים של גוגל: שמע לתעתיק טקסט
השתמש בקטע הקוד למטה כדי להמיר קובץ וידאו לקובץ שמע באמצעות FFMPEG .
תעבור אודיו מקובץ וידאו באמצעות דיבור לטקסט
מדריך זה מראה כיצד לתמלל את מסלול השמע מקובץ וידאו באמצעות דיבור לטקסט.
קבצי שמע יכולים להגיע ממקורות רבים ושונים. נתוני שמע יכולים להגיע מטלפון (כמו דואר קולי) או מהפסקול הכלול בקובץ וידאו.
טקסט דיבור יכול להשתמש באחד מכמה למידת מכונות דגמים כדי לתמלל את קובץ השמע שלך, כדי להתאים בצורה הטובה ביותר למקור המקורי של השמע. אתה יכול להשיג תוצאות טובות יותר מתמלול הדיבור שלך על ידי ציון מקור השמע המקורי. זה מאפשר לדיבור לטקסט לעבד את קבצי השמע שלך באמצעות מודל למידת מכונה שהוכשר לנתונים הדומים לקובץ השמע שלך.
יעדים
- שלח בקשת תעתיק שמע לקובץ וידאו לדיבור לטקסט.
עלויות
- דיבור לטקסט
כדי ליצור אומדן עלות על סמך השימוש המוקרן שלך, השתמש במחשבון התמחור. משתמשי Google Cloud חדשים עשויים להיות זכאים לניסיון בחינם.
לפני שאתה מתחיל
במדריך זה יש כמה תנאים מוקדמים:
- הגדרת פרויקט דיבור לטקסט בקונסולת Google Cloud.
- הגדרת את הסביבה שלך באמצעות אישורי ברירת מחדל של יישום במסוף Google Cloud.
- הקמת את סביבת הפיתוח לשפת התכנות שבחרת.
- התקנת את ספריית הלקוחות של Google Cloud לשפת התכנות שבחרת.
הכן את נתוני השמע
לפני שתוכל לתמלל אודיו מסרטון, עליך לחלץ את הנתונים מקובץ הווידיאו. לאחר שחילצת את נתוני השמע, עליך לאחסן אותם בדלי אחסון בענן או להמיר אותם לקידוד Base64.
הערה: אם אתה משתמש בספריית לקוח לתמלול, אינך צריך לאחסן או להמיר את נתוני השמע. עליך רק לחלץ את נתוני השמע מקובץ הווידיאו לפני שליחת בקשת שעתוק.
לחלץ את נתוני השמע
באפשרותך להשתמש בכל כלי להמרת קבצים המטפל בקבצי שמע ווידאו, כגון FFMPEG.
השתמש בקטע הקוד למטה כדי להמיר קובץ וידאו לקובץ שמע באמצעות FFMPEG .
FFMPEG -i קובץ-קובץ-קובץ-קובץ-קובץ-קובץ וידאו
לאחסן או להמיר את נתוני השמע
אתה יכול לתמלל קובץ שמע המאוחסן במחשב המקומי שלך או בדלי אחסון בענן.
השתמש בפקודה הבאה כדי להעלות את קובץ השמע שלך לדלי אחסון ענן קיים באמצעות הכלי GSUTIL.
GSUTIL CP Audio-Output-Fut-File-Bucket-uri
אם אתה משתמש בקובץ מקומי ומתכנן לשלוח בקשה באמצעות כלי התלתל משורת הפקודה, עליך להמיר את קובץ השמע לנתונים מקודדים Base64 תחילה.
השתמש בפקודה הבאה כדי להמיר קובץ שמע לקובץ טקסט.
Base64 Audio-Output-File--W 0> Audio-Data-Text
שלח בקשת שעתוק
השתמש בקוד הבא כדי לשלוח בקשת שעתוק לדיבור לטקסט.
בקשת קבצים מקומית
נוהל
עיין בנאום: הכיר את נקודת הקצה של API לפרטים מלאים.
כדי לבצע זיהוי דיבור סינכרוני, קבע בקשת פוסט וספק את גוף הבקשה המתאים. להלן דוגמה לבקשת פוסט באמצעות תלתל . הדוגמה משתמשת באסימון הגישה לחשבון שירות המוגדר לפרויקט באמצעות Google Cloud Cloud Google Cloud CLI. לקבלת הוראות להתקנת CLI GCLOUD, הגדרת פרויקט עם חשבון שירות וקבלת אסימון גישה, עיין ב- QuickStart.
CURL -S -H "סוג תוכן: יישום/JSON" \ -H "הרשאה: BEARER $ (GCLOUD AUTH APPLET.googleapis.com/v1/דיבור: זיהוי \ -data ' < "config": < "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "מודל": "וידאו" >, "שמע": < "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" >> '
עיין בתיעוד ההתייחסות ל- EntingConfig למידע נוסף על קביעת תצורת גוף הבקשה.
אם הבקשה מצליחה, השרת מחזיר קוד סטטוס HTTP 200 אישור והתגובה בפורמט JSON:
ללכת
כדי לאמת לטקסט דיבור, הגדר אישורי ברירת מחדל של יישום. למידע נוסף, ראה הגדרת אימות לסביבת פיתוח מקומית.
Func ModelSelected (w io.סופר, מחרוזת נתיב) שגיאה {ctx: = הקשר.רקע () לקוח, שגיאה: = דיבור.NewClient (CTX) אם שגיאה != nil {החזר fmt.Errorf ("NewClient: %W", ERR)} DEFER DERE לקוח.סגור () // path = "../testdata/google_gnome.WAV "נתונים, שגיאה: = ioutil.Readfile (נתיב) אם שגיאה != nil {החזר fmt.ERRORF ("ReadFile: %W", ERR)} req: = & DepanyPB.Actizerequest {config: & depanypb.OrtentityConfig {קידוד: Depoinpb.Ortinitionconfig_linear16, samplerateertz: 16000, LanguageCode: "en-us", דגם: "וידאו",}, אודיו: & DepanyPB.הכרה uadio {audiosource: & depanypb.Ortenitionaudio_content,},} resp, err: = לקוח.לזהות (CTX, Req) אם שגיאה != nil {החזר fmt.שגיאה ("הכרה: %w", שגיאה)} עבור i, תוצאה: = טווח resp.תוצאות {fmt.Fprintf (w, "%s \ n", מיתרים.חזור ("-", 20)) fmt.Fprintf (w, "תוצאה %d \ n", i+1) עבור J, אלטרנטיבה: = תוצאת טווח.אלטרנטיבות {fmt.Fprintf (w, "אלטרנטיבה %d: %s \ n", j+1, אלטרנטיבה.תמלול)}} החזר NIL}
ג’אווה
כדי לאמת לטקסט דיבור, הגדר אישורי ברירת מחדל של יישום. למידע נוסף, ראה הגדר u
תעתיק במסמכים של גוגל: שמע לתעתיק טקסט
השתמש בקטע הקוד למטה כדי להמיר קובץ וידאו לקובץ שמע באמצעות FFMPEG .
תעבור אודיו מקובץ וידאו באמצעות דיבור לטקסט
מדריך זה מראה כיצד לתמלל את מסלול השמע מקובץ וידאו באמצעות דיבור לטקסט.
קבצי שמע יכולים להגיע ממקורות רבים ושונים. נתוני שמע יכולים להגיע מטלפון (כמו דואר קולי) או מהפסקול הכלול בקובץ וידאו.
טקסט דיבור יכול להשתמש באחד מכמה למידת מכונות דגמים כדי לתמלל את קובץ השמע שלך, כדי להתאים בצורה הטובה ביותר למקור המקורי של השמע. אתה יכול להשיג תוצאות טובות יותר מתמלול הדיבור שלך על ידי ציון מקור השמע המקורי. זה מאפשר לדיבור לטקסט לעבד את קבצי השמע שלך באמצעות מודל למידת מכונה שהוכשר לנתונים הדומים לקובץ השמע שלך.
יעדים
- שלח בקשת תעתיק שמע לקובץ וידאו לדיבור לטקסט.
עלויות
- דיבור לטקסט
כדי ליצור אומדן עלות על סמך השימוש המוקרן שלך, השתמש במחשבון התמחור. משתמשי Google Cloud חדשים עשויים להיות זכאים לניסיון בחינם.
לפני שאתה מתחיל
במדריך זה יש כמה תנאים מוקדמים:
- הגדרת פרויקט דיבור לטקסט בקונסולת Google Cloud.
- הגדרת את הסביבה שלך באמצעות אישורי ברירת מחדל של יישום במסוף Google Cloud.
- הקמת את סביבת הפיתוח לשפת התכנות שבחרת.
- התקנת את ספריית הלקוחות של Google Cloud לשפת התכנות שבחרת.
הכן את נתוני השמע
לפני שתוכל לתמלל אודיו מסרטון, עליך לחלץ את הנתונים מקובץ הווידיאו. לאחר שחילצת את נתוני השמע, עליך לאחסן אותם בדלי אחסון בענן או להמיר אותם לקידוד Base64.
הערה: אם אתה משתמש בספריית לקוח לתמלול, אינך צריך לאחסן או להמיר את נתוני השמע. עליך רק לחלץ את נתוני השמע מקובץ הווידיאו לפני שליחת בקשת שעתוק.
לחלץ את נתוני השמע
באפשרותך להשתמש בכל כלי להמרת קבצים המטפל בקבצי שמע ווידאו, כגון FFMPEG.
השתמש בקטע הקוד למטה כדי להמיר קובץ וידאו לקובץ שמע באמצעות FFMPEG .
ffmpeg -i קובץ קלט וידאו קובץ Audio-Output
לאחסן או להמיר את נתוני השמע
אתה יכול לתמלל קובץ שמע המאוחסן במחשב המקומי שלך או בדלי אחסון בענן.
השתמש בפקודה הבאה כדי להעלות את קובץ השמע שלך לדלי אחסון ענן קיים באמצעות הכלי GSUTIL.
GSUTIL CP קובץ Audio-Output אחסון-בוק-אורי
אם אתה משתמש בקובץ מקומי ומתכנן לשלוח בקשה באמצעות כלי התלתל משורת הפקודה, עליך להמיר את קובץ השמע לנתונים מקודדים Base64 תחילה.
השתמש בפקודה הבאה כדי להמיר קובץ שמע לקובץ טקסט.
בסיס 64 קובץ Audio-Output -w 0> Audio-Data-Text
שלח בקשת שעתוק
השתמש בקוד הבא כדי לשלוח בקשת שעתוק לדיבור לטקסט.
בקשת קבצים מקומית
נוהל
עיין בנאום: הכיר את נקודת הקצה של API לפרטים מלאים.
כדי לבצע זיהוי דיבור סינכרוני, קבע בקשת פוסט וספק את גוף הבקשה המתאים. להלן דוגמה לבקשת פוסט באמצעות תלתל . הדוגמה משתמשת באסימון הגישה לחשבון שירות המוגדר לפרויקט באמצעות Google Cloud Cloud Google Cloud CLI. לקבלת הוראות להתקנת CLI GCLOUD, הגדרת פרויקט עם חשבון שירות וקבלת אסימון גישה, עיין ב- QuickStart.
CURL -S -H "סוג תוכן: יישום/JSON" \ -H "הרשאה: BEARER $ (GCLOUD AUTH APPLET.googleapis.com/v1/דיבור: זיהוי \ -data ' < "config": < "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "מודל": "וידאו" >, "שמע": < "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" >> '
עיין בתיעוד ההתייחסות ל- EntingConfig למידע נוסף על קביעת תצורת גוף הבקשה.
אם הבקשה מצליחה, השרת מחזיר קוד סטטוס HTTP 200 אישור והתגובה בפורמט JSON:
ללכת
כדי לאמת לטקסט דיבור, הגדר אישורי ברירת מחדל של יישום. למידע נוסף, ראה הגדרת אימות לסביבת פיתוח מקומית.
Func ModelSelected (w io.שגיאה של סופר, מחרוזת נתיב) < ctx := context.Background() client, err := speech.NewClient(ctx) if err != nil < return fmt.Errorf("NewClient: %w", err) >דחיית לקוח.סגור () // path = "../testdata/google_gnome.WAV "נתונים, שגיאה: = ioutil.Readfile (נתיב) אם שגיאה != אפס < return fmt.Errorf("ReadFile: %w", err) >Req: = & DepanyPB.הכרה< Config: &speechpb.RecognitionConfig< Encoding: speechpb.RecognitionConfig_LINEAR16, SampleRateHertz: 16000, LanguageCode: "en-US", Model: "video", >, שמע: & DepanyPB.הכרה באודיו< AudioSource: &speechpb.RecognitionAudio_Content, >, > resp, שגיאה: = לקוח.לזהות (CTX, Req) אם שגיאה != אפס < return fmt.Errorf("Recognize: %w", err) >עבור i, תוצאה: = טווח resp.תוצאות < fmt.Fprintf(w, "%s\n", strings.Repeat("-", 20)) fmt.Fprintf(w, "Result %d\n", i+1) for j, alternative := range result.Alternatives < fmt.Fprintf(w, "Alternative %d: %s\n", j+1, alternative.Transcript) >> החזר nil>
ג’אווה
כדי לאמת לטקסט דיבור, הגדר אישורי ברירת מחדל של יישום. למידע נוסף, ראה הגדרת אימות לסביבת פיתוח מקומית.
/*** מבצע שעתוק של קובץ השמע הנתון באופן סינכרוני עם הדגם שנבחר. * * @param שם קובץ הנתיב לקובץ שמע כדי לתמלל */ transmickmodelemodeleselected (שם קובץ) זורק חריג < Path path = Paths.get(fileName); byte[] content = Files.readAllBytes(path); try (SpeechClient speech = SpeechClient.create()) < // Configure request with video media type RecognitionConfig recConfig = RecognitionConfig.newBuilder() // encoding may either be omitted or must match the value in the file header .setEncoding(AudioEncoding.LINEAR16) .setLanguageCode("en-US") // sample rate hertz may be either be omitted or must match the value in the file // header .setSampleRateHertz(16000) .setModel("video") .build(); RecognitionAudio recognitionAudio = RecognitionAudio.newBuilder().setContent(ByteString.copyFrom(content)).build(); RecognizeResponse recognizeResponse = speech.recognize(recConfig, recognitionAudio); // Just print the first result here. SpeechRecognitionResult result = recognizeResponse.getResultsList().get(0); // There can be several alternative transcripts for a given chunk of speech. Just use the // first (most likely) one here. SpeechRecognitionAlternative alternative = result.getAlternativesList().get(0); System.out.printf("Transcript : %s\n", alternative.getTranscript()); >>
צוֹמֶת.JS
כדי לאמת לטקסט דיבור, הגדר אישורי ברירת מחדל של יישום. למידע נוסף, ראה הגדרת אימות לסביבת פיתוח מקומית.
// מייבא את ספריית הלקוחות של Google Cloud עבור Beta API/** * TODO (מפתח): עדכן את ייבוא ספריית הלקוחות לשימוש בגרסת API חדשה * כאשר התכונות הרצויות הופכות לזמינות */CONST DECUENT = דורש ('@Google-Cloud/Doink').v1p1beta1; const fs = דורש ('fs'); // יוצר לקוח const client = דיבור חדש.Debuerclient (); /*** todo (מפתח): ביטול השורות הבאות לפני הפעלת המדגם. */ // const filename = 'נתיב מקומי לקובץ שמע, ה.ז. /path/to/Audio.גלם'; // const model = 'מודל לשימוש, ה.ז. Phone_Call, וידאו, ברירת מחדל '; // const endoding = 'קידוד של קובץ השמע, ה.ז. Linear16 '; // const sampleretertz = 16000; // const languagecode = 'קוד שפה BCP-47, E.ז. en-us '; const config = < encoding: encoding, sampleRateHertz: sampleRateHertz, languageCode: languageCode, model: model, >; const Audio = < content: fs.readFileSync(filename).toString('base64'), >; בקשת const = < config: config, audio: audio, >; // מגלה דיבור בקובץ השמע const [תגובה] = מחכה ללקוח.הכרה (בקשה); תמלול const = תגובה.תוצאות .מפה (תוצאה => תוצאה.אלטרנטיבות [0].תמליל) .הצטרף ('\ n'); לְנַחֵם.יומן ('תעתיק:', שעתוק);
פִּיתוֹן
כדי לאמת לטקסט דיבור, הגדר אישורי ברירת מחדל של יישום. למידע נוסף, ראה הגדרת אימות לסביבת פיתוח מקומית.
def transcribe_model_selection (Speek_File, Model): "" "תעבור את קובץ השמע הנתון באופן סינכרוני עם המודל שנבחר."" "מגוגל.לקוח דיבור יבוא ענן = דיבור.Debukclient () עם Open (Debue_File, "RB") כ- AUDIO_FILE: Content = Audio_File.קרא () אודיו = דיבור.הכרה Audio (תוכן = תוכן) config = דיבור.OrtenitionConfig (קידוד = דיבור.הכרה.קידוד שמע.Linear16, sample_rate_hertz = 16000, langue_code = "en-us", model = model,) תגובה = לקוח.זיהה (config = config, udio = Audio) עבור i, תביא למינוי (תגובה.תוצאות): אלטרנטיבה = תוצאה.אלטרנטיבות [0] הדפס ("-" * 20) הדפס (F "אלטרנטיבה ראשונה של התוצאה") הדפס (f "תמלול:")
שפה נוספת
ג: אנא עקוב אחר הוראות הגדרת C# בדף ספריות הלקוח ואז בקר בתיעוד ההתייחסות לנאום לטקסט עבור .נֶטוֹ.
PHP: אנא עקוב אחר הוראות הגדרת PHP בדף ספריות הלקוח ואז בקר בתיעוד ההתייחסות לדיבור לטקסט עבור PHP.
אוֹדֶם: אנא עקוב אחר הוראות הגדרת האודם בדף ספריות הלקוח ואז בקר בתיעוד ההתייחסות לדיבור לטקסט עבור Ruby.
בקשת קובץ מרחוק
ג’אווה
כדי לאמת לטקסט דיבור, הגדר אישורי ברירת מחדל של יישום. למידע נוסף, ראה הגדרת אימות לסביבת פיתוח מקומית.
/*** מבצע שעתוק של קובץ השמע המרוחק באופן אסינכרוני עם הדגם שנבחר. * * @param gcsuri הנתיב לקובץ השמע המרוחק לתמלול. */ Public Static Void TranscribeModeleselectiongcs (מחרוזת gcsuri) זורקת חריג < try (SpeechClient speech = SpeechClient.create()) < // Configure request with video media type RecognitionConfig config = RecognitionConfig.newBuilder() // encoding may either be omitted or must match the value in the file header .setEncoding(AudioEncoding.LINEAR16) .setLanguageCode("en-US") // sample rate hertz may be either be omitted or must match the value in the file // header .setSampleRateHertz(16000) .setModel("video") .build(); RecognitionAudio audio = RecognitionAudio.newBuilder().setUri(gcsUri).build(); // Use non-blocking call for getting file transcription OperationFutureresponse = speech.longRunningRecognizeAsync(config, audio); while (!response.isDone()) < System.out.println("Waiting for response. "); Thread.sleep(10000); >תוצאות רשימה = תגובה.לקבל().GetResultSlist (); // פשוט הדפיס את התוצאה הראשונה כאן. תוצאה של דיבור על תוצאות = תוצאות = תוצאות.קבל (0); // יכולים להיות מספר תמלילים אלטרנטיביים עבור נתח דיבור נתון. פשוט השתמש ב- // הראשון (ככל הנראה) כאן. אלטרנטיבה דיבורתית של דיבור = תוצאה.getalternativslist ().קבל (0); מערכת.הַחוּצָה.printf ("תמלול: %s \ n", אלטרנטיבה.getTranscript ()); >>
צוֹמֶת.JS
כדי לאמת לטקסט דיבור, הגדר אישורי ברירת מחדל של יישום. למידע נוסף, ראה הגדרת אימות לסביבת פיתוח מקומית.
// מייבא את ספריית הלקוחות של Google Cloud עבור Beta API/** * TODO (מפתח): עדכן את ייבוא ספריית הלקוחות לשימוש בגרסת API חדשה * כאשר התכונות הרצויות הופכות לזמינות */CONST DECUENT = דורש ('@Google-Cloud/Doink').v1p1beta1; // יוצר לקוח const client = דיבור חדש.Debuerclient (); /*** todo (מפתח): ביטול השורות הבאות לפני הפעלת המדגם. */// const gcsuri = 'gs: // My-Bucket/Audio.גלם'; // const model = 'מודל לשימוש, ה.ז. Phone_Call, וידאו, ברירת מחדל '; // const endoding = 'קידוד של קובץ השמע, ה.ז. Linear16 '; // const sampleretertz = 16000; // const languagecode = 'קוד שפה BCP-47, E.ז. en-us '; const config = < encoding: encoding, sampleRateHertz: sampleRateHertz, languageCode: languageCode, model: model, >; const Audio = < uri: gcsUri, >; בקשת const = < config: config, audio: audio, >; // מזהה דיבור בקובץ השמע. const [תגובה] = ממתין ללקוח.הכרה (בקשה); תמלול const = תגובה.תוצאות .מפה (תוצאה => תוצאה.אלטרנטיבות [0].תמליל) .הצטרף ('\ n'); לְנַחֵם.יומן ('תעתיק:', שעתוק);
פִּיתוֹן
כדי לאמת לטקסט דיבור, הגדר אישורי ברירת מחדל של יישום. למידע נוסף, ראה הגדרת אימות לסביבת פיתוח מקומית.
def transcribe_model_selection_gcs (gcs_uri, דגם): "" "תענוג את קובץ השמע הנתון באופן אסינכרוני עם המודל שנבחר."" "מגוגל.לקוח דיבור יבוא ענן = דיבור.דיבור () אודיו = דיבור.Ortenitionaudio (uri = gcs_uri) config = דיבור.OrtenitionConfig (קידוד = דיבור.הכרה.קידוד שמע.Linear16, sample_rate_hertz = 16000, שפה_קוד = "en-us", model = model,) פעולה = לקוח.LONG_RUNNING_RECOGNIZE (config = config = config, Audio = Audio) הדפס ("מחכה להשלמת הפעולה. ") תגובה = פעולה.תוצאה (פסק זמן = 90) עבור i, תביא למינוי (תגובה.תוצאות): אלטרנטיבה = תוצאה.אלטרנטיבות [0] הדפס ("-" * 20) הדפס (F "אלטרנטיבה ראשונה של התוצאה") הדפס (f "תמלול:")
שפה נוספת
ג: אנא עקוב אחר הוראות הגדרת C# בדף ספריות הלקוח ואז בקר בתיעוד ההתייחסות לנאום לטקסט עבור .נֶטוֹ.
PHP: אנא עקוב אחר הוראות הגדרת PHP בדף ספריות הלקוח ואז בקר בתיעוד ההתייחסות לדיבור לטקסט עבור PHP.
אוֹדֶם: אנא עקוב אחר הוראות הגדרת האודם בדף ספריות הלקוח ואז בקר בתיעוד ההתייחסות לדיבור לטקסט עבור Ruby.
לנקות
כדי להימנע מחיובים מחייבים לחשבון Google Cloud שלך עבור המשאבים המשמשים במדריך זה, מחק את הפרויקט שמכיל את המשאבים, או שמור על הפרויקט ומחק את המשאבים האישיים.
מחק את הפרויקט
הדרך הקלה ביותר לחסל חיוב היא למחוק את הפרויקט שיצרת עבור ההדרכה.
- הכל בפרויקט נמחק. אם השתמשת בפרויקט קיים להדרכה זו, כשאתה מוחק אותו, אתה גם מוחק כל עבודה אחרת שעשית בפרויקט.
- מזהי פרויקט מותאמים אישית אבודים. כשבצרת פרויקט זה, ייתכן שיצרת מזהה פרויקט מותאם אישית בו ברצונך להשתמש בעתיד. כדי לשמור על כתובות האתר המשתמשות במזהה הפרויקט, כגון AppSpot.com url, מחק משאבים נבחרים בפרויקט במקום למחוק את כל הפרויקט.
זְהִירוּת: למחוק פרויקט יש את ההשפעות הבאות:
אם אתה מתכנן לחקור מספר הדרכות וכיבוי מהיר, שימוש חוזר בפרויקטים יכול לעזור לך להימנע מחריגה מחריגת מגבלות מכסת הפרויקט.
מחק מקרים
- במסוף הענן של גוגל, עבור אל מקרים של VM עמוד. עבור למופעי VM
- בחר בתיבת הסימון עבור המופע שברצונך למחוק.
- כדי למחוק את המופע, לחץ על more_vert יותר פעולות, נְקִישָׁה לִמְחוֹק, ואז עקוב אחר ההוראות.
מחק כללי חומת אש עבור רשת ברירת המחדל
- במסוף הענן של גוגל, עבור אל חומת אש עמוד. לך לחומת אש
- בחר בתיבת הסימון עבור כלל חומת האש שברצונך למחוק.
- כדי למחוק את כלל חומת האש, לחץ על מחק לִמְחוֹק.
מה הלאה
- למד כיצד להשיג חותמות זמן לאודיו.
- זהה רמקולים שונים בקובץ שמע.
נסה את זה בעצמך
אם אתה חדש ב- Google Cloud, צור חשבון כדי להעריך כיצד מופיע דיבור לטקסט בתרחישים בעולם האמיתי. לקוחות חדשים מקבלים גם 300 דולר בזיכויים בחינם להפעלה, בדיקה ופריסה של עומסי עבודה.
שלח משוב
למעט כפי שצוין אחרת, תוכן של דף זה מורשה תחת ייחוס Creative Commons 4.0 רישיון, ודגימות קוד מורשות תחת Apache 2.0 רישיון. לפרטים, עיין במדיניות אתר המפתחים של גוגל. Java הוא סימן מסחרי רשום של אורקל ו/או שלוחותיו.
עודכן לאחרונה 2023-05-19 UTC.
תעתיק במסמכים של גוגל: שמע לתעתיק טקסט
מאמר זה יבחן כיצד לתמלל ב- Google Docs באמצעות תכונת הקלדת הקול. כלי שעתוק חינמי זה שימושי למשימות רבות מלבד הקלדת קול רגילה: אתה יכול להכניס את הרעיונות שלך לצורה כתובה במהירות, לקבל הערות גסות מפגישות וליצור סקריפטים לנאומים גם כן. תמלילים מועילים ממספר סיבות: הם ניתנים לחיפוש, אתה יכול להשתמש בהם כדי ליצור כתוביות וזה’קל לשמור אותם לעיון עתידי.
האם Docs Google יכול לתמלל קובץ שמע?
לא הרבה אנשים יודעים שאתה יכול להשתמש ב- Google Docs כדי לתמלל קבצי שמע (אם כי אנחנו לא עושים’לא ממליץ על זה! במקום זאת, השתמש בכלי של צד שלישי כמו SPF.IO כדי לקבל תמלילים מדויקים ומהירים מקבצי שמע). זכור כי השימוש בכלי למשהו שאינו מטרתו העיקרית ייתן לך פחות מתוצאות אידיאליות. אם אתה משתמש בהקלדת קולי כדי לקבל תמלילים בחינם מקבצי שמע, הכתיבה לא תהיה פיסוק, ככל הנראה יש מילים שגויות או חסרות, ותזדקק לעריכה משמעותית לאחר מכן.
אלה כמה יתרונות לשימוש בתכונת הקלדת הקול של Google Docs:
-חינם: Google Docs לא דורש שום עמלות להתחיל.
-הניתן לעריכה: הטקסט ב- Google Doc קל לשנות, להגיב ולהשתמש בו עם משתפי פעולה שעוזרים לך לצאת
-ניתן לשיתוף בקלות: מאז שאתה’עובד ישירות ב- Google Docs, אתה יכול להשתמש ב-
“לַחֲלוֹק” תכונה לשליחת התמלול שלך לחברים ועמיתים לעבודה
חסרונות לשימוש בכלי שעתוק בחינם כמו Google Docs:
-אין תרגום
-אין חותמות זמן
-אין פיסוק אוטומטי (אתה יכול לומר מילולית “פרק זמן” אוֹ “פסיק,” אבל מסמכים לא יתמללו עם פיסוק. קרא עוד על פקודות קוליות כאן).
-אין מילון מותאם אישית או תיקוני כתיב אוטומטיים (אם ברצונך לתכונה זו, השתמש ב- SPF.IO וצור מסד נתונים אוטומטי משלך)
כיצד להשתמש בגוגל’כלי טקסט לדיבור
לאחר שיש לך קובץ שמע, בצע את הצעדים הבאים לתמלול ב- Google Docs:
- צור מסמך חדש:
פתח קובץ חדש של Google Doc בכתובת https: // מסמכים.גוגל.com/מסמך/ - אפשר טקסט לדיבור:
תחת כלים, בחר “הקלדת קול” - בחר את שפת התמלול שלך:
כאשר המיקרופון מופיע, אתה יכול להשתמש בחץ הנפתח ליד השפה המוצגת (במקרה זה, אנגלית (אנחנו)) כדי לבחור את השפה שלך. כשאתה מתמלל ב- Google Docs לעבודה דו לשונית, אתה’אני צריך להשהות ולהכבה את המיקרופון לפני שתעבור לשפה חדשה בכל פעם שאתה רוצה לדבר אחרת. - התחל לתמלל את קובץ השמע שלך:
התחל לנגן את קובץ השמע שלך בחלון אחר (וודא שהוא משחק על הרמקולים שלך, לא דרך אוזניות!). לחץ על המיקרופון ב- Google Docs בהקדם האפשרי כדי לתפוס את הצליל. הסיבה שאתה צריך לעשות זאת לפי הסדר היא שאם תלחץ הרחק מחלון Google Docs, התעתיק יפסיק. החיסרון הוא שאתה’לאבד את החלק הראשון של קובץ השמע או הווידיאו שלך כשאתה לוחץ על Google Docs כדי להתחיל את התמלול. - ערוך את התמליל שלך:
זהו החלק הגוזל ביותר בתהליך זה מאז שניצחתם’t לקבל פיסוק נוסף באופן אוטומטי כשאתה מתמלל ב- Google Docs. שים לב שאתה יכול’t ערוך את הטקסט במסמך כאשר הווידיאו/השמע שלך מתועתק – הקלדת קולי תוסיף טקסט בכל מקום שתניח את הסמן שלך.
דרכים אחרות להשתמש ב- Google Docs דיבור לטקסט:
- כתוב מהר יותר
- רשמו הערות מפגישה
- צור סקריפט לנאום
תמלילי שמע/וידאו קלים ומדויקים עם SPF.io
למרות שהתהליך לתמלול ב- Google Docs הוא בחינם, זה יכול לקחת הרבה מזמנך (מה שעלול להיות יקר יותר בסופו של דבר!). אנו ממליצים להשתמש בכלים של צד שלישי כמו SPF.IO לקבלת תמלילים מדויקים הדורשים פחות עריכה זמן רב מכפי שידרוש כלים בחינם. זה הכרחי במיוחד אם יש לך שעות רבות של וידאו/שמע לתמלול.
עם SPF.IO, אתה יכול אפילו להשתמש בתמליל שלך כדי ליצור כותרות וכתוביות. מכיוון שאנו מציעים אפשרויות רבות בכלי All-in-One שלנו, יש לך חופש לתרגם את הטקסט שלך ליותר מ -60 שפות! אנו מציעים גם כיתוב חי לרוב הפלטפורמות כמו זום, זרם זרם, יוטיוב ועוד.
נמאס לך לנסות לתמלל ב- Google Docs? פשט את התהליך שלך וקבל הצעת מחיר מ- SPF.IO לפרויקט התמלול שלך!
תמלול תוכן שמע: משאבים והדרך
אם אתה רוצה לתמלל תוכן שמע, אתה’יש למקום הנכון. בין אם תבחר להשתמש בשירות שעתוק של צד שלישי או DIY (עשה זאת בעצמך), זה’חשוב לשקול את היתרונות והחסרונות ולבחור איזו אפשרות עובדת הכי טוב עבורך.
היתרונות של תמלול שמע
- צור חווית משתמש טובה יותר
- הגדל את הסיכוי שלך לצטט ולזוכה
- הגבר אופטימיזציה למנועי חיפוש (SEO)
- שפר את הנגישות למשתמשים שהם D/DEAL או כבדי שמיעה
בנוסף, עסקים וארגונים רבים הם באופן חוקי נדרש ליצירת תמלילים לתוכן שלהם מבוסס על חוק האמריקאים עם מוגבלות וסעיף 504 ו- 508 לחוק השיקום. WCAG 2.0 היא קבוצה של הנחיות שהוקמו על ידי קונסורציום האינטרנט העולמי כדי להפוך את התוכן הדיגיטלי לנגיש יותר למשתמשים, כולל אלה עם מוגבלות. WCAG 2.0 יש שלוש רמות תאימות: רמה A, AA ו- AAA. סעיף 508 תוקן כדי לעמוד ב- WCAG 2.0 רמה A ו- AA. על פי הרמה הנמוכה ביותר, רמה A, תמלילים מומלצים לתוכן שמע בלבד.
אָנוּ’אני מספק את המשאבים השונים שאתה’צריך לתמלל מקובץ שמע ולעזור לך לקבוע את הבחירה הקיימת ביותר על סמך התקציב, הזמן והצרכים הספציפיים שלך. בהצלחה, ותמלול שמח!
תעתיק DIY
תמלול ידני אודיו יכול להיות משימה מפחידה, במיוחד כאשר יש לך צורות ארוכות יותר של תוכן. בדרך כלל זה לוקח פי 5-6 מהזמן האמיתי של התוכן. למרבה המזל, ישנם כלים רבים בחינם ועלות נמוכה כדי לפשט את התהליך. לפני שתתחיל לתמלול, וודא שאתה לתפוס אודיו ברור וקולני. זה יעזור להפחית דגלים אדומים וצלילים בלתי נשמעים בתמליל שלך.
YouTube
אם אתה מארח את תוכן השמע שלך ב- YouTube, אתה יכול להשתמש בכלי תמלול הווידיאו האוטומטי בחינם. כלי זה מתמלל אוטומטית אודיו לטקסט, אך קחו בחשבון שהוא מגיע עם הרבה שגיאות. תמלילים המיוצרים על ידי YouTube’כלי S אינם מדויקים מכדי שישמשו בעצמם. לכן, זה’זה מומלץ מאוד לנקות אותם מכיוון שהם יכולים פגע בנגישות הווידיאו שלך ודירוג בדפי תוצאות מנועי חיפוש (SERP).
כאן’כיצד למנף את YouTube’תמלול וידאו אוטומטי:
- ממנהל הווידיאו, בחר את הסרטון שלך ולחץ עריכה> כתוביות ו- CC. בחר הוסף כתוביות או CC ובחר את השפה שלך.
- בחר לתמלול ולגדיר תזמונים, ולהקליד את התמלול בחלל המסופק. YouTube ישהה באופן אוטומטי את הסרטון בזמן שאתה מקליד כך שתוכל לתמלל במהירות ובמדויק יותר.
- ברגע שאתה מרוצה, בחר הגדר תזמונים. זה יסנכרן את התמליל שלך עם הסרטון.
באופן דומה, אתה יכול ליצור תמליל לפני כן ולהעלות אותו ל- YouTube:
- ראשית, צור תמלול עם YouTube’המלצות לעיצוב.
- עבור אל מנהל הווידיאו ב- YouTube ולחץ עריכה> כתוביות ו- CC. בחר הוסף כתוביות או CC ובחר את השפה שלך.
- בחר לעלות קובץ, בחר תמליל, ובחר את שלך .קובץ txt להעלאה.
- לאחר שהעתיק שלך הועלה, לחץ על הגדר תזמונים כדי לסנכרן את התמליל שלך עם הווידיאו וליצור כיתובים סגורים.
אתה יכול גם להוריד את קובץ התמלול בהמשך עם תזמונים כקובץ כיתוב:
- עבור לסרטון ממנו תרצה להוריד את התמליל. הקלק על ה יותר פעולות כפתור (3 נקודות אופקיות). רמז: זה’S ממוקם ליד כפתור השיתוף.
- בחר את תמליל אוֹפְּצִיָה.
- תמליל של הכיתובים הסגורים עם קודי הזמן ייצר אוטומטית.
תוכנת ASR
זיהוי דיבור אוטומטי, הידוע גם בשם ASR, הוא טכנולוגיה המרימה דיבור אנושי וממיר אותה לטקסט. אתה יכול להעלות את המדיה שלך לתוכנת ASR, והיא תעביר אוטומטית שמע לטקסט. שיטה זו עדיין מגיעה עם שגיאות רבות, אך היא’s הרבה יותר קל ומהיר לנקות תמלול לא מדויק מאשר להתחיל מאפס.
ישנן אפשרויות רבות לתוכנות שעתוק הינן בחינם או זמינות בעלות קטנה, כגון אקספרס סופר, Eurescribe ו- Dragon Nartallyspeak.
גוגל מסמכים
גוגל מציעה תכונה מדהימה המאפשרת לך להפוך את המסמכים לתוכנת שעתוק בחינם. אם אתה לא’יש לך חשבון Gmail, אתה יכול להירשם לחינם ללא תשלום. אם יש לך חשבון קיים, יש לך כבר גישה לתכונה הנקראת גוגל מסמכים; Google Docs הוא כלי לעיבוד תמלילים המאפשר ליצור מסמכי טקסט בדפדפן האינטרנט שלך. באמצעות הקלדת קולי, תעתיק קולי של גוגל יכול ליצור תמלילי טקסט מהשמע. כמו רבים מכלי התמלול הידניים האחרים, יהיו שגיאות, לכן הקפד לנקות אותו לפני השימוש בו.
בצע את הצעדים הבאים ליצירת התמליל שלך:
- באמצעות כל דפדפן שתבחר, היכנס לאתר Google Docs ו התחל מסמך חדש.
- לחץ על כלים ובחר הקלדת קול. זה יאפשר זיהוי קול.
- לחץ על מִיקרוֹפוֹן סמל משמאל להפעלה הקלדת קול. גוגל תתמלל על כל מה שנאמר למסמך המילה.
iOS/Android
דרך נוספת לתמלול תוכן שמע היא באמצעות הטלפון החכם שלך. בדומה ל- Google Docs, המיקרופון יאסוף אודיו ויעביר אותו לטקסט. תמלול בסמארטפון שלך נוטה לעבוד קצת יותר טוב מ- Google Docs מכיוון שהמיקרופון בטלפון שלך מרים פחות רעשי רקע; עם זאת, זה עדיין לא’לא השווה למיקרופון באיכות גבוהה. הקלטה בסמארטפון שלך ניצחה’t להבטיח שיעור דיוק גבוה, כך שתצטרך לנקות את התמליל הסופי.
להלן הוראות שלב אחר שלב כיצד לתמלל שמע לטקסט באמצעות הטלפון החכם שלך:
- פתח א אפליקציה לעיבוד מילים בסמארטפון שלך.
- במקלדת הסמארטפון שלך, בחר מִיקרוֹפוֹן כפתור וזה יתחיל להקליט.
- החזק את הטלפון שלך ליד המחשב שלך או מכשיר אחר ו הפעלת הסרטון. הטלפון שלך יהפוך אוטומטית את השמע לטקסט.
Pros vs. חסרונות של תמלילי DIY
יתרונות
- ידידותי יותר לתקציב
- טוב לתוכן קצר יותר
חסרונות
- זמן רב ליצור
- עבודה אינטנסיבית
- רמת דיוק נמוכה
שירותי שעתוק
אפשרות נוספת לתמלול תוכן שמע לטקסט היא להשתמש בשירות שעתוק של צד שלישי. אם אתה’מחפש תמלילים באיכות גבוהה ומדויקת, זו בהחלט הדרך ללכת!
3 משחק מדיה מציעה א תהליך שעתוק בן 3 שלבים המשתמשת הן בטכנולוגיה והן בתמלול אנושי, ומבטיחה א 99.שיעור דיוק של 6%. כאשר קובץ השמע מורכב מתוכן קשה, יש רעשי רקע, או מכיל מבטאים, קצב הדיוק יורד. בדרך כלל ASR מספקת דיוק של 60-70%, כך שהשימוש בתמלילי אנוש מבדיל 3 משחק מאפשרויות שעתוק אחרות.
הטכנולוגיה המוגנת בפטנט שלנו משתמשת ב- ASR כדי לייצר באופן אוטומטי תמלול גס, שימושי ליצירת תזמונים מדויקים גם אם המילים והדקדוק שגויות. בעזרת תוכנה קניינית, אנשי התמלול שלנו עוברים ועורכים את התמליל. כל אנשי התמלול שלנו עוברים תהליך הסמכה קפדני ויש להם תפיסה חזקה של הדקדוק האנגלי, וזה חשוב להבנת כל הניואנסים של התוכן שלך. לאחר תהליך העריכה, הקובץ שלך עובר סקירה סופית שנקראת אבטחת איכות. הקובץ שלך נבדק על ידי העורכים המובילים שלנו, המבטיחים את התמליל שלך כמעט ללא רבב.
תכונה אחת שאנו מציעים גם היא תמלול אינטראקטיבי 3 משחק. תכונה זו מאפשרת למשתמשים ליצור אינטראקציה עם הסרטון שלך על ידי חיפוש בסרטון, ניווט על ידי לחיצה על כל מילה וקריאה יחד עם השמע. תמלילים אינטראקטיביים הופכים את התוכן שלך לנגיש יותר ומשפר את חווית המשתמש.
Pros vs. חסרונות של שימוש בשירות שעתוק
יתרונות
- רמת דיוק גבוהה
- אמין יותר
- מטפל בכמויות גדולות של תוכן
- גישה לכלים ייחודיים
- גישה לצוות מיומן
חסרונות
- יקר יותר
שיטות עבודה מומלצות לתמלול
כעת, לאחר שיש לך הבנה טובה יותר של שעתוק ידני לעומת שירות שעתוק, אתה יכול לקבל החלטה מושכלת. לא משנה באיזו אפשרות תבחרו, זה’חשוב לדעת איך הפק את המרב מהתמלולים שלך.
- דקדוק ופיסוק: וודא כי אין שגיאות בתמליל שלך כך שקל לקרוא.
- זיהוי דובר: השתמש בתוויות רמקולים כדי לזהות מי מדבר, במיוחד כשיש דוברים מרובים.
- צלילים שאינם דיבור: תקשר צלילים שאינם דיבור בתמלילים. בדרך כלל אלה מסומנים עם [סוגריים מרובעים].
- מִלָה בְּמִלָה: תעתיק תוכן קרוב ככל האפשר למילולית. השאירו מילות מילוי כגון “אממ” אוֹ “כמו” אלא אם כן’כלול בכוונה באודיו.
רוצה ללמוד עוד?
פוסט זה פורסם במקור על ידי סמנתה סאולד ב- 30 באוגוסט 2018, ומאז עודכן.
תמליל נאום לטקסט באמצעות קונסולת Google Cloud
QuickStart זה מציג בפניכם את קונסולת הענן-דיבור לטקסט. ב- QuickStart זה, תיצור ותשכלל תעתיק וללמוד כיצד להשתמש בתצורה זו עם ממשק ה- API של הדיבור לטקסט עבור היישומים שלך.
כדי ללמוד כיצד לשלוח בקשות ולקבל תגובות באמצעות API של STER במקום הקונסולה, עיין בדף לפני שתתחיל.
לפני שאתה מתחיל
לפני שתוכל להתחיל להשתמש במסוף הדיבור לטקסט, עליך לאפשר את ה- API במסוף פלטפורמת Google Cloud. הצעדים למטה עוברים אתכם דרך הפעולות הבאות:
- אפשר דיבור לטקסט על פרויקט.
- וודא כי חיוב מופעל לדיבור לטקסט.
הגדר את פרויקט Google Cloud שלך
- היכנס לקונסולת Google Cloud
- עבור לדף בורר הפרויקט באפשרותך לבחור פרויקט קיים או ליצור אחד חדש. לפרטים נוספים על יצירת פרויקט, עיין בתיעוד פלטפורמת Google Cloud.
- אם תיצור פרויקט חדש, תתבקש לקשר חשבון חיוב לפרויקט זה. אם אתה משתמש בפרויקט שקיים מראש, וודא שהופעל חיוב. למד כיצד לאשר כי חיוב מופעל לפרויקט שלךהערה: עליך לאפשר לחיוב להשתמש בממשק API של דיבור לטקסט, עם זאת לא תחויב אלא אם כן תעלה על המכסה החינמית. עיין בדף התמחור לפרטים נוספים.
- לאחר שבחרת פרויקט וקשלת אותו לחשבון חיוב, אתה יכול לאפשר את ה- API של הדיבור לטקסט. לך אל חיפוש במוצרים ומשאבים סרגל בראש הדף ומקלד “נְאוּם”.
- בחר את ענן דיבור לטקסט ממשק API מרשימת התוצאות.
- כדי לנסות דיבור לטקסט מבלי לקשר אותו לפרויקט שלך, בחר נסה את ה- API הזה אוֹפְּצִיָה. כדי לאפשר ממשק API של דיבור לטקסט לשימוש בפרויקט שלך, לחץ על לְאַפשֵׁר.
צור שעתוק
השתמש במסוף Google Cloud כדי ליצור שעתוק חדש:
תצורת שמע
- פתח את ה דיבור לטקסט סקירה כללית.
- נְקִישָׁה צור שעתוק.
- אם זו הפעם הראשונה שלך באמצעות המסוף, תתבקש לבחור היכן באחסון ענן לאחסון התצורות והתמלול שלך.
- בתוך ה צור שעתוק עמוד, העלה קובץ שמע מקור. אתה יכול לבחור קובץ שכבר נשמר באחסון ענן או להעלות אחד חדש ליעד אחסון הענן שצוין.
- בחר בקובץ השמע שהועלה סוג קידוד.
- ציין את זה קצב דגימה.
- נְקִישָׁה לְהַמשִׁיך. תועברו אליהם אפשרויות שעתוק.
אפשרויות שעתוק
- בחר את קוד שפה של שמע המקור שלך. זו השפה המדוברת בהקלטה.
- בחר ב- מודל שעתוק תרצה להשתמש בקובץ. אפשרות ברירת המחדל נבחרה מראש ובאופן כללי אין צורך בשינוי, אך התאמת המודל לסוג השמע עשויה לגרום לדיוק גבוה יותר. שימו לב כי עלויות המודל משתנות.
- נְקִישָׁה לְהַמשִׁיך. תועברו אליהם הסתגלות מודל.
התאמת מודל (אופציונלי)
אם שמע המקור שלך מכיל דברים כמו מילים נדירות, שמות מתאימים או מונחים קנייניים ואתה נתקל בבעיות בהכרה, התאמת מודל יכולה לעזור.
- חשבון הפעל התאמת מודל.
- בחר משאב הסתגלות חד פעמי.
- הוסף רלוונטי ביטויים ותן להם שפר את הערך.
- בעמודה השמאלית, לחץ על שלח כדי ליצור את התמלול שלך.
סקור את התמלול שלך
תלוי בגודל קובץ האודיו שלך, תעתיק עשוי לקחת בין דקות עד שעות ליצור. לאחר שנוצר התמלול שלך, הוא מוכן לבדיקה. מיון הטבלה לפי חותמת זמן יכול לעזור לך לאתר בקלות את התעתיקים האחרונים שלך.
- הקלק על ה שֵׁם של התמלול שתרצה לבדוק.
- השווה את תַעֲתוּק טקסט לקובץ השמע
- אם ברצונך לבצע שינויים, לחץ על שימוש חוזר בתצורה. זה יביא אותך ל צור שעתוק זורם עם אותן אפשרויות שנבחרו מראש, ומאפשר לך לשנות כמה דברים, ליצור שעתוק חדש ולהשוות את התוצאות.
מה הלאה
- תרגול תמלול קבצי שמע קצרים.
- למד כיצד לאצווה קבצי שמע ארוכים לזיהוי דיבור.
- למד כיצד לתמלל אודיו סטרימינג כמו ממיקרופון.
- התחל עם הדיבור לטקסט בשפה שבחרת באמצעות ספריית לקוח לדיבור לטקסט.
- לעבוד דרך יישומי הדגימה.
- לקבלת הביצועים הטובים ביותר, דיוק וטיפים אחרים, עיין בתיעוד השיטות הטובות ביותר.
שלח משוב
למעט כפי שצוין אחרת, תוכן של דף זה מורשה תחת ייחוס Creative Commons 4.0 רישיון, ודגימות קוד מורשות תחת Apache 2.0 רישיון. לפרטים, עיין במדיניות אתר המפתחים של גוגל. Java הוא סימן מסחרי רשום של אורקל ו/או שלוחותיו.
עודכן לאחרונה 2023-05-16 UTC.