DokumenGambarMediaAlat PDF

OCR PDF Online — PDF Pindai ke Teks yang Dapat Dicari

Konversi PDF yang dipindai menjadi teks yang dapat dicari dan dipilih menggunakan OCR. Gratis, tanpa pendaftaran.

Seret PDF Anda di sini

.pdf · hingga 2 GB

GratisTanpa pendaftaranTanpa watermarkOCR termasuk

OCR PDF: buat dokumen pindaian apa pun dapat dicari

Dokumen yang dapat dicari

Konversi file yang dipindai menjadi PDF di mana Anda dapat mencari kata, memilih teks, dan menyalin kutipan.

Arsip historis

Digitalisasi dan buat dokumentasi historis, berkas kertas, dan arsip kontrak fisik menjadi dapat diakses.

Aksesibilitas

Dokumen dengan lapisan OCR dapat diakses oleh pembaca layar dan memenuhi regulasi aksesibilitas digital.

Multi-bahasa

Dukungan lebih dari 100 bahasa termasuk Inggris, Spanyol, Arab, Tionghoa, Rusia, dan lainnya dengan Tesseract 5.

Tiga langkah, tanpa kerumitan

1

Unggah PDF pindaian Anda

Seret atau pilih PDF yang dipindai. OCR bekerja pada PDF yang berupa gambar, yaitu dokumen yang dipindai secara fisik, foto dokumen, atau faks yang didigitalkan.

2

Pengenalan OCR

Mesin OCR menganalisis setiap halaman sebagai gambar, mengidentifikasi karakter, dan menghasilkan lapisan teks tak terlihat yang dilapisi pada gambar dokumen asli.

3

Unduh PDF yang dapat dicari

PDF yang dihasilkan terlihat identik dengan aslinya, tetapi kini Anda dapat mencari teks di dalamnya, memilih dan menyalin teks, serta informasinya dapat diakses oleh pengindeks dan pembaca layar.

Ada pertanyaan?

OCR atau Optical Character Recognition adalah teknologi yang mengonversi gambar teks menjadi teks yang dienkode secara digital. Prosesnya memiliki tiga tahap utama: pra-pemrosesan gambar berupa koreksi kemiringan, penghapusan noise, dan binarisasi; segmentasi berupa identifikasi baris teks, kata, dan karakter individual; serta pengenalan berupa pembandingan setiap karakter terhadap model referensi untuk menentukan karakter yang paling mungkin. Mesin OCR modern berbasis jaringan saraf rekuren LSTM melampaui metode berbasis template klasik dalam hal akurasi, terutama pada dokumen dengan tipografi tidak beraturan, teks miring, atau teks yang terdegradasi.

Tesseract 5 yang merupakan mesin OCR open-source yang paling banyak digunakan dan awalnya dikembangkan oleh HP, diakuisisi oleh Google, dan diterbitkan di bawah lisensi Apache 2.0, mencapai tingkat akurasi 98-99% pada dokumen bahasa Inggris yang dicetak dan dipindai pada 300 DPI dengan kualitas baik. Dokumen dengan tipografi standar seperti Times New Roman, Arial, dan Calibri memiliki tingkat akurasi yang sangat tinggi. Dokumen dengan tipografi dekoratif, teks sangat kecil di bawah 8 poin, atau degradasi akibat usia memiliki tingkat akurasi yang lebih rendah.

OCR ke PDF yang dapat dicari juga disebut PDF dengan lapisan OCR atau PDF dengan teks disematkan, mempertahankan gambar dokumen asli dan menambahkan lapisan teks tak terlihat yang membuat dokumen dapat dicari. Tampilan visual identik dengan pindaian asli. OCR ke teks mengekstrak hanya teks yang dikenali tanpa mempertahankan gambar asli. Untuk dokumen di mana gambar asli memiliki nilai hukum seperti kontrak yang ditandatangani, dokumen notarial, dan faktur yang dicap, PDF yang dapat dicari adalah opsi yang tepat. Untuk ekstraksi data atau analisis teks, ekstraksi langsung ke TXT lebih efisien.

Ya. Tesseract 5 mendukung lebih dari 100 bahasa termasuk Inggris, Spanyol, Prancis, Jerman, Portugis, Italia, Rusia, Tionghoa Sederhana dan Tradisional, Jepang, Arab, Hindi, dan banyak lagi. Untuk dokumen yang mencampur bahasa dalam satu halaman, mode pengenalan multi-bahasa dapat diaktifkan yang meningkatkan akurasi dibandingkan dengan menetapkan satu bahasa saja.

Resolusi minimum yang direkomendasikan untuk OCR berkualitas adalah 300 DPI. Pada resolusi ini, sebagian besar tipografi cetak cukup terdefinisi agar mesin OCR dapat mengenalinya dengan benar. Pada 150 DPI, akurasi menurun secara nyata, terutama dengan teks bodi kecil berukuran 10-12 poin. Pada 600 DPI, kualitas sangat baik tetapi ukuran file pindaian jauh lebih besar tanpa peningkatan akurasi OCR yang proporsional untuk teks normal. Untuk dokumen dengan teks mikro seperti catatan kaki dalam dokumen hukum, pemindaian pada 400-600 DPI mungkin diperlukan.

PDF campuran yang memiliki halaman dengan teks asli dan halaman yang dipindai adalah hal umum, misalnya kontrak di mana halaman pertama berupa teks yang dihasilkan secara digital dan halaman terakhir berupa tanda tangan yang dipindai. Mesin OCR modern dapat secara otomatis mendeteksi halaman mana yang memiliki teks asli dan mana yang berupa gambar, sehingga OCR hanya diterapkan jika diperlukan. Ini menghindari pemrosesan ulang yang tidak perlu pada halaman yang sudah memiliki teks yang dapat dibaca.

OCR PDF: cara membuat dokumen pindaian dapat dicari dengan teknologi pengenalan optik

OCR atau Optical Character Recognition yang diterapkan pada PDF yang dipindai adalah salah satu teknologi paling transformatif dalam manajemen dokumen. Sebelum OCR, dokumen fisik yang dipindai ke PDF adalah gambar yang diam: Anda tidak bisa mencari kata, tidak bisa memilih teks, tidak bisa membacanya dengan pembaca layar. OCR mengubah gambar halaman ini menjadi dokumen dengan teks asli, sekaligus mempertahankan tampilan visual asli. Sejarah OCR sudah panjang: sistem pengenalan karakter otomatis pertama untuk surat pos berasal dari tahun 1950-an. Produk PC komersial pertama tiba pada 1980-an dengan OmniPage dan FineReader. Revolusi datang dengan mesin berbasis machine learning: Tesseract yang awalnya dikembangkan oleh HP Research Laboratories antara 1985 dan 1995, diakuisisi oleh Google pada 2006 dan diterbitkan sebagai open-source. Versi 4 pada tahun 2018 memperkenalkan arsitektur LSTM yang secara dramatis meningkatkan akurasi. Versi 5 pada November 2021 menyempurnakan model-model ini untuk mencapai tingkat akurasi 98-99% dalam kondisi optimal.

Penerapan OCR pada PDF yang dipindai memiliki dua mode output dengan kasus penggunaan yang berbeda. Yang pertama adalah PDF yang dapat dicari yang juga dikenal sebagai PDF/OCR: PDF yang dihasilkan mempertahankan gambar dokumen asli dan menambahkan lapisan teks tak terlihat yang memungkinkan pencarian, pemilihan teks, dan aksesibilitas, tanpa mengubah tampilan visual. Mode ini tepat untuk dokumen dengan nilai hukum atau arsip di mana gambar asli harus dipertahankan secara utuh seperti kontrak yang ditandatangani, dokumen notarial, faktur berkop surat, dan rekam medis. Mode kedua adalah ekstraksi teks murni dalam format TXT: hanya teks yang dikenali yang diekstrak dengan kehilangan format visual. Mode ini lebih cocok untuk analisis teks, menyuplai sistem pencarian, atau memproses konten dengan alat pemrosesan data. Standar PDF/A-3 yang diterbitkan pada 2012 memungkinkan penyematan teks OCR dalam PDF sehingga dokumen sekaligus menjadi arsip visual yang setia dan teks yang dapat diakses, dan merupakan format yang direkomendasikan untuk arsip institusional.

Akurasi OCR bergantung pada beberapa faktor yang dapat dikendalikan oleh pengguna. Resolusi pemindai adalah yang paling penting: 300 DPI menghasilkan hasil optimal untuk sebagian besar tipografi berukuran 10-12 poin. Warna latar belakang dokumen juga penting: OCR bekerja paling baik pada latar belakang putih dengan teks hitam yang kontras tinggi. Dokumen dengan latar belakang berwarna, watermark, cap yang saling tumpang tindih, atau teks yang dicetak di atas gambar latar belakang memiliki akurasi yang lebih rendah. Kualitas kertas asli dan usia dokumen juga berpengaruh: dokumen tahun 1970-an yang dicetak pada kertas menguning dengan tinta yang memudar akan memiliki akurasi lebih rendah daripada dokumen yang dicetak pada tahun 2020. Untuk dokumen historis yang terdegradasi, teknik pra-pemrosesan gambar seperti peningkatan kontras, penghapusan noda, dan koreksi kemiringan secara signifikan meningkatkan akurasi OCR. Convertir.ai menerapkan pra-pemrosesan otomatis sebelum OCR untuk memaksimalkan akurasi pada sebagian besar dokumen pindaian yang umum.