OCR PDF Online — PDF Pindai ke Teks yang Dapat Dicari

Konversi PDF yang dipindai menjadi teks yang dapat dicari dan dipilih menggunakan OCR. Gratis, tanpa pendaftaran.

Seret PDF Anda di sini

.pdf · hingga 2 GB

GratisTanpa pendaftaranTanpa watermarkOCR termasuk

Untuk apa OCR digunakan

OCR PDF: buat dokumen pindaian apa pun dapat dicari

Dokumen yang dapat dicari

Konversi file yang dipindai menjadi PDF di mana Anda dapat mencari kata, memilih teks, dan menyalin kutipan.

Arsip historis

Digitalisasi dan buat dokumentasi historis, berkas kertas, dan arsip kontrak fisik menjadi dapat diakses.

Aksesibilitas

Dokumen dengan lapisan OCR dapat diakses oleh pembaca layar dan memenuhi regulasi aksesibilitas digital.

Multi-bahasa

Dukungan lebih dari 100 bahasa termasuk Inggris, Spanyol, Arab, Tionghoa, Rusia, dan lainnya dengan Tesseract 5.

Cara kerjanya

Tiga langkah, tanpa kerumitan

Unggah PDF pindaian Anda

Seret atau pilih PDF yang dipindai. OCR bekerja pada PDF yang berupa gambar, yaitu dokumen yang dipindai secara fisik, foto dokumen, atau faks yang didigitalkan.

Pengenalan OCR

Mesin OCR menganalisis setiap halaman sebagai gambar, mengidentifikasi karakter, dan menghasilkan lapisan teks tak terlihat yang dilapisi pada gambar dokumen asli.

Unduh PDF yang dapat dicari

PDF yang dihasilkan terlihat identik dengan aslinya, tetapi kini Anda dapat mencari teks di dalamnya, memilih dan menyalin teks, serta informasinya dapat diakses oleh pengindeks dan pembaca layar.

FAQ

Ada pertanyaan?

Apa itu OCR dan bagaimana cara kerjanya?

OCR atau Optical Character Recognition adalah teknologi yang mengonversi gambar teks menjadi teks yang dienkode secara digital. Prosesnya memiliki tiga tahap utama: pra-pemrosesan gambar berupa koreksi kemiringan, penghapusan noise, dan binarisasi; segmentasi berupa identifikasi baris teks, kata, dan karakter individual; serta pengenalan berupa pembandingan setiap karakter terhadap model referensi untuk menentukan karakter yang paling mungkin. Mesin OCR modern berbasis jaringan saraf rekuren LSTM melampaui metode berbasis template klasik dalam hal akurasi, terutama pada dokumen dengan tipografi tidak beraturan, teks miring, atau teks yang terdegradasi.

Akurasi apa yang dicapai OCR pada dokumen berbahasa Inggris?

Tesseract 5 yang merupakan mesin OCR open-source yang paling banyak digunakan dan awalnya dikembangkan oleh HP, diakuisisi oleh Google, dan diterbitkan di bawah lisensi Apache 2.0, mencapai tingkat akurasi 98-99% pada dokumen bahasa Inggris yang dicetak dan dipindai pada 300 DPI dengan kualitas baik. Dokumen dengan tipografi standar seperti Times New Roman, Arial, dan Calibri memiliki tingkat akurasi yang sangat tinggi. Dokumen dengan tipografi dekoratif, teks sangat kecil di bawah 8 poin, atau degradasi akibat usia memiliki tingkat akurasi yang lebih rendah.

Apa perbedaan antara OCR ke PDF yang dapat dicari dan OCR ke teks?

OCR ke PDF yang dapat dicari juga disebut PDF dengan lapisan OCR atau PDF dengan teks disematkan, mempertahankan gambar dokumen asli dan menambahkan lapisan teks tak terlihat yang membuat dokumen dapat dicari. Tampilan visual identik dengan pindaian asli. OCR ke teks mengekstrak hanya teks yang dikenali tanpa mempertahankan gambar asli. Untuk dokumen di mana gambar asli memiliki nilai hukum seperti kontrak yang ditandatangani, dokumen notarial, dan faktur yang dicap, PDF yang dapat dicari adalah opsi yang tepat. Untuk ekstraksi data atau analisis teks, ekstraksi langsung ke TXT lebih efisien.

Apakah berfungsi dengan dokumen dalam beberapa bahasa?

Ya. Tesseract 5 mendukung lebih dari 100 bahasa termasuk Inggris, Spanyol, Prancis, Jerman, Portugis, Italia, Rusia, Tionghoa Sederhana dan Tradisional, Jepang, Arab, Hindi, dan banyak lagi. Untuk dokumen yang mencampur bahasa dalam satu halaman, mode pengenalan multi-bahasa dapat diaktifkan yang meningkatkan akurasi dibandingkan dengan menetapkan satu bahasa saja.

Resolusi pemindai berapa yang diperlukan untuk akurasi OCR yang baik?

Resolusi minimum yang direkomendasikan untuk OCR berkualitas adalah 300 DPI. Pada resolusi ini, sebagian besar tipografi cetak cukup terdefinisi agar mesin OCR dapat mengenalinya dengan benar. Pada 150 DPI, akurasi menurun secara nyata, terutama dengan teks bodi kecil berukuran 10-12 poin. Pada 600 DPI, kualitas sangat baik tetapi ukuran file pindaian jauh lebih besar tanpa peningkatan akurasi OCR yang proporsional untuk teks normal. Untuk dokumen dengan teks mikro seperti catatan kaki dalam dokumen hukum, pemindaian pada 400-600 DPI mungkin diperlukan.

Bisakah OCR diterapkan pada PDF yang sudah memiliki sebagian teks?

PDF campuran yang memiliki halaman dengan teks asli dan halaman yang dipindai adalah hal umum, misalnya kontrak di mana halaman pertama berupa teks yang dihasilkan secara digital dan halaman terakhir berupa tanda tangan yang dipindai. Mesin OCR modern dapat secara otomatis mendeteksi halaman mana yang memiliki teks asli dan mana yang berupa gambar, sehingga OCR hanya diterapkan jika diperlukan. Ini menghindari pemrosesan ulang yang tidak perlu pada halaman yang sudah memiliki teks yang dapat dibaca.