คำอธิบาย
โปรแกรมอ่านตัวอักษร Optical Character Recognition ด้วย Python
ในปัจจุบันที่การจัดเก็บข้อมูลส่วนใหญ่ถูกบันทึกในรูปแบบของดิจิทัล เพื่อให้ข้อมูลเหล่านั้นไม่สูญหาย และสามารถนำไปใช้ต่อได้ง่าย ไม่ว่าจะเป็นงานในด้าน “Data Science” หรือด้าน “Machine Learning” แต่ถึงอย่างไรก็ตามยังมีข้อมูลอยู่อีกมากที่ยังอยู่ในรูปแบบของเอกสารที่เป็น กระดาษหากจะต้องมานั่งกรอกข้อมูลจากเอกสารเหล่านั้นเองที่ละตัวก็คงจะไม่ไหวเป็นแน่
What is OCR?
OCR นั้นย่อมากจาก Optical Character Recognition ซึ่งเป็นการแปลงไฟล์เอกสารที่แสกนมา ให้เป็นไฟล์ข้อความโดยอัตโนมัติ ทำให้ไม่ต้องเสียเวลาและใช้คนจำนวนมากในการพิมพ์กรอกข้อมูลจากเอกสารเหล่านั้น
What is Tesseract?
Tesseract นั้นเป็นเครื่องมือในการทำ OCR ซึ่งเป็นซอฟต์แวร์ฟรี ที่อยู่ภายใต้ใบอนุญาตของ Apache และได้รับการสนับสนุนจาก Google ตั้งแต่ปี 2006 โดย tesseract จะทำการดึงข้อความจากรูปภาพออกมาให้ในรูปแบบของ text
ดังนั้นก่อนที่เราจะใช้ tesseract ทำ OCR เอกสารนั้น เราจะต้องแปลงเอกสารเหล่านั้นให้เป็นไฟล์รูปภาพก่อน (อาจจะสแกนแล้วบันทึกเป็นรูปภาพ) จึงจะให้ tesseract ทำ OCR ให้เราได้