From ab826fc495844512d50c2e7c28cade8ae2a073d6 Mon Sep 17 00:00:00 2001
From: zyddnys <zyddnys@outlook.com>
Date: Mon, 24 Jan 2022 18:01:34 -0500
Subject: [PATCH] update for new model

---
 text_rendering/__init__.py |  12 ++--
 translate_demo.py          |  78 ++++++++++++------------
 ui.html                    |  30 +++++++++-
 web_main.py                | 120 +++++++++++++------------------------
 4 files changed, 117 insertions(+), 123 deletions(-)

diff --git a/text_rendering/__init__.py b/text_rendering/__init__.py
index 19cddcdd..2bbdb2df 100644
--- a/text_rendering/__init__.py
+++ b/text_rendering/__init__.py
@@ -8,12 +8,12 @@
 from . import text_render
 from textblockdetector.textblock import TextBlock
 
-async def dispatch(img_canvas: np.ndarray, text_mag_ratio: np.integer, translated_sentences: List[str], textlines: List[Quadrilateral], text_regions: List[Quadrilateral], force_horizontal: bool) -> np.ndarray :
+async def dispatch(img_canvas: np.ndarray, text_mag_ratio: np.integer, translated_sentences: List[str], textlines: List[Quadrilateral], text_regions: List[Quadrilateral], text_direction_overwrite: str) -> np.ndarray :
 	for ridx, (trans_text, region) in enumerate(zip(translated_sentences, text_regions)) :
 		if not trans_text :
 			continue
-		if force_horizontal :
-			region.majority_dir = 'h'
+		if text_direction_overwrite and text_direction_overwrite in ['h', 'v'] :
+			region.majority_dir = text_direction_overwrite
 		print(region.text)
 		print(trans_text)
 		#print(region.majority_dir, region.pts)
@@ -113,13 +113,13 @@ async def dispatch(img_canvas: np.ndarray, text_mag_ratio: np.integer, translate
 	return img_canvas
 
 
-async def dispatch_ctd_render(img_canvas: np.ndarray, text_mag_ratio: np.integer, translated_sentences: List[str], text_regions: List[TextBlock], force_horizontal: bool) -> np.ndarray :
+async def dispatch_ctd_render(img_canvas: np.ndarray, text_mag_ratio: np.integer, translated_sentences: List[str], text_regions: List[TextBlock], text_direction_overwrite: str) -> np.ndarray :
 	for ridx, (trans_text, region) in enumerate(zip(translated_sentences, text_regions)) :
 		print(f'text: {region.get_text()} \n trans: {trans_text}')
 		if not trans_text :
 			continue
-		if force_horizontal :
-			majority_dir = 'h'
+		if text_direction_overwrite and text_direction_overwrite in ['h', 'v'] :
+			majority_dir = text_direction_overwrite
 		else:
 			majority_dir = 'v' if region.vertical else 'h'
 
diff --git a/translate_demo.py b/translate_demo.py
index 4ebc5e6e..3a9feb2f 100755
--- a/translate_demo.py
+++ b/translate_demo.py
@@ -1,12 +1,21 @@
 
 import asyncio
-import torch
-import einops
 import argparse
 import cv2
 import numpy as np
 import requests
+import os
 from oscrypto import util as crypto_utils
+import asyncio
+
+from detection import dispatch as dispatch_detection, load_model as load_detection_model
+from ocr import dispatch as dispatch_ocr, load_model as load_ocr_model
+from inpainting import dispatch as dispatch_inpainting, load_model as load_inpainting_model
+from text_mask import dispatch as dispatch_mask_refinement
+from textline_merge import dispatch as dispatch_textline_merge
+from text_rendering import dispatch as dispatch_rendering
+from textblockdetector import dispatch as dispatch_ctd_detection
+from textblockdetector.textblock import visualize_textblocks
 
 parser = argparse.ArgumentParser(description='Generate text bboxes given a image file')
 parser.add_argument('--mode', default='demo', type=str, help='Run demo in either single image demo mode (demo), web service mode (web) or batch translation mode (batch)')
@@ -47,32 +56,25 @@ def update_state(task_id, nonce, state) :
 def get_task(nonce) :
 	try :
 		rjson = requests.get(f'http://127.0.0.1:5003/task-internal?nonce={nonce}').json()
-		if 'task_id' in rjson :
-			return rjson['task_id']
+		if 'task_id' in rjson and 'data' in rjson :
+			return rjson['task_id'], rjson['data']
 		else :
-			return None
+			return None, None
 	except :
-		return None
-
-from detection import dispatch as dispatch_detection, load_model as load_detection_model
-from ocr import dispatch as dispatch_ocr, load_model as load_ocr_model
-from inpainting import dispatch as dispatch_inpainting, load_model as load_inpainting_model
-from text_mask import dispatch as dispatch_mask_refinement
-from textline_merge import dispatch as dispatch_textline_merge
-from text_rendering import dispatch as dispatch_rendering
-from textblockdetector import dispatch as dispatch_ctd_detection
-from textblockdetector.textblock import visualize_textblocks
+		return None, None
 
 async def infer(
 	img,
 	mode,
 	nonce,
+	options = None,
 	task_id = '',
 	dst_image_name = ''
 	) :
+	options = options or {}
 	img_detect_size = args.size
-	if task_id and len(task_id) != 32 :
-		size_ind = task_id[-1]
+	if 'size' in options :
+		size_ind = options['size']
 		if size_ind == 'S' :
 			img_detect_size = 1024
 		elif size_ind == 'M' :
@@ -81,20 +83,29 @@ async def infer(
 			img_detect_size = 2048
 		elif size_ind == 'X' :
 			img_detect_size = 2560
-		print(f' -- Detection size {size_ind}, resolution {img_detect_size}')
+	print(f' -- Detection resolution {img_detect_size}')
+	detector = 'ctd' if args.use_ctd else 'default'
+	if 'detector' in options :
+		detector = options['detector']
+	print(f' -- Detector using {detector}')
+	render_text_direction_overwrite = 'h' if args.force_horizontal else ''
+	if 'direction' in options :
+		if options['direction'] == 'horizontal' :
+			render_text_direction_overwrite = 'h'
+	print(f' -- Render text direction is {render_text_direction_overwrite or "auto"}')
 	img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
 
 	if mode == 'web' and task_id :
 		update_state(task_id, nonce, 'detection')
 	
-	if args.use_ctd:
+	if detector == 'ctd' :
 		mask, final_mask, textlines = await dispatch_ctd_detection(img, args.use_cuda)
 		text_regions = textlines
 	else:
 		textlines, mask = await dispatch_detection(img, img_detect_size, args.use_cuda, args, verbose = args.verbose)
 
 	if args.verbose :
-		if args.use_ctd:
+		if detector == 'ctd' :
 			bboxes = visualize_textblocks(cv2.cvtColor(img,cv2.COLOR_BGR2RGB), textlines)
 			cv2.imwrite(f'result/{task_id}/bboxes.png', bboxes)
 			cv2.imwrite(f'result/{task_id}/mask_raw.png', mask)
@@ -110,7 +121,7 @@ async def infer(
 		update_state(task_id, nonce, 'ocr')
 	textlines = await dispatch_ocr(img, textlines, args.use_cuda, args)
 
-	if not args.use_ctd:
+	if detector == 'default' :
 		text_regions, textlines = await dispatch_textline_merge(textlines, img.shape[1], img.shape[0], verbose = args.verbose)
 		if args.verbose :
 			img_bbox = np.copy(img)
@@ -155,7 +166,7 @@ async def infer(
 		print(' -- Translating')
 		# try:
 		from translators import dispatch as run_translation
-		if args.use_ctd:
+		if detector == 'ctd' :
 			translated_sentences = await run_translation(args.translator, 'auto', args.target_lang, [r.get_text() for r in text_regions])
 		else:
 			translated_sentences = await run_translation(args.translator, 'auto', args.target_lang, [r.text for r in text_regions])
@@ -177,11 +188,11 @@ async def infer(
 		if mode == 'web' and task_id :
 			update_state(task_id, nonce, 'render')
 		# render translated texts
-		if args.use_ctd:
+		if detector == 'ctd' :
 			from text_rendering import dispatch_ctd_render
-			output = await dispatch_ctd_render(np.copy(img_inpainted), args.text_mag_ratio, translated_sentences, text_regions, args.force_horizontal)
+			output = await dispatch_ctd_render(np.copy(img_inpainted), args.text_mag_ratio, translated_sentences, text_regions, render_text_direction_overwrite)
 		else:
-			output = await dispatch_rendering(np.copy(img_inpainted), args.text_mag_ratio, translated_sentences, textlines, text_regions, args.force_horizontal)
+			output = await dispatch_rendering(np.copy(img_inpainted), args.text_mag_ratio, translated_sentences, textlines, text_regions, render_text_direction_overwrite)
 		
 		print(' -- Saving results')
 		if dst_image_name :
@@ -192,10 +203,6 @@ async def infer(
 	if mode == 'web' and task_id :
 		update_state(task_id, nonce, 'finished')
 
-from PIL import Image
-import time
-import asyncio
-
 def replace_prefix(s: str, old: str, new: str) :
 	if s.startswith(old) :
 		s = new + s[len(old):]
@@ -203,17 +210,14 @@ def replace_prefix(s: str, old: str, new: str) :
 
 async def main(mode = 'demo') :
 	print(' -- Loading models')
-	import os
 	os.makedirs('result', exist_ok = True)
 	text_render.prepare_renderer()
 	with open('alphabet-all-v5.txt', 'r', encoding = 'utf-8') as fp :
 		dictionary = [s[:-1] for s in fp.readlines()]
 	load_ocr_model(dictionary, args.use_cuda)
-	if args.use_ctd:
-		from textblockdetector import load_model as load_ctd_model
-		load_ctd_model(args.use_cuda)
-	else:
-		load_detection_model(args.use_cuda)
+	from textblockdetector import load_model as load_ctd_model
+	load_ctd_model(args.use_cuda)
+	load_detection_model(args.use_cuda)
 	load_inpainting_model(args.use_cuda)
 
 	if mode == 'demo' :
@@ -232,12 +236,12 @@ async def main(mode = 'demo') :
 		import sys
 		subprocess.Popen([sys.executable, 'web_main.py', nonce, '5003'])
 		while True :
-			task_id = get_task(nonce)
+			task_id, options = get_task(nonce)
 			if task_id :
 				print(f' -- Processing task {task_id}')
 				img = cv2.imread(f'result/{task_id}/input.png')
 				try :
-					infer_task = asyncio.create_task(infer(img, mode, nonce, task_id))
+					infer_task = asyncio.create_task(infer(img, mode, nonce, options, task_id))
 					asyncio.gather(infer_task)
 				except :
 					import traceback
diff --git a/ui.html b/ui.html
index 21cddf3f..02a5b53c 100644
--- a/ui.html
+++ b/ui.html
@@ -112,6 +112,8 @@
 				event.preventDefault();
 				var detect_res = document.querySelector('input[name="detect-size"]:checked').value;
 				var translator = document.querySelector('input[name="translator-sel"]:checked').value;
+				var dir = document.querySelector('input[name="dir-sel"]:checked').value;
+				var detector = document.querySelector('input[name="detector-sel"]:checked').value;
 				var tgt_lang = document.getElementById("target-language").value;
 				console.log(document.getElementById("target-language"));
 				var files = document.getElementById("image-file").files;
@@ -135,6 +137,8 @@
 				formData.append('size', detect_res);
 				formData.append('translator', translator);
 				formData.append('tgt_lang', tgt_lang);
+				formData.append('dir', dir);
+				formData.append('detector', detector);
 				XHR.open('POST', BASE_URI + "submit", true);
 				XHR.onload = async function () {
 					if (XHR.status == 200) {
@@ -185,7 +189,7 @@ <h3>Image/Manga translator</h3>
 			<div>
 				<form id="image-form" action="#" onsubmit="upload_image(event);" method="post" enctype="multipart/form-data">
 					<div style="padding-bottom: 0.5rem;">
-						<span>Detection resolution: </span>
+						<span>Detection resolution </span>
 						<label>
 							<input type="radio" id="detect-res-S" name="detect-size" value="S">
 							<span>1024px</span>
@@ -204,7 +208,18 @@ <h3>Image/Manga translator</h3>
 						</label>
 					</div>
 					<div style="padding-bottom: 0.5rem;">
-						<span>Translator: </span>
+						<span>Text detector </span>
+						<label>
+							<input type="radio" id="detector-default" name="detector-sel" value="auto" checked>
+							<span>Default</span>
+						</label>
+						<label>
+							<input type="radio" id="detector-ctd"  name="detector-sel" value="ctd">
+							<span>CTD</span>
+						</label>
+					</div>
+					<div style="padding-bottom: 0.5rem;">
+						<span>Translator </span>
 						<label>
 							<input type="radio" id="translator-youdao" name="translator-sel" value="youdao" checked>
 							<span>Youdao</span>
@@ -222,6 +237,17 @@ <h3>Image/Manga translator</h3>
 							<span>DeepL</span>
 						</label>
 					</div>
+					<div style="padding-bottom: 0.5rem;">
+						<span>Render text direction </span>
+						<label>
+							<input type="radio" id="dir-auto" name="dir-sel" value="auto" checked>
+							<span>Auto</span>
+						</label>
+						<label>
+							<input type="radio" id="dir-horizontal"  name="dir-sel" value="horizontal">
+							<span>Horizontal</span>
+						</label>
+					</div>
 					<div style="padding-bottom: 0.5rem;">
 						<span>Target language:</span>
 						<select name="tgt_lang" id="target-language">
diff --git a/web_main.py b/web_main.py
index aa153f8e..bd50927c 100644
--- a/web_main.py
+++ b/web_main.py
@@ -16,6 +16,9 @@
 
 from translators import VALID_LANGUAGES, dispatch as run_translation
 
+VALID_DETECTORS = set(['default', 'ctd'])
+VALID_DIRECTIONS = set(['auto', 'horizontal'])
+
 NONCE = ''
 QUEUE = deque()
 TASK_DATA = {}
@@ -42,27 +45,36 @@ def convert_img(img) :
 
 
 @routes.get("/")
-async def index_async(request):
+async def index_async(request) :
 	with open('ui.html', 'r') as fp :
 		return web.Response(text=fp.read(), content_type='text/html')
 
 @routes.get("/result/{taskid}")
-async def result_async(request):
+async def result_async(request) :
         im = Image.open("result/" + request.match_info.get('taskid') + "/final.png")
         stream = BytesIO()
         im.save(stream, "PNG")
         return web.Response(body=stream.getvalue(), content_type='image/png')
 
-@routes.post("/run")
-async def run_async(request):
+async def handle_post(request) :
 	data = await request.post()
 	size = ''
 	selected_translator = 'youdao'
 	target_language = 'CHS'
+	detector = 'default'
+	direction = 'auto'
 	if 'tgt_lang' in data :
 		target_language = data['tgt_lang'].upper()
 		if target_language not in VALID_LANGUAGES :
 			target_language = 'CHS'
+	if 'detector' in data :
+		detector = data['detector'].lower()
+		if detector not in VALID_DETECTORS :
+			detector = 'default'
+	if 'dir' in data :
+		direction = data['dir'].lower()
+		if direction not in VALID_DIRECTIONS :
+			direction = 'auto'
 	if 'translator' in data :
 		selected_translator = data['translator'].lower()
 		if selected_translator not in ['youdao', 'baidu', 'google', 'deepl', 'null'] :
@@ -88,11 +100,16 @@ async def run_async(request):
 		img = convert_img(Image.open(io.BytesIO(content)))
 	except :
 		return web.json_response({'status' : 'failed'})
-	task_id = crypto_utils.rand_bytes(16).hex() + size
+	return img, size, selected_translator, target_language, detector, direction
+
+@routes.post("/run")
+async def run_async(request) :
+	img, size, selected_translator, target_language, detector, direction = await handle_post(request)
+	task_id = crypto_utils.rand_bytes(16).hex()
 	os.makedirs(f'result/{task_id}/', exist_ok=True)
 	img.save(f'result/{task_id}/input.png')
 	QUEUE.append(task_id)
-	TASK_DATA[task_id] = {'translator': selected_translator, 'tgt': target_language}
+	TASK_DATA[task_id] = {'size': size, 'translator': selected_translator, 'tgt': target_language, 'detector': detector, 'direction': direction}
 	TASK_STATES[task_id] = 'pending'
 	while True :
 		await asyncio.sleep(0.05)
@@ -103,12 +120,13 @@ async def run_async(request):
 
 
 @routes.get("/task-internal")
-async def get_task_async(request):
+async def get_task_async(request) :
 	global NONCE
 	if request.rel_url.query['nonce'] == NONCE :
 		if len(QUEUE) > 0 :
-			item = QUEUE.popleft()
-			return web.json_response({'task_id': item})
+			task_id = QUEUE.popleft()
+			data = TASK_DATA[task_id]
+			return web.json_response({'task_id': task_id, 'data': data})
 		else :
 			return web.json_response({})
 	else :
@@ -134,7 +152,7 @@ async def manual_trans_task(task_id, texts) :
 		print('manual translation complete')
 
 @routes.post("/post-translation-result")
-async def post_translation_result(request):
+async def post_translation_result(request) :
 	rqjson = (await request.json())
 	if 'trans_result' in rqjson and 'task_id' in rqjson :
 		task_id = rqjson['task_id']
@@ -156,7 +174,7 @@ async def post_translation_result(request):
 	return web.json_response({})
 
 @routes.post("/request-translation-internal")
-async def request_translation_internal(request):
+async def request_translation_internal(request) :
 	global NONCE
 	rqjson = (await request.json())
 	if rqjson['nonce'] == NONCE :
@@ -171,7 +189,7 @@ async def request_translation_internal(request):
 	return web.json_response({})
 
 @routes.post("/get-translation-result-internal")
-async def get_translation_internal(request):
+async def get_translation_internal(request) :
 	global NONCE
 	rqjson = (await request.json())
 	if rqjson['nonce'] == NONCE :
@@ -182,7 +200,7 @@ async def get_translation_internal(request):
 	return web.json_response({})
 
 @routes.get("/task-state")
-async def get_task_state_async(request):
+async def get_task_state_async(request) :
 	task_id = request.query.get('taskid')
 	if task_id and task_id in TASK_STATES :
 		try :
@@ -197,7 +215,7 @@ async def get_task_state_async(request):
 	return web.json_response({'state': 'error'})
 
 @routes.post("/task-update-internal")
-async def post_task_update_async(request):
+async def post_task_update_async(request) :
 	global NONCE
 	rqjson = (await request.json())
 	if rqjson['nonce'] == NONCE :
@@ -208,78 +226,24 @@ async def post_task_update_async(request):
 	return web.json_response({})
 
 @routes.post("/submit")
-async def submit_async(request):
-	data = await request.post()
-	size = ''
-	selected_translator = 'youdao'
-	target_language = 'CHS'
-	if 'tgt_lang' in data :
-		target_language = data['tgt_lang'].upper()
-		if target_language not in VALID_LANGUAGES :
-			target_language = 'CHS'
-	if 'translator' in data :
-		selected_translator = data['translator'].lower()
-		if selected_translator not in ['youdao', 'baidu', 'google', 'deepl', 'null'] :
-			selected_translator = 'youdao'
-	if 'size' in data :
-		size = data['size'].upper()
-		if size not in ['S', 'M', 'L', 'X'] :
-			size = ''
-	if 'file' in data :
-		file_field = data['file']
-		content = file_field.file.read()
-	elif 'url' in data :
-		from aiohttp import ClientSession
-		async with ClientSession() as session:
-			async with session.get(data['url']) as resp:
-				if resp.status == 200 :
-					content = await resp.read()
-				else :
-					return web.json_response({'status' : 'failed'})
-	else :
-		return web.json_response({'status' : 'failed'})
-	try :
-		img = convert_img(Image.open(io.BytesIO(content)))
-	except :
-		return web.json_response({'status' : 'failed'})
-	task_id = crypto_utils.rand_bytes(16).hex() + size
+async def submit_async(request) :
+	img, size, selected_translator, target_language, detector, direction = await handle_post(request)
+	task_id = crypto_utils.rand_bytes(16).hex()
 	os.makedirs(f'result/{task_id}/', exist_ok=True)
 	img.save(f'result/{task_id}/input.png')
 	QUEUE.append(task_id)
-	TASK_DATA[task_id] = {'translator': selected_translator, 'tgt': target_language}
+	TASK_DATA[task_id] = {'size': size, 'translator': selected_translator, 'tgt': target_language, 'detector': detector, 'direction': direction}
 	TASK_STATES[task_id] = 'pending'
 	return web.json_response({'task_id' : task_id, 'status': 'successful'})
 
 @routes.post("/manual-translate")
-async def manual_translate_async(request):
-	data = await request.post()
-	size = ''
-	if 'size' in data :
-		size = data['size'].upper()
-		if size not in ['S', 'M', 'L', 'X'] :
-			size = ''
-	if 'file' in data :
-		file_field = data['file']
-		content = file_field.file.read()
-	elif 'url' in data :
-		from aiohttp import ClientSession
-		async with ClientSession() as session:
-			async with session.get(data['url']) as resp:
-				if resp.status == 200 :
-					content = await resp.read()
-				else :
-					return web.json_response({'status' : 'failed'})
-	else :
-		return web.json_response({'status' : 'failed'})
-	try :
-		img = convert_img(Image.open(io.BytesIO(content)))
-	except :
-		return web.json_response({'status' : 'failed'})
-	task_id = crypto_utils.rand_bytes(16).hex() + size
+async def manual_translate_async(request) :
+	img, size, selected_translator, target_language, detector, direction = await handle_post(request)
+	task_id = crypto_utils.rand_bytes(16).hex()
 	os.makedirs(f'result/{task_id}/', exist_ok=True)
 	img.save(f'result/{task_id}/input.png')
 	QUEUE.append(task_id)
-	TASK_DATA[task_id] = {'manual': True}
+	TASK_DATA[task_id] = {'size': size, 'manual': True, 'detector': detector, 'direction': direction}
 	TASK_STATES[task_id] = 'pending'
 	while True :
 		await asyncio.sleep(0.1)
@@ -294,7 +258,7 @@ async def manual_translate_async(request):
 
 app.add_routes(routes)
 
-async def start_async_app():
+async def start_async_app() :
 	# schedule web server to run
 	global NONCE
 	NONCE = sys.argv[1]
@@ -311,6 +275,6 @@ async def start_async_app():
 
 try:
 	loop.run_forever()
-except KeyboardInterrupt as err:
+except KeyboardInterrupt as err :
 	loop.run_until_complete(runner.cleanup())