Textractor_test/extensions/removerepeat.cpp

#include "extension.h"

void RemoveRepeatedSentences(std::wstring& sentence, uint64_t textNumber)
{
	static std::deque<Synchronized<std::vector<std::wstring>>> cache;
	static std::mutex m;
	m.lock();
	if (textNumber + 1 > cache.size()) cache.resize(textNumber + 1);
	auto prevSentences = cache.at(textNumber).Acquire();
	m.unlock();
	auto& inserted = prevSentences->emplace_back(sentence);
	auto firstLocation = std::find(prevSentences->begin(), prevSentences->end(), sentence);
	if (&*firstLocation != &inserted)
	{
		prevSentences->erase(firstLocation);
		sentence.clear();
	}
	if (prevSentences->size() > 50) prevSentences->erase(prevSentences->begin());
}

void RemoveRepeatedChars(std::wstring& sentence)
{
	std::vector<int> repeatNumbers(sentence.size() + 1, 0);
	int repeatNumber = 1;
	wchar_t prevChar = L'\0';
	for (auto nextChar : sentence)
	{
		if (nextChar == prevChar)
		{
			repeatNumber += 1;
		}
		else
		{
			prevChar = nextChar;
			repeatNumbers.at(repeatNumber) += 1;
			repeatNumber = 1;
		}
	}
	if ((repeatNumber = std::distance(repeatNumbers.begin(), std::max_element(repeatNumbers.begin(), repeatNumbers.end()))) == 1) return;

	std::wstring newSentence;
	for (int i = 0; i < sentence.size();)
	{
		newSentence.push_back(sentence.at(i));
		for (int j = i; j <= sentence.size(); ++j)
		{
			if (j == sentence.size() || sentence.at(i) != sentence.at(j))
			{
				i += (j - i) % repeatNumber == 0 ? repeatNumber : 1;
				break;
			}
		}
	}
	sentence = newSentence;
}

void RemoveCyclicRepeats(std::wstring& sentence)
{
	if (sentence.size() > 15000) return; // this algorithm is O(N^3) so if N > 15000 it's extremely slow
	auto data = std::make_unique<wchar_t[]>(sentence.size() + 1);
	wcscpy_s(data.get(), sentence.size() + 1, sentence.c_str());
	wchar_t* dataEnd = data.get() + sentence.size();
	int skip = 0, count = 0;
	for (wchar_t* end = dataEnd; end - data.get() > skip; --end)
	{
		std::swap(*end, *dataEnd);
		int junkLength = end - data.get() - skip;
		auto junkFound = wcsstr(sentence.c_str() + skip + junkLength, data.get() + skip);
		std::swap(*end, *dataEnd);
		if (junkFound)
		{
			if (count && junkLength < min(skip / count, 4)) break;
			skip += junkLength;
			count += 1;
			end = dataEnd;
		}
	}
	if (count && skip / count >= 3) sentence = data.get() + skip;
}

bool ProcessSentence(std::wstring& sentence, SentenceInfo sentenceInfo)
{
	if (sentenceInfo["text number"] == 0) return false;
	RemoveRepeatedSentences(sentence, sentenceInfo["text number"]);
	RemoveRepeatedChars(sentence);
	RemoveCyclicRepeats(sentence);
	return true;
}

TEST(
	{
		std::wstring repeatedChars = L"aaaaaaaaaaaabbbbbbcccdddaabbbcccddd";
		RemoveRepeatedChars(repeatedChars);
		assert(repeatedChars.find(L"aaaabbcd") == 0);

		std::wstring cyclicRepeats = L"_abcde_abcdef_abcdefg_abcdefg_abcdefg_abcdefg_abcdefg";
		std::wstring buildupRepeats = L"__a_ab_abc_abcd_abcde_abcdef_abcdefg";
		RemoveCyclicRepeats(cyclicRepeats);
		RemoveCyclicRepeats(buildupRepeats);
		assert(cyclicRepeats == L"_abcdefg");
		assert(buildupRepeats == L"_abcdefg");

		std::wstring empty = L"", one = L" ", normal = L"This is a normal sentence. はい";
		ProcessSentence(empty, { SentenceInfo::DUMMY });
		ProcessSentence(one, { SentenceInfo::DUMMY });
		ProcessSentence(normal, { SentenceInfo::DUMMY });
		assert(empty == L"" && one == L" " && normal == L"This is a normal sentence. はい");
	}
);
-												fix encoding

											
										
										
											2019-01-24 03:48:09 +08:00
+								#include "extension.h"
-												update build stuff and add the starter extensions

											
										
										
											2018-08-19 12:13:19 +08:00
-												add repeated sentences filter (laxer than before)

											
										
										
											2019-06-05 03:30:48 +08:00
+								void RemoveRepeatedSentences(std::wstring& sentence, uint64_t textNumber)
 								{
-												optimize

											
										
										
											2019-06-05 11:12:45 +08:00
+									static std::deque<Synchronized<std::vector<std::wstring>>> cache;
-												add repeated sentences filter (laxer than before)

											
										
										
											2019-06-05 03:30:48 +08:00
+									static std::mutex m;
 									m.lock();
 									if (textNumber + 1 > cache.size()) cache.resize(textNumber + 1);
-												optimize

											
										
										
											2019-06-05 11:12:45 +08:00
+									auto prevSentences = cache.at(textNumber).Acquire();
-												add repeated sentences filter (laxer than before)

											
										
										
											2019-06-05 03:30:48 +08:00
+									m.unlock();
 									auto& inserted = prevSentences->emplace_back(sentence);
 									auto firstLocation = std::find(prevSentences->begin(), prevSentences->end(), sentence);
 									if (&*firstLocation != &inserted)
 									{
 										prevSentences->erase(firstLocation);
 										sentence.clear();
 									}
 									if (prevSentences->size() > 50) prevSentences->erase(prevSentences->begin());
 								}
-												clean up repetition remover. dont need to remove repeated sentences since that detection was added in textthread

											
										
										
											2018-11-07 23:43:54 +08:00
+								void RemoveRepeatedChars(std::wstring& sentence)
-												update build stuff and add the starter extensions

											
										
										
											2018-08-19 12:13:19 +08:00
+								{
-												upgrade repetition remover and add tests

											
										
										
											2018-12-29 00:57:06 +08:00
+									std::vector<int> repeatNumbers(sentence.size() + 1, 0);
 									int repeatNumber = 1;
 									wchar_t prevChar = L'\0';
 									for (auto nextChar : sentence)
-												remove some false positives from repetition detection

											
										
										
											2019-02-25 13:47:18 +08:00
+									{
 										if (nextChar == prevChar)
 										{
 											repeatNumber += 1;
 										}
-												upgrade repetition remover and add tests

											
										
										
											2018-12-29 00:57:06 +08:00
+										else
 										{
 											prevChar = nextChar;
-												upgrade repetition remover algorithm

											
										
										
											2019-02-21 11:12:26 +08:00
+											repeatNumbers.at(repeatNumber) += 1;
-												upgrade repetition remover and add tests

											
										
										
											2018-12-29 00:57:06 +08:00
+											repeatNumber = 1;
 										}
-												remove some false positives from repetition detection

											
										
										
											2019-02-25 13:47:18 +08:00
+									}
-												upgrade repetition remover and add tests

											
										
										
											2018-12-29 00:57:06 +08:00
+									if ((repeatNumber = std::distance(repeatNumbers.begin(), std::max_element(repeatNumbers.begin(), repeatNumbers.end()))) == 1) return;
-												refactor all extensions. move repetition detection to extension

											
										
										
											2018-09-01 16:24:22 +08:00
-												upgrade repetition remover and add tests

											
										
										
											2018-12-29 00:57:06 +08:00
+									std::wstring newSentence;
 									for (int i = 0; i < sentence.size();)
 									{
 										newSentence.push_back(sentence.at(i));
 										for (int j = i; j <= sentence.size(); ++j)
 										{
 											if (j == sentence.size() || sentence.at(i) != sentence.at(j))
 											{
 												i += (j - i) % repeatNumber == 0 ? repeatNumber : 1;
 												break;
 											}
 										}
 									}
-												improve repetition detection

											
										
										
											2018-09-13 14:50:03 +08:00
+									sentence = newSentence;
-												refactor all extensions. move repetition detection to extension

											
										
										
											2018-09-01 16:24:22 +08:00
+								}
-												update build stuff and add the starter extensions

											
										
										
											2018-08-19 12:13:19 +08:00
-												clean up repetition remover. dont need to remove repeated sentences since that detection was added in textthread

											
										
										
											2018-11-07 23:43:54 +08:00
+								void RemoveCyclicRepeats(std::wstring& sentence)
-												refactor all extensions. move repetition detection to extension

											
										
										
											2018-09-01 16:24:22 +08:00
+								{
-												remove some false positives from repetition detection

											
										
										
											2019-02-25 13:47:18 +08:00
+									if (sentence.size() > 15000) return; // this algorithm is O(N^3) so if N > 15000 it's extremely slow
-												upgrade repetition remover algorithm

											
										
										
											2019-02-21 11:12:26 +08:00
+									auto data = std::make_unique<wchar_t[]>(sentence.size() + 1);
 									wcscpy_s(data.get(), sentence.size() + 1, sentence.c_str());
 									wchar_t* dataEnd = data.get() + sentence.size();
 									int skip = 0, count = 0;
 									for (wchar_t* end = dataEnd; end - data.get() > skip; --end)
 									{
 										std::swap(*end, *dataEnd);
 										int junkLength = end - data.get() - skip;
 										auto junkFound = wcsstr(sentence.c_str() + skip + junkLength, data.get() + skip);
 										std::swap(*end, *dataEnd);
 										if (junkFound)
-												improve repetition remover perf

											
										
										
											2018-11-15 13:06:49 +08:00
+										{
-												remove some false positives from repetition detection

											
										
										
											2019-02-25 13:47:18 +08:00
+											if (count && junkLength < min(skip / count, 4)) break;
-												upgrade repetition remover algorithm

											
										
										
											2019-02-21 11:12:26 +08:00
+											skip += junkLength;
 											count += 1;
 											end = dataEnd;
-												improve repetition remover perf

											
										
										
											2018-11-15 13:06:49 +08:00
+										}
-												upgrade repetition remover algorithm

											
										
										
											2019-02-21 11:12:26 +08:00
+									}
 									if (count && skip / count >= 3) sentence = data.get() + skip;
-												refactor all extensions. move repetition detection to extension

											
										
										
											2018-09-01 16:24:22 +08:00
+								}
-												update build stuff and add the starter extensions

											
										
										
											2018-08-19 12:13:19 +08:00
-												refactor extensions

											
										
										
											2018-09-23 03:08:31 +08:00
+								bool ProcessSentence(std::wstring& sentence, SentenceInfo sentenceInfo)
-												refactor all extensions. move repetition detection to extension

											
										
										
											2018-09-01 16:24:22 +08:00
+								{
-												using new api

											
										
										
											2019-02-18 08:14:49 +08:00
+									if (sentenceInfo["text number"] == 0) return false;
-												add repeated sentences filter (laxer than before)

											
										
										
											2019-06-05 03:30:48 +08:00
+									RemoveRepeatedSentences(sentence, sentenceInfo["text number"]);
-												clean up repetition remover. dont need to remove repeated sentences since that detection was added in textthread

											
										
										
											2018-11-07 23:43:54 +08:00
+									RemoveRepeatedChars(sentence);
 									RemoveCyclicRepeats(sentence);
 									return true;
 								}
-												upgrade repetition remover and add tests

											
										
										
											2018-12-29 00:57:06 +08:00
 								TEST(
 									{
 										std::wstring repeatedChars = L"aaaaaaaaaaaabbbbbbcccdddaabbbcccddd";
 										RemoveRepeatedChars(repeatedChars);
 										assert(repeatedChars.find(L"aaaabbcd") == 0);
-												remove some false positives from repetition detection

											
										
										
											2019-02-25 13:47:18 +08:00
+										std::wstring cyclicRepeats = L"_abcde_abcdef_abcdefg_abcdefg_abcdefg_abcdefg_abcdefg";
 										std::wstring buildupRepeats = L"__a_ab_abc_abcd_abcde_abcdef_abcdefg";
-												upgrade repetition remover and add tests

											
										
										
											2018-12-29 00:57:06 +08:00
+										RemoveCyclicRepeats(cyclicRepeats);
-												upgrade repetition remover algorithm

											
										
										
											2019-02-21 11:12:26 +08:00
+										RemoveCyclicRepeats(buildupRepeats);
-												remove some false positives from repetition detection

											
										
										
											2019-02-25 13:47:18 +08:00
+										assert(cyclicRepeats == L"_abcdefg");
 										assert(buildupRepeats == L"_abcdefg");
-												upgrade repetition remover and add tests

											
										
										
											2018-12-29 00:57:06 +08:00
-												fix encoding

											
										
										
											2019-01-24 03:48:09 +08:00
+										std::wstring empty = L"", one = L" ", normal = L"This is a normal sentence. はい";
-												small refactor

											
										
										
											2019-02-13 12:54:33 +08:00
+										ProcessSentence(empty, { SentenceInfo::DUMMY });
 										ProcessSentence(one, { SentenceInfo::DUMMY });
 										ProcessSentence(normal, { SentenceInfo::DUMMY });
-												add replacer extension

											
										
										
											2019-01-24 05:11:14 +08:00
+										assert(empty == L"" && one == L" " && normal == L"This is a normal sentence. はい");
-												upgrade repetition remover and add tests

											
										
										
											2018-12-29 00:57:06 +08:00
+									}
 								);