Added features, the return to spaghetti code.

middleclicker · web-flow · commit b2b6c65e81ca · 2023-05-21T15:08:42.000+08:00
Current features:
- Wordcloud for all text
- Wordcloud for first text sent in the day
- Frequency chart for different messages (top 50)
- Frequency chart for first messages of the day (top 50)
- Overall message trend
- Initiative chart (who sends the first message of the day)

Raw data:
- All word frequency
- Average hourly frequency
- Daily message total
- First message contents and frequency
- Overall messaging trend
- Total messages per hour
diff --git a/combine.py b/combine.py
@@ -14,8 +14,6 @@ def combine_csv_files(output_file):
             for row in reader:
                 if row not in unique_records:
                     unique_records.append(row)
-                else:
-                    print(row)
 
     # Write unique records to the output file
     with open(output_file, 'w', encoding='utf-8-sig', newline='') as file:
diff --git a/dataminer.py b/dataminer.py
@@ -193,7 +193,7 @@ def generateHours():
 # I will figure this out someday...
 
 
-print("----")
+#print("----")
 if not os.path.isdir("data"):
     os.mkdir("data")
 
@@ -214,7 +214,8 @@ def generateHours():
             try:
                 date_list.append(person[x])
             except KeyError as k:
-                print(k)
+                #print(k)
+                pass
         proc_msg.append(date_list)
 
     for row in proc_msg:
@@ -303,47 +304,117 @@ def generateHours():
     for row in proc_msg:
         writer.writerow(row)
 
-wordcloud = WordCloud(width=1600, height=800, font_path='HanyiSentyRubber.ttf',relative_scaling = 0.69, colormap='winter',min_font_size=10, background_color="white").generate_from_frequencies(first_msg_contents)
+with open("data/first_msg_contents.csv", 'w', encoding='utf-8-sig', newline='') as file:
+    writer = csv.writer(file)
+    headers = ["Phrase", "Frequency"]
+    writer.writerow(headers)
+    for row in first_msg_contents:
+        writer.writerow(row)
+
+with open("data/all_word_freq.csv", 'w', encoding='utf-8-sig', newline='') as file:
+    writer = csv.writer(file)
+    headers = ["Phrase", "Frequency"]
+    writer.writerow(headers)
+    for row in all_word_freq:
+        # print(row)
+        writer.writerow([row, all_word_freq[row]])
+
+
+stop = ["动画表情", "图片"] # I will implement this later
+
+wordcloud = WordCloud(width=3840, height=2160, font_path='HanyiSentyRubber.ttf', colormap='winter', background_color="white").generate_from_frequencies(first_msg_contents)
 wordcloud.to_file("data/first_msg_contents.png")
 
-wordcloud = WordCloud(width=1600, height=800, font_path='HanyiSentyRubber.ttf', colormap='winter',min_font_size=7,background_color="white").generate_from_frequencies(all_word_freq)
+wordcloud = WordCloud(width=3840, height=2160, font_path='HanyiSentyRubber.ttf', colormap='winter',background_color="white").generate_from_frequencies(all_word_freq)
 wordcloud.to_file("data/all_msg_contents.png")
 
-color_scheme = ["#003f5c","#bc5090","#ffa600", "#58508d"]
+from heapq import nlargest
+
+color_scheme = ["#fd7f6f", "#7eb0d5", "#b2e061", "#bd7ebe", "#ffb55a", "#ffee65", "#beb9db", "#fdcce5", "#8bd3c7"]
+all_word_freq_tracedata = []
+most_frequent_words = nlargest(50, all_word_freq, key=all_word_freq.get)
+word_freq = []
+for word in most_frequent_words:
+    word_freq.append(all_word_freq[word])
+
+all_word_freq_trace = go.Bar(
+    x=list(most_frequent_words),
+    y=list(word_freq),
+    marker=dict(
+        color=random.choice(color_scheme),
+        )
+)
+all_word_freq_tracedata.append(all_word_freq_trace)
+
+all_word_freq_bar = go.Figure(
+    data=all_word_freq_tracedata,
+    layout_title_text="All word frequency"
+)
+
+first_word_freq_tracedata = []
+most_frequent_words = nlargest(50, first_msg_contents, key=first_msg_contents.get)
+word_freq = []
+for word in most_frequent_words:
+    word_freq.append(first_msg_contents[word])
+
+first_word_freq_trace = go.Bar(
+    x=list(most_frequent_words),
+    y=list(word_freq),
+    marker=dict(
+        color=random.choice(color_scheme),
+        )
+)
+first_word_freq_tracedata.append(first_word_freq_trace)
+
+first_word_freq_bar = go.Figure(
+    data=first_word_freq_tracedata,
+    layout_title_text="First message word frequency"
+)
+
 total_daily_messages_tracedata = []
 for u in users:
+    c = random.choice(color_scheme)
     trace = go.Bar(
         x=list(daily_msg[u].keys()),
         y=list(daily_msg[u].values()),
         name=f'by {u}',
         marker=dict(
-            color=random.choice(color_scheme),
+            color=c,
             )
     )
+    color_scheme.remove(c)
     total_daily_messages_tracedata.append(trace)
 
 total_daily_messages = go.Figure(
     data=total_daily_messages_tracedata,
     layout_title_text="Total Daily Messages"
 )
 
+color_scheme = ["#003f5c","#58508d","#bc5090", "#ff6361", "#ffa600"]
 monthly_first_msg_tracedata = []
+#print(monthly_first_msg)
 for u in users:
+    if u not in monthly_first_msg:
+        continue
+    c = random.choice(color_scheme)
     trace = go.Bar(
         x=list(monthly_first_msg[u].keys()),
         y=list(monthly_first_msg[u].values()),
         name=f'by {u}',
         marker=dict(
-            color=random.choice(color_scheme),
+            color=c,
             )
     )
+    color_scheme.remove(c)
     monthly_first_msg_tracedata.append(trace)
 
 monthly_first_message = go.Figure(
     data=monthly_first_msg_tracedata,
     layout_title_text="Monthly First Message"
 )
 
+all_word_freq_bar.show()
+first_word_freq_bar.show()
 total_daily_messages.show()
 monthly_first_message.show()
 
diff --git a/mindful.py b/mindful.py
@@ -7,8 +7,8 @@
 import csv
 
 # Variables
-CHATNAME = "小狐狸🦊"
-SCROLLS = 500
+CHATNAME = "死亡组（逃学失败版）"
+SCROLLS = 1000
 
 # Classes
 class RawMessage:
@@ -90,15 +90,16 @@ def printMsg(message):
 for cycle in range(0, SCROLLS):
     chats = chat_win.wrapper_object().descendants()
     cur_cycle = []
-    print(f"Collected {len(all_msg)} (raw) messages")
+    print(cycle)
+    # print(f"Collected {len(all_msg)} (raw) messages")
     for message in chats:
         classname = message.friendly_class_name()
         if (classname == "ListItem"):
             time, author, msg = extract()
             cur_cycle.append(RawMessage(time, author, msg))
     all_msg.extend(cur_cycle)
     cords = chat_win.rectangle()
-    pywinauto.mouse.scroll(wheel_dist=4, coords=(cords.left+10, cords.bottom-10))
+    pywinauto.mouse.scroll(wheel_dist=5, coords=(cords.left+10, cords.bottom-10))
 
 all_msg = removeDuplicates()