{ "metadata": { "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.9.2" }, "orig_nbformat": 2, "kernelspec": { "name": "python392jvsc74a57bd0c58096af5c43523aa9ce7107a4c87aa7fb5b8470e79980c25b315d1bf23c97f7", "display_name": "Python 3.9.2 64-bit ('MasterThesis': conda)" } }, "nbformat": 4, "nbformat_minor": 2, "cells": [ { "source": [ "# 03 - Topic Modelling\n", "This notebook serves as an initial test for the implementation of a topic model" ], "cell_type": "markdown", "metadata": {} }, { "cell_type": "code", "execution_count": 38, "metadata": {}, "outputs": [], "source": [ "import matplotlib.pyplot as plt, pandas as pd\n", "import logging\n", "#logging.basicConfig(filename='logs/gensim.log', format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)\n", "\n", "import sys\n", "sys.path.append('../scripts/')\n", "import valueconflicts as vc\n", "\n", "import warnings\n", "warnings.filterwarnings('ignore')\n", "warnings.simplefilter('ignore')" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "# Load data \n", "participation_processes, contributions_gdf = vc.DataLoader.load_data()" ] }, { "source": [ "## Gensim\n", "This section handles topic modelling with Gensim, from another preprocessing until the very end." ], "cell_type": "markdown", "metadata": {} }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [], "source": [ "contributions_gdf[\"Contributiontext_de_preprocessed\"] = contributions_gdf[\"Contributiontext_de_preprocessed\"].dropna()" ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "tags": [] }, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ " 0\n", "count 13906.000000\n", "mean 5.145045\n", "std 41.921241\n", "min 1.000000\n", "25% 1.000000\n", "50% 1.000000\n", "75% 3.000000\n", "max 4452.000000" ], "text/html": "
\n\n\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
0
count13906.000000
mean5.145045
std41.921241
min1.000000
25%1.000000
50%1.000000
75%3.000000
max4452.000000
\n
" }, "metadata": {}, "execution_count": 5 } ], "source": [ "list = [str(contribution).split(\" \") for contribution in contributions_gdf[\"Contributiontext_de_preprocessed\"].to_list()]\n", "\n", "# Count word frequencies\n", "\n", "frequency = defaultdict(int)\n", "for text in list:\n", " for token in text:\n", " frequency[token] += 1\n", "pd.DataFrame(frequency, index=[0]).transpose().describe()" ] }, { "cell_type": "code", "execution_count": 56, "metadata": {}, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "sportbereiches 1\n", "ladeeinkaufssituation 1\n", "helmuthhübenergangs 1\n", "ansprechen 1\n", "verhältnisse 1\n", " ... \n", "autos 423\n", "mehr 551\n", "straße 639\n", "sollen 701\n", " 4456\n", "Name: 0, Length: 13905, dtype: int64" ] }, "metadata": {}, "execution_count": 56 } ], "source": [ "pd.DataFrame(frequency, index=[0]).transpose()[0].sort_values()" ] }, { "cell_type": "code", "execution_count": 29, "metadata": { "tags": [] }, "outputs": [], "source": [ "processed_corpus = [[token for token in text if frequency[token] > 1] for text in list]" ] }, { "cell_type": "code", "execution_count": 103, "metadata": {}, "outputs": [ { "output_type": "stream", "name": "stderr", "text": [ "/Users/ricoherzog/opt/anaconda3/envs/MasterThesis/lib/python3.9/site-packages/ipykernel/ipkernel.py:283: DeprecationWarning: `should_run_async` will not call `transform_cell` automatically in the future. Please pass the result to `transformed_cell` argument and any exception that happen during thetransform in `preprocessing_exc_tuple` in IPython 7.17 and above.\n", " and should_run_async(code)\n", "2021-04-06 20:42:48,910 : INFO : adding document #0 to Dictionary(0 unique tokens: [])\n", "2021-04-06 20:42:49,009 : INFO : built Dictionary(5306 unique tokens: ['altona', 'bahnhof', 'bushaltestelle', 'direkt', 'fahrradweg']...) from 2223 documents (total 62950 corpus positions)\n", "2021-04-06 20:42:49,010 : INFO : Dictionary lifecycle event {'msg': \"built Dictionary(5306 unique tokens: ['altona', 'bahnhof', 'bushaltestelle', 'direkt', 'fahrradweg']...) from 2223 documents (total 62950 corpus positions)\", 'datetime': '2021-04-06T20:42:49.010539', 'gensim': '4.0.1', 'python': '3.9.2 | packaged by conda-forge | (default, Feb 21 2021, 05:02:20) \\n[Clang 11.0.1 ]', 'platform': 'macOS-11.2.3-x86_64-i386-64bit', 'event': 'created'}\n" ] } ], "source": [ "dictionary = corpora.Dictionary(processed_corpus)\n", "#dictionary.filter_extremes(no_below=5, no_above=0.9)\n", "corpus = [dictionary.doc2bow(text) for text in processed_corpus]" ] }, { "cell_type": "code", "execution_count": 104, "metadata": { "tags": [] }, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "Number of unique tokens: 5306\n", "Number of documents: 2223\n", "/Users/ricoherzog/opt/anaconda3/envs/MasterThesis/lib/python3.9/site-packages/ipykernel/ipkernel.py:283: DeprecationWarning: `should_run_async` will not call `transform_cell` automatically in the future. Please pass the result to `transformed_cell` argument and any exception that happen during thetransform in `preprocessing_exc_tuple` in IPython 7.17 and above.\n", " and should_run_async(code)\n" ] } ], "source": [ "print('Number of unique tokens: %d' % len(dictionary))\n", "print('Number of documents: %d' % len(corpus))" ] }, { "cell_type": "code", "execution_count": 107, "metadata": { "tags": [ "outputPrepend" ] }, "outputs": [ { "output_type": "stream", "name": "stderr", "text": [ "llen\" + 0.013*\"radfahrer\" + 0.011*\"kommen\" + 0.010*\"autos\" + 0.009*\"platz\" + 0.009*\"fahren\" + 0.008*\"radweg\"\n", "2021-04-06 20:47:29,693 : INFO : topic #11 (0.044): 0.089*\"\" + 0.008*\"sollen\" + 0.007*\"straße\" + 0.007*\"geben\" + 0.006*\"mehr\" + 0.005*\"radfahrer\" + 0.005*\"platz\" + 0.005*\"groß\" + 0.005*\"gut\" + 0.005*\"autos\"\n", "2021-04-06 20:47:29,694 : INFO : topic #7 (0.064): 0.156*\"\" + 0.010*\"straße\" + 0.008*\"sollen\" + 0.006*\"mehr\" + 0.005*\"geben\" + 0.004*\"nutzen\" + 0.004*\"wenig\" + 0.004*\"gut\" + 0.004*\"groß\" + 0.004*\"schon\"\n", "2021-04-06 20:47:29,695 : INFO : topic diff=0.033510, rho=0.333333\n", "2021-04-06 20:47:30,747 : INFO : -7.679 per-word bound, 204.9 perplexity estimate based on a held-out corpus of 2223 documents with 62950 words\n", "2021-04-06 20:47:30,748 : INFO : PROGRESS: pass 8, at document #2223/2223\n", "2021-04-06 20:47:31,436 : INFO : optimized alpha [0.033762887, 0.034287374, 0.03987954, 0.03791832, 0.035321526, 0.033766426, 0.035752267, 0.06340683, 0.032537088, 0.0320524, 0.035993077, 0.04291131, 0.041848496, 0.031086672, 0.03453794]\n", "2021-04-06 20:47:31,447 : INFO : topic #13 (0.031): 0.010*\"fußgänger\" + 0.010*\"autos\" + 0.010*\"\" + 0.008*\"sollen\" + 0.006*\"radverkehr\" + 0.006*\"geben\" + 0.006*\"ganz\" + 0.006*\"radfahrer\" + 0.006*\"kommen\" + 0.005*\"fahrbahn\"\n", "2021-04-06 20:47:31,448 : INFO : topic #9 (0.032): 0.043*\"\" + 0.019*\"straße\" + 0.010*\"mehr\" + 0.009*\"sollen\" + 0.009*\"fahren\" + 0.008*\"autos\" + 0.008*\"gut\" + 0.008*\"deutlich\" + 0.005*\"fußgänger\" + 0.005*\"schon\"\n", "2021-04-06 20:47:31,450 : INFO : topic #12 (0.042): 0.018*\"fußgänger\" + 0.016*\"\" + 0.013*\"straße\" + 0.013*\"radfahrer\" + 0.013*\"sollen\" + 0.011*\"kommen\" + 0.010*\"autos\" + 0.009*\"platz\" + 0.009*\"fahren\" + 0.008*\"radweg\"\n", "2021-04-06 20:47:31,451 : INFO : topic #11 (0.043): 0.089*\"\" + 0.008*\"sollen\" + 0.007*\"straße\" + 0.007*\"geben\" + 0.006*\"mehr\" + 0.005*\"radfahrer\" + 0.005*\"platz\" + 0.005*\"groß\" + 0.005*\"gut\" + 0.004*\"autos\"\n", "2021-04-06 20:47:31,452 : INFO : topic #7 (0.063): 0.157*\"\" + 0.010*\"straße\" + 0.008*\"sollen\" + 0.006*\"mehr\" + 0.005*\"geben\" + 0.004*\"nutzen\" + 0.004*\"wenig\" + 0.004*\"gut\" + 0.004*\"groß\" + 0.004*\"schon\"\n", "2021-04-06 20:47:31,452 : INFO : topic diff=0.031645, rho=0.316228\n", "2021-04-06 20:47:32,389 : INFO : -7.674 per-word bound, 204.2 perplexity estimate based on a held-out corpus of 2223 documents with 62950 words\n", "2021-04-06 20:47:32,389 : INFO : PROGRESS: pass 9, at document #2223/2223\n", "2021-04-06 20:47:33,089 : INFO : optimized alpha [0.032732204, 0.033271037, 0.039049584, 0.036923207, 0.034325875, 0.032726925, 0.034739334, 0.06318025, 0.031527724, 0.030996049, 0.035046764, 0.041943703, 0.041365635, 0.030025436, 0.03350463]\n", "2021-04-06 20:47:33,099 : INFO : topic #13 (0.030): 0.010*\"autos\" + 0.010*\"fußgänger\" + 0.009*\"\" + 0.008*\"sollen\" + 0.006*\"radverkehr\" + 0.006*\"geben\" + 0.006*\"ganz\" + 0.006*\"radfahrer\" + 0.006*\"kommen\" + 0.005*\"fahrbahn\"\n", "2021-04-06 20:47:33,100 : INFO : topic #9 (0.031): 0.043*\"\" + 0.018*\"straße\" + 0.010*\"mehr\" + 0.009*\"sollen\" + 0.009*\"fahren\" + 0.008*\"autos\" + 0.008*\"gut\" + 0.008*\"deutlich\" + 0.005*\"fußgänger\" + 0.005*\"schon\"\n", "2021-04-06 20:47:33,101 : INFO : topic #12 (0.041): 0.019*\"fußgänger\" + 0.016*\"\" + 0.014*\"straße\" + 0.014*\"radfahrer\" + 0.013*\"sollen\" + 0.011*\"kommen\" + 0.010*\"autos\" + 0.009*\"platz\" + 0.009*\"fahren\" + 0.009*\"radweg\"\n", "2021-04-06 20:47:33,102 : INFO : topic #11 (0.042): 0.089*\"\" + 0.008*\"sollen\" + 0.007*\"geben\" + 0.007*\"straße\" + 0.006*\"mehr\" + 0.005*\"groß\" + 0.005*\"platz\" + 0.005*\"radfahrer\" + 0.004*\"gut\" + 0.004*\"kommen\"\n", "2021-04-06 20:47:33,103 : INFO : topic #7 (0.063): 0.158*\"\" + 0.010*\"straße\" + 0.008*\"sollen\" + 0.006*\"mehr\" + 0.005*\"geben\" + 0.004*\"nutzen\" + 0.004*\"wenig\" + 0.004*\"gut\" + 0.004*\"groß\" + 0.004*\"schon\"\n", "2021-04-06 20:47:33,104 : INFO : topic diff=0.029637, rho=0.301511\n", "2021-04-06 20:47:34,102 : INFO : -7.671 per-word bound, 203.8 perplexity estimate based on a held-out corpus of 2223 documents with 62950 words\n", "2021-04-06 20:47:34,103 : INFO : PROGRESS: pass 10, at document #2223/2223\n", "2021-04-06 20:47:34,761 : INFO : optimized alpha [0.031814646, 0.03237465, 0.03828663, 0.036049485, 0.033437856, 0.03179304, 0.033826936, 0.0629242, 0.030625058, 0.030053167, 0.03419595, 0.041064736, 0.04097565, 0.02907491, 0.032570597]\n", "2021-04-06 20:47:34,770 : INFO : topic #13 (0.029): 0.010*\"autos\" + 0.010*\"fußgänger\" + 0.009*\"\" + 0.008*\"sollen\" + 0.006*\"radverkehr\" + 0.006*\"geben\" + 0.006*\"ganz\" + 0.006*\"kommen\" + 0.006*\"radfahrer\" + 0.005*\"fahrbahn\"\n", "2021-04-06 20:47:34,771 : INFO : topic #9 (0.030): 0.043*\"\" + 0.018*\"straße\" + 0.010*\"mehr\" + 0.009*\"sollen\" + 0.009*\"fahren\" + 0.008*\"autos\" + 0.008*\"gut\" + 0.008*\"deutlich\" + 0.005*\"fußgänger\" + 0.005*\"schon\"\n", "2021-04-06 20:47:34,773 : INFO : topic #12 (0.041): 0.019*\"fußgänger\" + 0.016*\"\" + 0.014*\"straße\" + 0.014*\"radfahrer\" + 0.013*\"sollen\" + 0.011*\"kommen\" + 0.011*\"autos\" + 0.009*\"platz\" + 0.009*\"radweg\" + 0.009*\"fahren\"\n", "2021-04-06 20:47:34,774 : INFO : topic #11 (0.041): 0.090*\"\" + 0.008*\"sollen\" + 0.007*\"geben\" + 0.007*\"straße\" + 0.006*\"mehr\" + 0.005*\"groß\" + 0.005*\"platz\" + 0.004*\"gut\" + 0.004*\"radfahrer\" + 0.004*\"kommen\"\n", "2021-04-06 20:47:34,776 : INFO : topic #7 (0.063): 0.159*\"\" + 0.010*\"straße\" + 0.008*\"sollen\" + 0.006*\"mehr\" + 0.005*\"geben\" + 0.004*\"nutzen\" + 0.004*\"wenig\" + 0.004*\"gut\" + 0.004*\"groß\" + 0.004*\"tempo\"\n", "2021-04-06 20:47:34,776 : INFO : topic diff=0.027635, rho=0.288675\n", "2021-04-06 20:47:35,783 : INFO : -7.668 per-word bound, 203.4 perplexity estimate based on a held-out corpus of 2223 documents with 62950 words\n", "2021-04-06 20:47:35,784 : INFO : PROGRESS: pass 11, at document #2223/2223\n", "2021-04-06 20:47:36,509 : INFO : optimized alpha [0.030987231, 0.03157396, 0.03759631, 0.035253827, 0.03263131, 0.030947492, 0.0329989, 0.06268057, 0.029807504, 0.029204778, 0.033425413, 0.04026113, 0.040654536, 0.028216816, 0.03172429]\n", "2021-04-06 20:47:36,519 : INFO : topic #13 (0.028): 0.010*\"autos\" + 0.010*\"fußgänger\" + 0.009*\"\" + 0.008*\"sollen\" + 0.006*\"radverkehr\" + 0.006*\"geben\" + 0.006*\"ganz\" + 0.006*\"kommen\" + 0.006*\"radfahrer\" + 0.005*\"fahrbahn\"\n", "2021-04-06 20:47:36,520 : INFO : topic #9 (0.029): 0.042*\"\" + 0.018*\"straße\" + 0.010*\"mehr\" + 0.009*\"sollen\" + 0.009*\"fahren\" + 0.008*\"deutlich\" + 0.008*\"gut\" + 0.008*\"autos\" + 0.005*\"schon\" + 0.005*\"fußgänger\"\n", "2021-04-06 20:47:36,522 : INFO : topic #11 (0.040): 0.090*\"\" + 0.008*\"sollen\" + 0.007*\"geben\" + 0.006*\"straße\" + 0.006*\"mehr\" + 0.005*\"groß\" + 0.005*\"platz\" + 0.004*\"gut\" + 0.004*\"radfahrer\" + 0.004*\"kommen\"\n", "2021-04-06 20:47:36,523 : INFO : topic #12 (0.041): 0.019*\"fußgänger\" + 0.016*\"\" + 0.014*\"straße\" + 0.014*\"radfahrer\" + 0.013*\"sollen\" + 0.011*\"kommen\" + 0.011*\"autos\" + 0.010*\"platz\" + 0.009*\"radweg\" + 0.009*\"fahren\"\n", "2021-04-06 20:47:36,526 : INFO : topic #7 (0.063): 0.160*\"\" + 0.010*\"straße\" + 0.008*\"sollen\" + 0.006*\"mehr\" + 0.005*\"geben\" + 0.004*\"nutzen\" + 0.004*\"wenig\" + 0.004*\"gut\" + 0.004*\"groß\" + 0.004*\"tempo\"\n", "2021-04-06 20:47:36,527 : INFO : topic diff=0.025701, rho=0.277350\n", "2021-04-06 20:47:37,531 : INFO : -7.666 per-word bound, 203.2 perplexity estimate based on a held-out corpus of 2223 documents with 62950 words\n", "2021-04-06 20:47:37,532 : INFO : PROGRESS: pass 12, at document #2223/2223\n", "2021-04-06 20:47:38,261 : INFO : optimized alpha [0.0302327, 0.030846696, 0.036978267, 0.034529734, 0.031902224, 0.030177122, 0.032259323, 0.062459826, 0.029073317, 0.02843638, 0.032711383, 0.03952751, 0.040424164, 0.027436946, 0.03094879]\n", "2021-04-06 20:47:38,271 : INFO : topic #13 (0.027): 0.010*\"autos\" + 0.010*\"fußgänger\" + 0.009*\"\" + 0.008*\"sollen\" + 0.006*\"radverkehr\" + 0.006*\"geben\" + 0.006*\"ganz\" + 0.006*\"kommen\" + 0.005*\"radfahrer\" + 0.005*\"weit\"\n", "2021-04-06 20:47:38,272 : INFO : topic #9 (0.028): 0.042*\"\" + 0.018*\"straße\" + 0.010*\"mehr\" + 0.009*\"sollen\" + 0.009*\"fahren\" + 0.008*\"deutlich\" + 0.008*\"gut\" + 0.008*\"autos\" + 0.005*\"schon\" + 0.005*\"fußgänger\"\n", "2021-04-06 20:47:38,273 : INFO : topic #11 (0.040): 0.090*\"\" + 0.008*\"sollen\" + 0.007*\"geben\" + 0.006*\"straße\" + 0.006*\"mehr\" + 0.005*\"groß\" + 0.005*\"platz\" + 0.004*\"gut\" + 0.004*\"kommen\" + 0.004*\"direkt\"\n", "2021-04-06 20:47:38,274 : INFO : topic #12 (0.040): 0.020*\"fußgänger\" + 0.016*\"\" + 0.015*\"straße\" + 0.015*\"radfahrer\" + 0.013*\"sollen\" + 0.011*\"autos\" + 0.011*\"kommen\" + 0.010*\"platz\" + 0.010*\"radweg\" + 0.009*\"fahren\"\n", "2021-04-06 20:47:38,275 : INFO : topic #7 (0.062): 0.161*\"\" + 0.010*\"straße\" + 0.008*\"sollen\" + 0.006*\"mehr\" + 0.005*\"geben\" + 0.004*\"nutzen\" + 0.004*\"wenig\" + 0.004*\"gut\" + 0.004*\"tempo\" + 0.004*\"groß\"\n", "2021-04-06 20:47:38,276 : INFO : topic diff=0.024130, rho=0.267261\n", "2021-04-06 20:47:39,195 : INFO : -7.665 per-word bound, 202.9 perplexity estimate based on a held-out corpus of 2223 documents with 62950 words\n", "2021-04-06 20:47:39,195 : INFO : PROGRESS: pass 13, at document #2223/2223\n", "2021-04-06 20:47:39,928 : INFO : optimized alpha [0.02954041, 0.030178322, 0.036417782, 0.03386691, 0.031231726, 0.029470786, 0.03157159, 0.062237646, 0.028410146, 0.027732711, 0.03205376, 0.038854603, 0.040238544, 0.026723629, 0.030245058]\n", "2021-04-06 20:47:39,938 : INFO : topic #13 (0.027): 0.010*\"autos\" + 0.010*\"fußgänger\" + 0.009*\"\" + 0.008*\"sollen\" + 0.007*\"radverkehr\" + 0.006*\"geben\" + 0.006*\"ganz\" + 0.006*\"kommen\" + 0.005*\"radfahrer\" + 0.005*\"weit\"\n", "2021-04-06 20:47:39,939 : INFO : topic #9 (0.028): 0.042*\"\" + 0.018*\"straße\" + 0.010*\"mehr\" + 0.009*\"sollen\" + 0.009*\"fahren\" + 0.008*\"gut\" + 0.008*\"deutlich\" + 0.008*\"autos\" + 0.005*\"schon\" + 0.005*\"markieren\"\n", "2021-04-06 20:47:39,940 : INFO : topic #11 (0.039): 0.090*\"\" + 0.008*\"sollen\" + 0.007*\"geben\" + 0.006*\"straße\" + 0.006*\"mehr\" + 0.005*\"groß\" + 0.005*\"platz\" + 0.004*\"gut\" + 0.004*\"direkt\" + 0.004*\"kommen\"\n", "2021-04-06 20:47:39,942 : INFO : topic #12 (0.040): 0.020*\"fußgänger\" + 0.016*\"\" + 0.015*\"radfahrer\" + 0.015*\"straße\" + 0.013*\"sollen\" + 0.011*\"autos\" + 0.011*\"kommen\" + 0.010*\"radweg\" + 0.010*\"platz\" + 0.009*\"fahren\"\n", "2021-04-06 20:47:39,943 : INFO : topic #7 (0.062): 0.161*\"\" + 0.010*\"straße\" + 0.008*\"sollen\" + 0.006*\"mehr\" + 0.005*\"geben\" + 0.004*\"nutzen\" + 0.004*\"wenig\" + 0.004*\"gut\" + 0.004*\"tempo\" + 0.004*\"groß\"\n", "2021-04-06 20:47:39,944 : INFO : topic diff=0.022632, rho=0.258199\n", "2021-04-06 20:47:40,921 : INFO : -7.664 per-word bound, 202.8 perplexity estimate based on a held-out corpus of 2223 documents with 62950 words\n", "2021-04-06 20:47:40,922 : INFO : PROGRESS: pass 14, at document #2223/2223\n", "2021-04-06 20:47:41,544 : INFO : optimized alpha [0.028908981, 0.029564619, 0.035911523, 0.033256847, 0.030619621, 0.02882004, 0.030929357, 0.062008988, 0.027801637, 0.027084937, 0.031449217, 0.038234666, 0.04010804, 0.026067767, 0.029596325]\n", "2021-04-06 20:47:41,554 : INFO : topic #13 (0.026): 0.010*\"autos\" + 0.009*\"fußgänger\" + 0.008*\"sollen\" + 0.008*\"\" + 0.007*\"radverkehr\" + 0.006*\"geben\" + 0.006*\"ganz\" + 0.005*\"kommen\" + 0.005*\"radfahrer\" + 0.005*\"weit\"\n", "2021-04-06 20:47:41,555 : INFO : topic #9 (0.027): 0.042*\"\" + 0.018*\"straße\" + 0.010*\"mehr\" + 0.009*\"sollen\" + 0.009*\"fahren\" + 0.008*\"gut\" + 0.008*\"deutlich\" + 0.007*\"autos\" + 0.005*\"schon\" + 0.005*\"markieren\"\n", "2021-04-06 20:47:41,556 : INFO : topic #11 (0.038): 0.090*\"\" + 0.008*\"sollen\" + 0.007*\"geben\" + 0.006*\"mehr\" + 0.006*\"straße\" + 0.005*\"groß\" + 0.005*\"platz\" + 0.004*\"gut\" + 0.004*\"direkt\" + 0.004*\"kommen\"\n", "2021-04-06 20:47:41,557 : INFO : topic #12 (0.040): 0.020*\"fußgänger\" + 0.016*\"\" + 0.015*\"radfahrer\" + 0.015*\"straße\" + 0.013*\"sollen\" + 0.011*\"autos\" + 0.011*\"kommen\" + 0.010*\"radweg\" + 0.010*\"platz\" + 0.009*\"fahren\"\n", "2021-04-06 20:47:41,558 : INFO : topic #7 (0.062): 0.162*\"\" + 0.010*\"straße\" + 0.008*\"sollen\" + 0.006*\"mehr\" + 0.005*\"geben\" + 0.004*\"nutzen\" + 0.004*\"wenig\" + 0.004*\"gut\" + 0.004*\"tempo\" + 0.004*\"groß\"\n", "2021-04-06 20:47:41,559 : INFO : topic diff=0.021424, rho=0.250000\n", "2021-04-06 20:47:42,567 : INFO : -7.662 per-word bound, 202.6 perplexity estimate based on a held-out corpus of 2223 documents with 62950 words\n", "2021-04-06 20:47:42,568 : INFO : PROGRESS: pass 15, at document #2223/2223\n", "2021-04-06 20:47:43,214 : INFO : optimized alpha [0.02832749, 0.028999012, 0.035445385, 0.032697666, 0.030051474, 0.02821798, 0.030344637, 0.061806034, 0.027237747, 0.026486035, 0.030884262, 0.037665915, 0.040031362, 0.025464807, 0.028992265]\n", "2021-04-06 20:47:43,224 : INFO : topic #13 (0.025): 0.010*\"autos\" + 0.009*\"fußgänger\" + 0.008*\"sollen\" + 0.008*\"\" + 0.007*\"radverkehr\" + 0.006*\"geben\" + 0.006*\"ganz\" + 0.005*\"weit\" + 0.005*\"kommen\" + 0.005*\"radfahrer\"\n", "2021-04-06 20:47:43,225 : INFO : topic #9 (0.026): 0.042*\"\" + 0.018*\"straße\" + 0.010*\"mehr\" + 0.009*\"sollen\" + 0.008*\"fahren\" + 0.008*\"gut\" + 0.008*\"deutlich\" + 0.007*\"autos\" + 0.005*\"markieren\" + 0.005*\"schon\"\n", "2021-04-06 20:47:43,226 : INFO : topic #11 (0.038): 0.090*\"\" + 0.008*\"sollen\" + 0.007*\"geben\" + 0.006*\"mehr\" + 0.006*\"straße\" + 0.005*\"groß\" + 0.005*\"platz\" + 0.004*\"gut\" + 0.004*\"direkt\" + 0.004*\"kommen\"\n", "2021-04-06 20:47:43,230 : INFO : topic #12 (0.040): 0.021*\"fußgänger\" + 0.016*\"\" + 0.016*\"radfahrer\" + 0.016*\"straße\" + 0.013*\"sollen\" + 0.011*\"autos\" + 0.011*\"kommen\" + 0.010*\"radweg\" + 0.010*\"platz\" + 0.009*\"fahren\"\n", "2021-04-06 20:47:43,230 : INFO : topic #7 (0.062): 0.163*\"\" + 0.010*\"straße\" + 0.008*\"sollen\" + 0.006*\"mehr\" + 0.005*\"geben\" + 0.004*\"nutzen\" + 0.004*\"wenig\" + 0.004*\"gut\" + 0.004*\"tempo\" + 0.004*\"parkplätze\"\n", "2021-04-06 20:47:43,231 : INFO : topic diff=0.020336, rho=0.242536\n", "2021-04-06 20:47:44,154 : INFO : -7.661 per-word bound, 202.4 perplexity estimate based on a held-out corpus of 2223 documents with 62950 words\n", "2021-04-06 20:47:44,155 : INFO : PROGRESS: pass 16, at document #2223/2223\n", "2021-04-06 20:47:44,834 : INFO : optimized alpha [0.027789703, 0.028475447, 0.035014577, 0.03217961, 0.029522182, 0.027658602, 0.029796949, 0.061591696, 0.026718948, 0.025929827, 0.030357625, 0.037138205, 0.040003736, 0.024908165, 0.028433952]\n", "2021-04-06 20:47:44,844 : INFO : topic #13 (0.025): 0.010*\"autos\" + 0.009*\"fußgänger\" + 0.008*\"sollen\" + 0.007*\"\" + 0.007*\"radverkehr\" + 0.006*\"geben\" + 0.006*\"ganz\" + 0.006*\"weit\" + 0.005*\"kommen\" + 0.005*\"radfahrer\"\n", "2021-04-06 20:47:44,845 : INFO : topic #9 (0.026): 0.042*\"\" + 0.018*\"straße\" + 0.010*\"mehr\" + 0.009*\"sollen\" + 0.008*\"fahren\" + 0.008*\"deutlich\" + 0.008*\"gut\" + 0.007*\"autos\" + 0.005*\"markieren\" + 0.005*\"schon\"\n", "2021-04-06 20:47:44,846 : INFO : topic #11 (0.037): 0.090*\"\" + 0.008*\"sollen\" + 0.007*\"geben\" + 0.006*\"mehr\" + 0.006*\"straße\" + 0.005*\"groß\" + 0.005*\"platz\" + 0.004*\"gut\" + 0.004*\"direkt\" + 0.004*\"kommen\"\n", "2021-04-06 20:47:44,847 : INFO : topic #12 (0.040): 0.021*\"fußgänger\" + 0.016*\"\" + 0.016*\"radfahrer\" + 0.016*\"straße\" + 0.013*\"sollen\" + 0.012*\"autos\" + 0.011*\"kommen\" + 0.010*\"radweg\" + 0.010*\"fahren\" + 0.009*\"platz\"\n", "2021-04-06 20:47:44,848 : INFO : topic #7 (0.062): 0.163*\"\" + 0.010*\"straße\" + 0.008*\"sollen\" + 0.006*\"mehr\" + 0.005*\"geben\" + 0.004*\"nutzen\" + 0.004*\"wenig\" + 0.004*\"gut\" + 0.004*\"tempo\" + 0.004*\"parkplätze\"\n", "2021-04-06 20:47:44,849 : INFO : topic diff=0.019311, rho=0.235702\n", "2021-04-06 20:47:45,795 : INFO : -7.660 per-word bound, 202.2 perplexity estimate based on a held-out corpus of 2223 documents with 62950 words\n", "2021-04-06 20:47:45,795 : INFO : PROGRESS: pass 17, at document #2223/2223\n", "2021-04-06 20:47:46,416 : INFO : optimized alpha [0.02728474, 0.027986126, 0.03461973, 0.031698007, 0.02902749, 0.027142946, 0.029285494, 0.061403986, 0.026237283, 0.02541161, 0.02985879, 0.03663897, 0.040016048, 0.024389796, 0.02791021]\n", "2021-04-06 20:47:46,426 : INFO : topic #13 (0.024): 0.010*\"autos\" + 0.009*\"fußgänger\" + 0.008*\"sollen\" + 0.007*\"\" + 0.007*\"radverkehr\" + 0.006*\"geben\" + 0.006*\"ganz\" + 0.006*\"weit\" + 0.005*\"kommen\" + 0.005*\"radfahrer\"\n", "2021-04-06 20:47:46,427 : INFO : topic #9 (0.025): 0.042*\"\" + 0.018*\"straße\" + 0.010*\"mehr\" + 0.009*\"sollen\" + 0.008*\"fahren\" + 0.008*\"deutlich\" + 0.008*\"gut\" + 0.007*\"autos\" + 0.005*\"markieren\" + 0.005*\"schon\"\n", "2021-04-06 20:47:46,428 : INFO : topic #11 (0.037): 0.090*\"\" + 0.008*\"sollen\" + 0.007*\"geben\" + 0.006*\"mehr\" + 0.006*\"straße\" + 0.005*\"groß\" + 0.005*\"platz\" + 0.004*\"gut\" + 0.004*\"direkt\" + 0.004*\"kommen\"\n", "2021-04-06 20:47:46,428 : INFO : topic #12 (0.040): 0.021*\"fußgänger\" + 0.017*\"radfahrer\" + 0.016*\"\" + 0.016*\"straße\" + 0.012*\"sollen\" + 0.012*\"autos\" + 0.012*\"kommen\" + 0.010*\"radweg\" + 0.010*\"fahren\" + 0.009*\"platz\"\n", "2021-04-06 20:47:46,429 : INFO : topic #7 (0.061): 0.164*\"\" + 0.010*\"straße\" + 0.008*\"sollen\" + 0.006*\"mehr\" + 0.005*\"geben\" + 0.004*\"nutzen\" + 0.004*\"wenig\" + 0.004*\"gut\" + 0.004*\"tempo\" + 0.004*\"parkplätze\"\n", "2021-04-06 20:47:46,430 : INFO : topic diff=0.018368, rho=0.229416\n", "2021-04-06 20:47:47,332 : INFO : -7.659 per-word bound, 202.1 perplexity estimate based on a held-out corpus of 2223 documents with 62950 words\n", "2021-04-06 20:47:47,333 : INFO : PROGRESS: pass 18, at document #2223/2223\n", "2021-04-06 20:47:47,945 : INFO : optimized alpha [0.026814647, 0.027527351, 0.034245767, 0.03124199, 0.028566647, 0.026660364, 0.028809361, 0.06118697, 0.025785755, 0.024927076, 0.029390823, 0.036177084, 0.04006521, 0.023907796, 0.027425759]\n", "2021-04-06 20:47:47,955 : INFO : topic #13 (0.024): 0.010*\"autos\" + 0.009*\"fußgänger\" + 0.008*\"sollen\" + 0.007*\"\" + 0.007*\"radverkehr\" + 0.006*\"geben\" + 0.006*\"ganz\" + 0.006*\"weit\" + 0.005*\"kommen\" + 0.005*\"radfahrer\"\n", "2021-04-06 20:47:47,956 : INFO : topic #9 (0.025): 0.042*\"\" + 0.018*\"straße\" + 0.010*\"mehr\" + 0.009*\"sollen\" + 0.008*\"fahren\" + 0.008*\"deutlich\" + 0.008*\"gut\" + 0.007*\"autos\" + 0.005*\"markieren\" + 0.005*\"schon\"\n", "2021-04-06 20:47:47,957 : INFO : topic #11 (0.036): 0.090*\"\" + 0.008*\"sollen\" + 0.007*\"geben\" + 0.006*\"mehr\" + 0.006*\"straße\" + 0.005*\"groß\" + 0.005*\"platz\" + 0.004*\"direkt\" + 0.004*\"gut\" + 0.004*\"kommen\"\n", "2021-04-06 20:47:47,958 : INFO : topic #12 (0.040): 0.021*\"fußgänger\" + 0.017*\"radfahrer\" + 0.017*\"\" + 0.016*\"straße\" + 0.012*\"sollen\" + 0.012*\"autos\" + 0.012*\"kommen\" + 0.011*\"radweg\" + 0.010*\"fahren\" + 0.009*\"platz\"\n", "2021-04-06 20:47:47,959 : INFO : topic #7 (0.061): 0.165*\"\" + 0.010*\"straße\" + 0.008*\"sollen\" + 0.006*\"mehr\" + 0.005*\"geben\" + 0.004*\"nutzen\" + 0.004*\"wenig\" + 0.004*\"gut\" + 0.004*\"tempo\" + 0.004*\"parkplätze\"\n", "2021-04-06 20:47:47,959 : INFO : topic diff=0.017443, rho=0.223607\n", "2021-04-06 20:47:48,862 : INFO : -7.658 per-word bound, 202.0 perplexity estimate based on a held-out corpus of 2223 documents with 62950 words\n", "2021-04-06 20:47:48,863 : INFO : PROGRESS: pass 19, at document #2223/2223\n", "2021-04-06 20:47:49,538 : INFO : optimized alpha [0.026373187, 0.027101604, 0.03389819, 0.030815866, 0.028130364, 0.02621026, 0.02835606, 0.061011057, 0.025369378, 0.024475293, 0.028947951, 0.035744768, 0.04011548, 0.023460805, 0.026968278]\n", "2021-04-06 20:47:49,548 : INFO : topic #13 (0.023): 0.010*\"autos\" + 0.008*\"sollen\" + 0.008*\"fußgänger\" + 0.007*\"radverkehr\" + 0.007*\"\" + 0.006*\"geben\" + 0.006*\"ganz\" + 0.006*\"weit\" + 0.005*\"kommen\" + 0.005*\"wandsbeker\"\n", "2021-04-06 20:47:49,550 : INFO : topic #9 (0.024): 0.042*\"\" + 0.018*\"straße\" + 0.010*\"mehr\" + 0.009*\"sollen\" + 0.008*\"fahren\" + 0.008*\"deutlich\" + 0.008*\"gut\" + 0.007*\"autos\" + 0.005*\"markieren\" + 0.004*\"schon\"\n", "2021-04-06 20:47:49,550 : INFO : topic #11 (0.036): 0.090*\"\" + 0.008*\"sollen\" + 0.007*\"geben\" + 0.006*\"mehr\" + 0.006*\"straße\" + 0.005*\"groß\" + 0.005*\"platz\" + 0.004*\"direkt\" + 0.004*\"gut\" + 0.004*\"kommen\"\n", "2021-04-06 20:47:49,551 : INFO : topic #12 (0.040): 0.021*\"fußgänger\" + 0.017*\"radfahrer\" + 0.017*\"\" + 0.017*\"straße\" + 0.012*\"sollen\" + 0.012*\"autos\" + 0.012*\"kommen\" + 0.011*\"radweg\" + 0.010*\"fahren\" + 0.009*\"platz\"\n", "2021-04-06 20:47:49,553 : INFO : topic #7 (0.061): 0.165*\"\" + 0.010*\"straße\" + 0.008*\"sollen\" + 0.006*\"mehr\" + 0.005*\"geben\" + 0.004*\"nutzen\" + 0.004*\"wenig\" + 0.004*\"gut\" + 0.004*\"tempo\" + 0.004*\"parkplätze\"\n", "2021-04-06 20:47:49,554 : INFO : topic diff=0.016688, rho=0.218218\n", "2021-04-06 20:47:49,564 : INFO : LdaModel lifecycle event {'msg': 'trained LdaModel(num_terms=5306, num_topics=15, decay=0.5, chunksize=5000) in 36.34s', 'datetime': '2021-04-06T20:47:49.564118', 'gensim': '4.0.1', 'python': '3.9.2 | packaged by conda-forge | (default, Feb 21 2021, 05:02:20) \\n[Clang 11.0.1 ]', 'platform': 'macOS-11.2.3-x86_64-i386-64bit', 'event': 'created'}\n" ] } ], "source": [ "\n", "# Set training parameters.\n", "num_topics = 15\n", "chunksize = 5000\n", "passes = 20\n", "iterations = 15000\n", "eval_every = 1500 # Don't evaluate model perplexity, takes too much time.\n", "\n", "# Make a index to word dictionary.\n", "temp = dictionary[0] # This is only to \"load\" the dictionary.\n", "id2word = dictionary.id2token\n", "\n", "model = LdaModel(\n", " corpus=corpus,\n", " id2word=id2word,\n", " chunksize=chunksize,\n", " alpha='auto',\n", " eta='auto',\n", " iterations=iterations,\n", " num_topics=num_topics,\n", " passes=passes,\n", " eval_every=eval_every\n", ")" ] }, { "cell_type": "code", "execution_count": 74, "metadata": {}, "outputs": [ { "output_type": "stream", "name": "stderr", "text": [ "/Users/ricoherzog/opt/anaconda3/envs/MasterThesis/lib/python3.9/site-packages/ipykernel/ipkernel.py:283: DeprecationWarning: `should_run_async` will not call `transform_cell` automatically in the future. Please pass the result to `transformed_cell` argument and any exception that happen during thetransform in `preprocessing_exc_tuple` in IPython 7.17 and above.\n and should_run_async(code)\n" ] }, { "output_type": "display_data", "data": { "text/plain": "
", "image/svg+xml": "\n\n\n \n \n \n \n 2021-04-14T19:58:33.246695\n image/svg+xml\n \n \n Matplotlib v3.4.1, https://matplotlib.org/\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n\n", "image/png": "\n" }, "metadata": { "needs_background": "light" } } ], "source": [ "# 1. Wordcloud of Top N words in each topic\n", "from matplotlib import pyplot as plt\n", "from wordcloud import WordCloud, STOPWORDS\n", "import matplotlib.colors as mcolors\n", "\n", "cols = [color for name, color in mcolors.TABLEAU_COLORS.items()] # more colors: 'mcolors.XKCD_COLORS'\n", "\n", "cloud = WordCloud(background_color='white',\n", " width=2500,\n", " height=1800,\n", " max_words=10,\n", " colormap='tab10',\n", " color_func=lambda *args, **kwargs: cols[i],\n", " prefer_horizontal=1.0)\n", "\n", "topics = topic_model.show_topics(formatted=False)\n", "\n", "fig, axes = plt.subplots(5, 2, figsize=(10,10), sharex=True, sharey=True)\n", "\n", "for i, ax in enumerate(axes.flatten()):\n", " fig.add_subplot(ax)\n", " topic_words = dict(topics[i][1])\n", " cloud.generate_from_frequencies(topic_words, max_font_size=300)\n", " plt.gca().imshow(cloud)\n", " plt.gca().set_title('Topic ' + str(i), fontdict=dict(size=16))\n", " plt.gca().axis('off')\n", "\n", "\n", "plt.subplots_adjust(wspace=0, hspace=0)\n", "plt.axis('off')\n", "plt.margins(x=0, y=0)\n", "plt.tight_layout()\n", "plt.show()" ] }, { "source": [ "## Assign the topics to the contributions" ], "cell_type": "markdown", "metadata": {} }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ " Name \\\n", "ID \n", "38 Greensam \n", "39 Hindenburgstrasse \n", "40 Schnackenburgallee \n", "41 Magistrale Wandsbek \n", "42 Wilhelmsburg-Ost \n", "43 Spielplatz bei der Osterkirche \n", "44 Clever Cities \n", "45 Fußverkehrskonzept St. Georg \n", "46 Jungfernstieg \n", "47 Fußwegekonzept Eidelstedt \n", "48 Spielplatz Op´n Hainholt \n", "49 Wellingbütteler Landstraße \n", "50 Radverkehr Eimsbüttel \n", "51 RISE Billstedt Horn 2025 \n", "52 Oberbillwerder - Active City \n", "53 Spielplatz Walddörfer Straße \n", "54 Elbgaustraße \n", "55 Lindenallee \n", "56 Grünanlage König-Heinrich-Weg \n", "57 LAP 2 \n", "58 Unser Klima Eimsbüttel \n", "59 Spielplatz Weidenallee \n", "60 Spielplatz Glückstädter Weg \n", "\n", " Link Completed \\\n", "ID \n", "38 https://beteiligung.hamburg/greensam/ True \n", "39 https://beteiligung.hamburg/hindenburgstrasse/ True \n", "40 https://beteiligung.hamburg/schnackenburgallee/ True \n", "41 https://beteiligung.hamburg/magistralen-wandsbek/ True \n", "42 https://beteiligung.hamburg/wilhelmsburg-ost/ True \n", "43 https://beteiligung.hamburg/bdo-altona/ True \n", "44 https://beteiligung.hamburg/naturerlebnisplatz... True \n", "45 https://beteiligung.hamburg/fussverkehr-st-georg/ True \n", "46 https://beteiligung.hamburg/jungfernstieg/ False \n", "47 https://beteiligung.hamburg/fusswege-eidelstedt/ True \n", "48 https://beteiligung.hamburg/oph-altona/ True \n", "49 https://beteiligung.hamburg/wellingsbuetteler-... True \n", "50 https://beteiligung.hamburg/radverkehr-eimsbue... True \n", "51 https://beteiligung.hamburg/billstedt-horn-2025/ True \n", "52 https://beteiligung.hamburg/oberbillwerderacti... True \n", "53 https://beteiligung.hamburg/spielplatz-walddoe... True \n", "54 https://beteiligung.hamburg/elbgaustrasse/ False \n", "55 https://beteiligung.hamburg/lindenallee/ False \n", "56 https://beteiligung.hamburg/gruenanlage-khw/ False \n", "57 https://beteiligung.hamburg/zweite-oeffentlich... False \n", "58 https://beteiligung.hamburg/unser-klima-eimsbu... False \n", "59 https://beteiligung.hamburg/spielplatz-weidena... False \n", "60 https://beteiligung.hamburg/glueckstaedter-weg... False \n", "\n", " geometry \n", "ID \n", "38 POLYGON ((9.99443 53.55814, 10.00060 53.56575,... \n", "39 POLYGON ((10.00715 53.61239, 10.01235 53.61279... \n", "40 POLYGON ((9.91034 53.57642, 9.91053 53.57460, ... \n", "41 POLYGON ((10.03265 53.56564, 10.03062 53.56111... \n", "42 POLYGON ((10.00873 53.50714, 10.00946 53.50738... \n", "43 POLYGON ((9.93338 53.55441, 9.93328 53.55446, ... \n", "44 POLYGON ((9.82661 53.48124, 9.80582 53.47379, ... \n", "45 POLYGON ((9.99757 53.55700, 9.99911 53.55675, ... \n", "46 POLYGON ((9.99479 53.55221, 9.99278 53.55148, ... \n", "47 POLYGON ((9.90770 53.58648, 9.90777 53.59005, ... \n", "48 POLYGON ((9.79243 53.58529, 9.79272 53.57768, ... \n", "49 POLYGON ((10.03223 53.62736, 10.03064 53.62609... \n", "50 POLYGON ((9.93973 53.57974, 9.93903 53.58038, ... \n", "51 POLYGON ((10.06963 53.55940, 10.07239 53.56097... \n", "52 POLYGON ((10.14564 53.49340, 10.14793 53.49787... \n", "53 POLYGON ((10.06735 53.57985, 10.07115 53.58022... \n", "54 POLYGON ((9.88512 53.60948, 9.92009 53.59180, ... \n", "55 POLYGON ((9.95795 53.56901, 9.95884 53.56921, ... \n", "56 POLYGON ((9.96166 53.64247, 9.97150 53.64966, ... \n", "57 POLYGON ((9.98603 53.55752, 9.99957 53.57042, ... \n", "58 POLYGON ((9.94187 53.58064, 9.96344 53.58149, ... \n", "59 POLYGON ((9.96127 53.56865, 9.96404 53.56957, ... \n", "60 POLYGON ((9.85790 53.58920, 9.85837 53.58963, ... " ], "text/html": "
\n\n\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
NameLinkCompletedgeometry
ID
38Greensamhttps://beteiligung.hamburg/greensam/TruePOLYGON ((9.99443 53.55814, 10.00060 53.56575,...
39Hindenburgstrassehttps://beteiligung.hamburg/hindenburgstrasse/TruePOLYGON ((10.00715 53.61239, 10.01235 53.61279...
40Schnackenburgalleehttps://beteiligung.hamburg/schnackenburgallee/TruePOLYGON ((9.91034 53.57642, 9.91053 53.57460, ...
41Magistrale Wandsbekhttps://beteiligung.hamburg/magistralen-wandsbek/TruePOLYGON ((10.03265 53.56564, 10.03062 53.56111...
42Wilhelmsburg-Osthttps://beteiligung.hamburg/wilhelmsburg-ost/TruePOLYGON ((10.00873 53.50714, 10.00946 53.50738...
43Spielplatz bei der Osterkirchehttps://beteiligung.hamburg/bdo-altona/TruePOLYGON ((9.93338 53.55441, 9.93328 53.55446, ...
44Clever Citieshttps://beteiligung.hamburg/naturerlebnisplatz...TruePOLYGON ((9.82661 53.48124, 9.80582 53.47379, ...
45Fußverkehrskonzept St. Georghttps://beteiligung.hamburg/fussverkehr-st-georg/TruePOLYGON ((9.99757 53.55700, 9.99911 53.55675, ...
46Jungfernstieghttps://beteiligung.hamburg/jungfernstieg/FalsePOLYGON ((9.99479 53.55221, 9.99278 53.55148, ...
47Fußwegekonzept Eidelstedthttps://beteiligung.hamburg/fusswege-eidelstedt/TruePOLYGON ((9.90770 53.58648, 9.90777 53.59005, ...
48Spielplatz Op´n Hainholthttps://beteiligung.hamburg/oph-altona/TruePOLYGON ((9.79243 53.58529, 9.79272 53.57768, ...
49Wellingbütteler Landstraßehttps://beteiligung.hamburg/wellingsbuetteler-...TruePOLYGON ((10.03223 53.62736, 10.03064 53.62609...
50Radverkehr Eimsbüttelhttps://beteiligung.hamburg/radverkehr-eimsbue...TruePOLYGON ((9.93973 53.57974, 9.93903 53.58038, ...
51RISE Billstedt Horn 2025https://beteiligung.hamburg/billstedt-horn-2025/TruePOLYGON ((10.06963 53.55940, 10.07239 53.56097...
52Oberbillwerder - Active Cityhttps://beteiligung.hamburg/oberbillwerderacti...TruePOLYGON ((10.14564 53.49340, 10.14793 53.49787...
53Spielplatz Walddörfer Straßehttps://beteiligung.hamburg/spielplatz-walddoe...TruePOLYGON ((10.06735 53.57985, 10.07115 53.58022...
54Elbgaustraßehttps://beteiligung.hamburg/elbgaustrasse/FalsePOLYGON ((9.88512 53.60948, 9.92009 53.59180, ...
55Lindenalleehttps://beteiligung.hamburg/lindenallee/FalsePOLYGON ((9.95795 53.56901, 9.95884 53.56921, ...
56Grünanlage König-Heinrich-Weghttps://beteiligung.hamburg/gruenanlage-khw/FalsePOLYGON ((9.96166 53.64247, 9.97150 53.64966, ...
57LAP 2https://beteiligung.hamburg/zweite-oeffentlich...FalsePOLYGON ((9.98603 53.55752, 9.99957 53.57042, ...
58Unser Klima Eimsbüttelhttps://beteiligung.hamburg/unser-klima-eimsbu...FalsePOLYGON ((9.94187 53.58064, 9.96344 53.58149, ...
59Spielplatz Weidenalleehttps://beteiligung.hamburg/spielplatz-weidena...FalsePOLYGON ((9.96127 53.56865, 9.96404 53.56957, ...
60Spielplatz Glückstädter Weghttps://beteiligung.hamburg/glueckstaedter-weg...FalsePOLYGON ((9.85790 53.58920, 9.85837 53.58963, ...
\n
" }, "metadata": {}, "execution_count": 3 } ], "source": [ "participation_processes" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [], "source": [ "process_id = None # None for all processes\n", "num_topics = 10\n", "iterations = 20000\n", "\n", "if process_id is not None:\n", " topic_probablities, topic_list, topic_model, dictionary, corpus = vc.TopicModeller.get_topics(contributions_gdf[\"Contributiontext_de_preprocessed\"].loc[process_id],num_topics=num_topics,iterations=iterations)\n", "else:\n", " topic_probablities, topic_list, topic_model, dictionary, corpus = vc.TopicModeller.get_topics(contributions_gdf[\"Contributiontext_de_preprocessed\"],num_topics=num_topics,iterations=iterations)" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "PreparedData(topic_coordinates= x y topics cluster Freq\n", "topic \n", "7 0.038785 -0.114308 1 1 26.669198\n", "5 0.235743 -0.036924 2 1 17.010301\n", "1 -0.060325 -0.018922 3 1 11.800876\n", "4 -0.010972 -0.035240 4 1 10.266690\n", "8 0.104937 -0.004201 5 1 8.902180\n", "2 -0.153030 -0.160092 6 1 8.387160\n", "6 -0.064857 -0.053081 7 1 5.720273\n", "3 0.009794 0.146648 8 1 4.508741\n", "0 0.050328 0.120570 9 1 3.622095\n", "9 -0.150403 0.155550 10 1 3.112486, topic_info= Term Freq Total Category logprob loglift\n", "388 Auto 1575.000000 1575.000000 Default 30.0000 30.0000\n", "96 Radfahrer 665.000000 665.000000 Default 29.0000 29.0000\n", "91 Fußgänger 635.000000 635.000000 Default 28.0000 28.0000\n", "843 ja 562.000000 562.000000 Default 27.0000 27.0000\n", "85 gut 939.000000 939.000000 Default 26.0000 26.0000\n", "... ... ... ... ... ... ...\n", "265 Mensch 24.199609 380.406868 Topic10 -5.1030 0.7148\n", "1449 nehmen 19.508428 149.264233 Topic10 -5.3185 1.4349\n", "1007 Idee 21.171191 290.722032 Topic10 -5.2367 0.8500\n", "730 finden 21.752694 367.227985 Topic10 -5.2096 0.6435\n", "193 Lösung 19.359058 198.768119 Topic10 -5.3262 1.1408\n", "\n", "[778 rows x 6 columns], token_table= Topic Freq Term\n", "term \n", "2876 5 0.988192 \n", "1357 2 0.954251 Abbiegen\n", "4747 1 0.964462 Abend\n", "7429 9 0.866910 Abschluss\n", "7274 9 0.955012 Absolut\n", "... ... ... ...\n", "2338 7 0.112614 überholen\n", "1668 6 0.918117 überlassen\n", "319 1 0.011171 überqueren\n", "319 2 0.983051 überqueren\n", "2086 5 0.943302 überwinden\n", "\n", "[1837 rows x 3 columns], R=30, lambda_step=0.01, plot_opts={'xlab': 'PC1', 'ylab': 'PC2'}, topic_order=[8, 6, 2, 5, 9, 3, 7, 4, 1, 10])" ], "text/html": "\n\n\n\n
\n" }, "metadata": {}, "execution_count": 15 } ], "source": [ "import pyLDAvis\n", "pyLDAvis.enable_notebook()\n", "vis = pyLDAvis.gensim_models.prepare(topic_model, corpus, dictionary=dictionary)\n", "vis" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ " Topic 0 Topic 1 Topic 2 Topic 3 Topic 4 \\\n", "Node ID Comment ID \n", "23 0 0.000659 0.001109 0.000765 0.000950 0.000729 \n", "28 0 0.000515 0.996314 0.000598 0.000742 0.000569 \n", "29 0 0.001207 0.002031 0.001402 0.001739 0.990659 \n", "30 0 0.003291 0.005538 0.003821 0.004742 0.003639 \n", "31 0 0.988197 0.002532 0.001747 0.002168 0.001664 \n", "... ... ... ... ... ... \n", "417 844 0.001257 0.991000 0.001459 0.001811 0.001390 \n", " 908 0.001370 0.002305 0.001590 0.001974 0.001515 \n", "427 839 0.000917 0.001543 0.001065 0.001321 0.001014 \n", " 866 0.990892 0.001954 0.001348 0.001673 0.001284 \n", "442 919 0.002970 0.004998 0.977182 0.004280 0.003284 \n", "\n", " Topic 5 Topic 6 Assigned Topic \\\n", "Node ID Comment ID \n", "23 0 0.000802 0.994985 6 \n", "28 0 0.000626 0.000637 1 \n", "29 0 0.001468 0.001493 4 \n", "30 0 0.004003 0.974966 6 \n", "31 0 0.001830 0.001861 0 \n", "... ... ... ... \n", "417 844 0.001529 0.001554 1 \n", " 908 0.989553 0.001694 5 \n", "427 839 0.001115 0.993025 6 \n", " 866 0.001412 0.001436 0 \n", "442 919 0.003613 0.003673 2 \n", "\n", " Probability Assigned Topic \n", "Node ID Comment ID \n", "23 0 0.994985 \n", "28 0 0.996314 \n", "29 0 0.990659 \n", "30 0 0.974966 \n", "31 0 0.988197 \n", "... ... \n", "417 844 0.991000 \n", " 908 0.989553 \n", "427 839 0.993025 \n", " 866 0.990892 \n", "442 919 0.977182 \n", "\n", "[1078 rows x 9 columns]" ], "text/html": "
\n\n\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
Topic 0Topic 1Topic 2Topic 3Topic 4Topic 5Topic 6Assigned TopicProbability Assigned Topic
Node IDComment ID
2300.0006590.0011090.0007650.0009500.0007290.0008020.99498560.994985
2800.0005150.9963140.0005980.0007420.0005690.0006260.00063710.996314
2900.0012070.0020310.0014020.0017390.9906590.0014680.00149340.990659
3000.0032910.0055380.0038210.0047420.0036390.0040030.97496660.974966
3100.9881970.0025320.0017470.0021680.0016640.0018300.00186100.988197
.................................
4178440.0012570.9910000.0014590.0018110.0013900.0015290.00155410.991000
9080.0013700.0023050.0015900.0019740.0015150.9895530.00169450.989553
4278390.0009170.0015430.0010650.0013210.0010140.0011150.99302560.993025
8660.9908920.0019540.0013480.0016730.0012840.0014120.00143600.990892
4429190.0029700.0049980.9771820.0042800.0032840.0036130.00367320.977182
\n

1078 rows × 9 columns

\n
" }, "metadata": {}, "execution_count": 7 } ], "source": [ "topic_probablities" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ " Topic 0 Topic 1 Topic 2 Topic 3 Topic 4 \\\n", "0 Reihe gut Auto Idee sollen \n", "1 gut mehr geben Baum geben \n", "2 zB Ich Parkplatz sollen schon \n", "3 Beitrag finden ja Ich all \n", "4 sollen Straße Stellplatz welch Ich \n", "5 kommen Jungfernstieg öffentlich gut kommen \n", "6 Absolut Dank mehr Ein immer \n", "7 bereits Lindenallee sollen Gute gut \n", "8 Parkplatz schon wenig Stadt Lindenallee \n", "9 Jungfernstieg ja Raum In Beitrag \n", "10 KfzVerkehr sehen Ich zB Straße \n", "11 Parken groß jed Weg Jahr \n", "12 Stimmt Zustimmung Mensch jed gehen \n", "13 deutlich wenig all schön fahren \n", "14 Fußgänger sollen brauchen Bitte seit \n", "15 stehen Innenstadt gehen bitte Parkplatz \n", "16 gehen Hamburg warum super mal \n", "17 schon weit eigen Hamburg leider \n", "18 Lange Beitrag parken Gerät Auto \n", "19 Stelle Idee Wer finden ja \n", "\n", " Topic 5 Topic 6 Topic 7 Topic 8 Topic 9 \n", "0 Radfahrer mal Auto Straße ja \n", "1 Fußgänger Auto Straße gut Ja \n", "2 Straße stehen Kind mehr ganz \n", "3 Ampel ja geben Platz Ich \n", "4 Radweg Wie mehr Idee gut \n", "5 Richtung Stadt Parkplatz wenig Bitte \n", "6 fahren sollen Platz Fläche Anwohnerparken \n", "7 sollen Mensch fahren Baum Du \n", "8 gefährlich seit sollen gestalten jed \n", "9 Kreuzung Jahr Ich Eine Tier \n", "10 Weg MIV müssen Vorschlag Prozent \n", "11 kommen ÖPNV all schaffen Beitrag \n", "12 gut geben Radfahrer Wandsbek weit \n", "13 Hier Hamburg Fahrrad Sehr wirklich \n", "14 Chaussee Problem Fußgänger groß gehen \n", "15 Radwege jed wenig Stadt Mensch \n", "16 Autofahrer kommen Gehweg Wandsbeker Fall \n", "17 Wandsbeker tun schon tollen voll \n", "18 Radverkehr sagen mal Richtung finden \n", "19 geben ziehen nutzen neu Taube " ], "text/html": "
\n\n\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
Topic 0Topic 1Topic 2Topic 3Topic 4Topic 5Topic 6Topic 7Topic 8Topic 9
0ReihegutAutoIdeesollenRadfahrermalAutoStraßeja
1gutmehrgebenBaumgebenFußgängerAutoStraßegutJa
2zBIchParkplatzsollenschonStraßestehenKindmehrganz
3BeitragfindenjaIchallAmpeljagebenPlatzIch
4sollenStraßeStellplatzwelchIchRadwegWiemehrIdeegut
5kommenJungfernstiegöffentlichgutkommenRichtungStadtParkplatzwenigBitte
6AbsolutDankmehrEinimmerfahrensollenPlatzFlächeAnwohnerparken
7bereitsLindenalleesollenGutegutsollenMenschfahrenBaumDu
8ParkplatzschonwenigStadtLindenalleegefährlichseitsollengestaltenjed
9JungfernstiegjaRaumInBeitragKreuzungJahrIchEineTier
10KfzVerkehrsehenIchzBStraßeWegMIVmüssenVorschlagProzent
11ParkengroßjedWegJahrkommenÖPNVallschaffenBeitrag
12StimmtZustimmungMenschjedgehengutgebenRadfahrerWandsbekweit
13deutlichwenigallschönfahrenHierHamburgFahrradSehrwirklich
14FußgängersollenbrauchenBitteseitChausseeProblemFußgängergroßgehen
15stehenInnenstadtgehenbitteParkplatzRadwegejedwenigStadtMensch
16gehenHamburgwarumsupermalAutofahrerkommenGehwegWandsbekerFall
17schonweiteigenHamburgleiderWandsbekertunschontollenvoll
18LangeBeitragparkenGerätAutoRadverkehrsagenmalRichtungfinden
19StelleIdeeWerfindenjagebenziehennutzenneuTaube
\n
" }, "metadata": {}, "execution_count": 16 } ], "source": [ "pd.DataFrame(topic_list)" ] }, { "cell_type": "code", "execution_count": 55, "metadata": {}, "outputs": [], "source": [ "topic_list = pd.DataFrame(columns=[\"Word\", \"Weight\", \"Topic\"])\n", "\n", "for topic in range(topic_model.num_topics):\n", " for word, probability in topic_model.show_topic(topic, topn=15):\n", " topic_list = topic_list.append({\"Word\":word, \"Weight\":probability, \"Topic\": topic},ignore_index=True)\n", " \n", "topic_list = topic_list.set_index(\"Topic\")\n" ] }, { "cell_type": "code", "execution_count": 56, "metadata": {}, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ " Word\n", "Topic \n", "0 Wandsbeker Chaussee Straße sollen mehr Platz R...\n", "1 sollen Beitrag Bus zB Wandsbek Auto sammeln sc...\n", "2 gut Auto geben mehr Straße Fußgänger Mensch ko...\n", "3 gut Straße sollen wenig mehr Zustimmung fahren...\n", "4 Beitrag mehr sinnvoll bekommen Fußgänger Chaus...\n", "5 Wie all Kreuzung Magistrale mehr Tunnel Radfah...\n", "6 Rad gut Ich weit Autofahrer schon Zug Mensch W...\n", "7 Wandsbeker Straße gut Park Chaussee sicher att...\n", "8 mal Rad entlang gut kommen Platz sollen Auto f...\n", "9 Baum all gut fahren Parkplatz Eine Vorschlag m...\n", "10 Straße Auto wenig Platz Tempo sollen deutlich ...\n", "11 Vorschlag gut Radverkehr Straße sollen Wandsbe...\n", "12 sollen geben gut Auto Richtung Hier Wandsbeker...\n", "13 gut entlang finden Innenstadt Spur tollen Chau...\n", "14 sollen Straße Kreuzung gut Wandsbek nutzen gro...\n", "15 Kreuzung Fußgänger kommen mehr Ampel Hier Chau...\n", "16 Straße geben sollen Chaussee Wandsbeker nutzen...\n", "17 Wandsbeker Radfahrer mehr Chaussee Platz fahre...\n", "18 sollen Straße geben gut Fußgänger Auto mehr Wa...\n", "19 Fußgänger Wandsbeker geben sollen Fahrrad Ein ...\n", "20 Straße Auto geben sollen groß Eine Kind kommen...\n", "21 Radfahrer mehr Fußgänger breit sollen schaffen...\n", "22 sollen Fußgänger Radfahrer gut Platz schon Mag...\n", "23 Ampel fahren Wandsbeker mehr geben Straße Kreu...\n", "24 Straße Wandsbeker sollen wenig Chaussee Fußgän...\n", "25 Auto geben fahren Straße Ampel Weg Radfahrer B...\n", "26 Hier gut Straße geben Fahrrad Fußgänger Baum K...\n", "27 Straße Stadt Gehweg Ich sollen Bramfelder Radf...\n", "28 sollen mehr Richtung gut Baum ja Wandsbek alt ...\n", "29 gut sollen Wandsbek Wandsbeker Ich Nacht Anwoh..." ], "text/html": "
\n\n\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
Word
Topic
0Wandsbeker Chaussee Straße sollen mehr Platz R...
1sollen Beitrag Bus zB Wandsbek Auto sammeln sc...
2gut Auto geben mehr Straße Fußgänger Mensch ko...
3gut Straße sollen wenig mehr Zustimmung fahren...
4Beitrag mehr sinnvoll bekommen Fußgänger Chaus...
5Wie all Kreuzung Magistrale mehr Tunnel Radfah...
6Rad gut Ich weit Autofahrer schon Zug Mensch W...
7Wandsbeker Straße gut Park Chaussee sicher att...
8mal Rad entlang gut kommen Platz sollen Auto f...
9Baum all gut fahren Parkplatz Eine Vorschlag m...
10Straße Auto wenig Platz Tempo sollen deutlich ...
11Vorschlag gut Radverkehr Straße sollen Wandsbe...
12sollen geben gut Auto Richtung Hier Wandsbeker...
13gut entlang finden Innenstadt Spur tollen Chau...
14sollen Straße Kreuzung gut Wandsbek nutzen gro...
15Kreuzung Fußgänger kommen mehr Ampel Hier Chau...
16Straße geben sollen Chaussee Wandsbeker nutzen...
17Wandsbeker Radfahrer mehr Chaussee Platz fahre...
18sollen Straße geben gut Fußgänger Auto mehr Wa...
19Fußgänger Wandsbeker geben sollen Fahrrad Ein ...
20Straße Auto geben sollen groß Eine Kind kommen...
21Radfahrer mehr Fußgänger breit sollen schaffen...
22sollen Fußgänger Radfahrer gut Platz schon Mag...
23Ampel fahren Wandsbeker mehr geben Straße Kreu...
24Straße Wandsbeker sollen wenig Chaussee Fußgän...
25Auto geben fahren Straße Ampel Weg Radfahrer B...
26Hier gut Straße geben Fahrrad Fußgänger Baum K...
27Straße Stadt Gehweg Ich sollen Bramfelder Radf...
28sollen mehr Richtung gut Baum ja Wandsbek alt ...
29gut sollen Wandsbek Wandsbeker Ich Nacht Anwoh...
\n
" }, "metadata": {}, "execution_count": 56 } ], "source": [ "topic_list.groupby(\"Topic\").agg({'Word': ' '.join})" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [], "source": [ "# Merge the Contribution DataFrame with the topics\n", "if process_id is not None:\n", " contributions_topics_gdf = contributions_gdf.loc[process_id].merge(topic_probablities[[\"Assigned Topic\", \"Probability Assigned Topic\"]], on=[\"Node ID\", \"Comment ID\"])\n", " contributions_topics_gdf[\"Assigned Topic\"] = contributions_topics_gdf[\"Assigned Topic\"].astype(int)\n", "else:\n", " contributions_topics_gdf = contributions_gdf.merge(topic_probablities[[\"Assigned Topic\", \"Probability Assigned Topic\"]], on=[\"Process ID\",\"Node ID\", \"Comment ID\"])\n", " contributions_topics_gdf[\"Assigned Topic\"] = contributions_topics_gdf[\"Assigned Topic\"].astype(int)\n" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "array([['Bitte schnell das Chaos um den U-Bahnhof Trabrennbahn beenden, bevor es hier noch ein größeres Unglück gibt. Am besten die komplette Eckerkoppel der Veloroute 6 zur Fahrradstraße machen, und das ganz schnell.'],\n", " ['Ich wohne in der Wandsbeker Chaussee, an der Kreuzung Wartenau/Landwehr. Kurz nach der Ampel stadtauswärts beschleunigen viele Autos auf deutlich über 50 km/h, bremsen kurz vor dem Blitzer an der Richardstraße ab, um dann weiter Gas zu geben. In der Richtung stadteinwärts ist es ähnlich. Der Blitzer ist nur ein kurzes Hindernis.\\nDie Geschäfte, die da sind, werden von Kunden bevorzugt, die gern in zweiter Reihe mitten auf der Straße halten. Wichtig scheint zu sein, dass die anderen Kunden im Geschäft das Auto ständig im Blick haben...\\nEs wäre schön, wenn die Wandsbeker Chaussee nach dem Vorbild der Fuhlsbütteler Straße (?) beruhigt würde. Der Zeitverlust für Durchfahrten ist geringt, der Gewinn an Ästhetik und Lebensqualität für alle enorm. Dann lohnte sich auch das Ansiedeln von vielfältigen Geschäften, da die Mehrheit der Menschen dann langsam unterwegs wäre (Fußgänger, Radfahrer) und zum Einkauf/Verzehr animiert werden könnte.'],\n", " ['das wird hier schon alles ernst genommen denke ich...also gern was konstruktives...'],\n", " ['Interessanter Punkt den Sie da ansprechen. Sicherlich lassen sich so auch einige höhere Gebäude an dieser Magistrale erklären. Ich denke aber, dass (unabhängig des Verdichtungsargumentes) die Markierung bestimmter (wichtiger) Orte durch städtebaulich auffallende Gebäude auch für alle anderen Verkehrsteilnehmer*innen praktisch/interessant sein können.'],\n", " ['-> Bindestrich und Rechtspfeil'],\n", " ['Gut beschrieben! Alles seit sehr langer Zeit bekannt. Leider bisher kein Wille vorhanden gewesen um auch nur über minimale Eingriffe die Situation für Fußgänger, Radfahrer und Anwohner erträglicher zu machen.\\n\\nEin gutes Beispiel für Ihre Idee liegt Luftlinie keine 200m weg. Die Bürgerweide kommt dem recht nah. Wichtig sind qualitativ hochwertige Nebenflächen die auch zum Aufenthalt einladen. Daneben eine konsequente Parkraumbewirtschaftung und Kontrolle. Zeit das sich was ändert!'],\n", " ['Fahrräder, zunehmend auch pedelecs entlasten den Verkehr. \\nNur auf die Magistralen geschaut, braucht es daher gut asphaltierte, durchgängige und geschützte Fahrradspuren in beiden Richtungen. Der Ausbau der S-Bahn wird den Autoverkehr weiter entlasten.\\nEin Gesamtkonzept für Magistralen und Fahrradstraßen ist allerdings dringend geboten. \\nSo ist wegen des Feinstaubs ist eine echte Fahrradstraße mit Bus- und Anliefererlaubnis ohne Poller vorzuziehen. Die Walddörferstraße bietet sich trotz bisheriger Bedenken nach wie vor dafür an zwischen dem Friedrich-Ebert-Damm und der Ahrensburger Straße. Die anliegenden Geschäfte der Walddörferstraße gewinnen dadurch sogar an Publikum, wie die Errichtung von Fußgängerzonen andernorts in der Vergangenheit gezeigt hat. \\nEine vorrangig Fahrradstraße schützt die Radfahrer vor Unfällen und gesundheitsschädlichen Emissionen während der gesamten Fahrt.'],\n", " ['Die Planer scheinen in eine ähnliche Richtung zu denken. In den \"Ersten Ideen\" zum Bereich Wandsbek Zentrum wird die Frage aufgeworfen \"Soll/kann die Schloßstraße zwischen der Wandsbeker Marktstraße und dem Ring 2 zurückgebaut werden?\"'],\n", " ['entschuldigung -> ich glaube das auch!'],\n", " ['Tempo 30 zumindest in der Nacht halte ich für eine sehr sinnvollen Idee die ohne große Kosten (außer ein paar Verkehrsschildern) einen großen Effekt für die Anwohner hat die dann ruhiger schlafen könnten.']],\n", " dtype=object)" ] }, "metadata": {}, "execution_count": 11 } ], "source": [ "contributions_topics_gdf[[\"Contributiontext_de\"]][contributions_topics_gdf[\"Assigned Topic\"] == 4].sample(10).values" ] }, { "cell_type": "code", "execution_count": 53, "metadata": {}, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ " count mean std min 25% 50% \\\n", "Assigned Topic \n", "0 65.0 0.604978 0.209476 0.239139 0.431881 0.555644 \n", "1 72.0 0.550512 0.164985 0.274614 0.426833 0.540121 \n", "2 200.0 0.548537 0.187751 0.240725 0.407117 0.522978 \n", "3 236.0 0.552467 0.178812 0.218923 0.432927 0.520424 \n", "4 280.0 0.543869 0.160385 0.201006 0.424993 0.517981 \n", "5 143.0 0.566784 0.186497 0.241571 0.417211 0.533270 \n", "6 967.0 0.597995 0.181048 0.128608 0.464429 0.571744 \n", "7 61.0 0.535507 0.157173 0.204169 0.400725 0.538193 \n", "8 48.0 0.564745 0.176261 0.282940 0.445690 0.495156 \n", "9 78.0 0.543306 0.169432 0.217438 0.433077 0.523826 \n", "10 48.0 0.619101 0.188256 0.236671 0.488136 0.564896 \n", "11 61.0 0.607034 0.177699 0.299429 0.484572 0.609418 \n", "12 113.0 0.553751 0.177502 0.243272 0.416860 0.519626 \n", "13 97.0 0.551206 0.176545 0.201419 0.419160 0.529025 \n", "14 117.0 0.555861 0.173728 0.254879 0.417033 0.543760 \n", "\n", " 75% max \n", "Assigned Topic \n", "0 0.788171 0.965643 \n", "1 0.647555 0.977521 \n", "2 0.693621 0.987014 \n", "3 0.659105 0.986522 \n", "4 0.642680 0.973005 \n", "5 0.691698 0.964635 \n", "6 0.722012 0.990098 \n", "7 0.632995 0.930826 \n", "8 0.709258 0.943836 \n", "9 0.587680 0.976186 \n", "10 0.754919 0.979587 \n", "11 0.708672 0.980914 \n", "12 0.672351 0.972907 \n", "13 0.661755 0.958274 \n", "14 0.657878 0.971590 " ], "text/html": "
\n\n\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
countmeanstdmin25%50%75%max
Assigned Topic
065.00.6049780.2094760.2391390.4318810.5556440.7881710.965643
172.00.5505120.1649850.2746140.4268330.5401210.6475550.977521
2200.00.5485370.1877510.2407250.4071170.5229780.6936210.987014
3236.00.5524670.1788120.2189230.4329270.5204240.6591050.986522
4280.00.5438690.1603850.2010060.4249930.5179810.6426800.973005
5143.00.5667840.1864970.2415710.4172110.5332700.6916980.964635
6967.00.5979950.1810480.1286080.4644290.5717440.7220120.990098
761.00.5355070.1571730.2041690.4007250.5381930.6329950.930826
848.00.5647450.1762610.2829400.4456900.4951560.7092580.943836
978.00.5433060.1694320.2174380.4330770.5238260.5876800.976186
1048.00.6191010.1882560.2366710.4881360.5648960.7549190.979587
1161.00.6070340.1776990.2994290.4845720.6094180.7086720.980914
12113.00.5537510.1775020.2432720.4168600.5196260.6723510.972907
1397.00.5512060.1765450.2014190.4191600.5290250.6617550.958274
14117.00.5558610.1737280.2548790.4170330.5437600.6578780.971590
\n
" }, "metadata": {}, "execution_count": 53 } ], "source": [ "contributions_topics_gdf.groupby(\"Assigned Topic\")[\"Probability Assigned Topic\"].describe()" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "output_type": "stream", "name": "stderr", "text": [ "/Users/ricoherzog/opt/anaconda3/envs/MasterThesis/lib/python3.9/site-packages/ipykernel/ipkernel.py:283: DeprecationWarning: `should_run_async` will not call `transform_cell` automatically in the future. Please pass the result to `transformed_cell` argument and any exception that happen during thetransform in `preprocessing_exc_tuple` in IPython 7.17 and above.\n and should_run_async(code)\n" ] }, { "output_type": "execute_result", "data": { "text/plain": [ "count 1497.000000\n", "mean 0.869167\n", "std 0.163910\n", "min 0.153264\n", "25% 0.799239\n", "50% 0.955524\n", "75% 0.982062\n", "max 0.996233\n", "Name: Probability Assigned Topic, dtype: float64" ] }, "metadata": {}, "execution_count": 11 } ], "source": [ "contributions_topics_gdf[\"Probability Assigned Topic\"].describe()" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ " Category Rubric \\\n", "Node ID Comment ID \n", "23 0 Städtebau Idee, Vorschlag, Anregung \n", "28 0 Freiraum Idee, Vorschlag, Anregung \n", "29 0 Verkehr Kritik \n", "30 0 Verkehr Idee, Vorschlag, Anregung \n", "31 0 Verkehr Kritik \n", "... ... ... \n", "417 844 None None \n", " 908 None None \n", "427 839 None None \n", " 866 None None \n", "442 919 None None \n", "\n", " Created (UTC) Rating Total votes Upvotes \\\n", "Node ID Comment ID \n", "23 0 2020-06-23T16:04:45+00:00 0.200000 5.0 3.0 \n", "28 0 2020-06-25T09:39:03+00:00 0.866667 15.0 14.0 \n", "29 0 2020-06-25T11:20:57+00:00 0.939394 33.0 32.0 \n", "30 0 2020-06-25T12:10:39+00:00 0.333333 3.0 2.0 \n", "31 0 2020-06-25T12:45:41+00:00 1.000000 8.0 8.0 \n", "... ... ... ... ... \n", "417 844 2020-08-12T10:32:39+00:00 NaN NaN NaN \n", " 908 2020-08-16T11:04:00+00:00 NaN NaN NaN \n", "427 839 2020-08-12T10:00:01+00:00 NaN NaN NaN \n", " 866 2020-08-12T14:56:16+00:00 NaN NaN NaN \n", "442 919 2020-08-17T03:30:42+00:00 NaN NaN NaN \n", "\n", " Downvotes Last Vote \\\n", "Node ID Comment ID \n", "23 0 2.0 2020-07-28T17:12:56+00:00 \n", "28 0 1.0 2020-07-24T21:18:07+00:00 \n", "29 0 1.0 2020-08-06T08:47:42+00:00 \n", "30 0 1.0 2020-07-04T10:09:06+00:00 \n", "31 0 0.0 2020-08-09T11:27:17+00:00 \n", "... ... ... \n", "417 844 NaN None \n", " 908 NaN None \n", "427 839 NaN None \n", " 866 NaN None \n", "442 919 NaN None \n", "\n", " Title_de \\\n", "Node ID Comment ID \n", "23 0 Die Magistralen in Wandsbek \n", "28 0 Mehr Lebensqualität an der Wandsbeker Chaussee... \n", "29 0 Fahrradstraße Eckerkoppel Veloroute 6 \n", "30 0 Grüne Mittelstreifen zur Temporeduzierung \n", "31 0 Linksabbiegemöglichkeit für Radfahrende zum Fi... \n", "... ... \n", "417 844 Antwort an Nr. 818 \n", " 908 Antwort an Nr. 844 \n", "427 839 Antwort an Nr. 831 \n", " 866 Antwort an Nr. 839 \n", "442 919 Antwort an Nr. 913 \n", "\n", " Contributiontext_de ... \\\n", "Node ID Comment ID ... \n", "23 0 Ohne Magistralen können Verkehrs-\"flüsse\" bish... ... \n", "28 0 Die heutige 6-Spurigkeit der Wandsbeker Chauss... ... \n", "29 0 Hallo,\\n\\nda die Eckerkoppel, zwischen Tegelwe... ... \n", "30 0 Nichts lädt mehr zum Gasgeben ein als breite A... ... \n", "31 0 Es gibt heute keine direkte Linksabbiegemöglic... ... \n", "... ... ... \n", "417 844 Es ist eine Magistrale mit mehr als genug Fläc... ... \n", " 908 Die genannten Maßnahmen sind gut und richtig, ... ... \n", "427 839 Während Fußgänger und Radfahrer sich bisher sp... ... \n", " 866 Genau, meistens wird der Gehweg ausreichend Br... ... \n", "442 919 Am Doraustieg ist keine Ampel vorhanden. Entwe... ... \n", "\n", " Contributiontext_translation_error \\\n", "Node ID Comment ID \n", "23 0 False \n", "28 0 False \n", "29 0 False \n", "30 0 False \n", "31 0 False \n", "... ... \n", "417 844 False \n", " 908 False \n", "427 839 False \n", " 866 False \n", "442 919 False \n", "\n", " Contributiontext_de_preprocessed \\\n", "Node ID Comment ID \n", "23 0 Magistralen Verkehrsflüsse bisher meistern Urb... \n", "28 0 heutige Wandsbeker Chaussee mehr zeitgemäß Hin... \n", "29 0 Hallo Eckerkoppel Tegelweg Am Stadtrand aufgru... \n", "30 0 Nichts laden mehr Gasgeben breit Asphaltfläche... \n", "31 0 geben heute direkt Linksabbiegemöglichkeit Rad... \n", "... ... \n", "417 844 Magistrale mehr genug Fläche fahren fertigen M... \n", " 908 genannt Maßnahme gut richtig schließen Begrenz... \n", "427 839 Fußgänger Radfahrer bisher spärlich Platz teil... \n", " 866 Genau meistens Gehweg ausreichen Breit Hochboa... \n", "442 919 Am Doraustieg Ampel vorhanden entweder Beitrag... \n", "\n", " Contributiontext_en_preprocessed neg \\\n", "Node ID Comment ID \n", "23 0 traffic flow master without main road accord R... 0.054 \n", "28 0 Todays Wandsbeker Chaussee long date addition ... 0.028 \n", "29 0 hello since Eckerkoppel Tegelweg Am Stadtrand ... 0.067 \n", "30 0 nothing invite accelerate wide asphalt surface... 0.000 \n", "31 0 today direct left turn option cyclist Meridian... 0.106 \n", "... ... ... \n", "417 844 main road enough space drive h h madness kill ... 0.184 \n", " 908 measure mention good correct rule limit km h c... 0.040 \n", "427 839 pedestrian cyclist share sparse space create c... 0.062 \n", " 866 exactly time sidewalk become sufficiently wide... 0.023 \n", "442 919 traffic light Doraustieg either post mean traf... 0.064 \n", "\n", " neu pos compound geometry \\\n", "Node ID Comment ID \n", "23 0 0.784 0.162 0.9642 POINT (10.06238 53.57109) \n", "28 0 0.972 0.000 -0.3595 POINT (10.04983 53.56831) \n", "29 0 0.873 0.060 -0.1361 POINT (10.10440 53.59802) \n", "30 0 1.000 0.000 0.0000 POINT (-117.27194 -40.06000) \n", "31 0 0.868 0.026 -0.6800 POINT (10.08060 53.57627) \n", "... ... ... ... ... \n", "417 844 0.779 0.037 -0.8880 None \n", " 908 0.677 0.283 0.9547 None \n", "427 839 0.790 0.148 0.7632 None \n", " 866 0.868 0.109 0.6249 None \n", "442 919 0.936 0.000 -0.2960 None \n", "\n", " Assigned Topic Probability Assigned Topic \n", "Node ID Comment ID \n", "23 0 6 0.994985 \n", "28 0 1 0.996314 \n", "29 0 4 0.990659 \n", "30 0 6 0.974966 \n", "31 0 0 0.988197 \n", "... ... ... \n", "417 844 1 0.991000 \n", " 908 5 0.989553 \n", "427 839 6 0.993025 \n", " 866 0 0.990892 \n", "442 919 2 0.977182 \n", "\n", "[1078 rows x 29 columns]" ], "text/html": "
\n\n\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
CategoryRubricCreated (UTC)RatingTotal votesUpvotesDownvotesLast VoteTitle_deContributiontext_de...Contributiontext_translation_errorContributiontext_de_preprocessedContributiontext_en_preprocessednegneuposcompoundgeometryAssigned TopicProbability Assigned Topic
Node IDComment ID
230StädtebauIdee, Vorschlag, Anregung2020-06-23T16:04:45+00:000.2000005.03.02.02020-07-28T17:12:56+00:00Die Magistralen in WandsbekOhne Magistralen können Verkehrs-\"flüsse\" bish......FalseMagistralen Verkehrsflüsse bisher meistern Urb...traffic flow master without main road accord R...0.0540.7840.1620.9642POINT (10.06238 53.57109)60.994985
280FreiraumIdee, Vorschlag, Anregung2020-06-25T09:39:03+00:000.86666715.014.01.02020-07-24T21:18:07+00:00Mehr Lebensqualität an der Wandsbeker Chaussee...Die heutige 6-Spurigkeit der Wandsbeker Chauss......Falseheutige Wandsbeker Chaussee mehr zeitgemäß Hin...Todays Wandsbeker Chaussee long date addition ...0.0280.9720.000-0.3595POINT (10.04983 53.56831)10.996314
290VerkehrKritik2020-06-25T11:20:57+00:000.93939433.032.01.02020-08-06T08:47:42+00:00Fahrradstraße Eckerkoppel Veloroute 6Hallo,\\n\\nda die Eckerkoppel, zwischen Tegelwe......FalseHallo Eckerkoppel Tegelweg Am Stadtrand aufgru...hello since Eckerkoppel Tegelweg Am Stadtrand ...0.0670.8730.060-0.1361POINT (10.10440 53.59802)40.990659
300VerkehrIdee, Vorschlag, Anregung2020-06-25T12:10:39+00:000.3333333.02.01.02020-07-04T10:09:06+00:00Grüne Mittelstreifen zur TemporeduzierungNichts lädt mehr zum Gasgeben ein als breite A......FalseNichts laden mehr Gasgeben breit Asphaltfläche...nothing invite accelerate wide asphalt surface...0.0001.0000.0000.0000POINT (-117.27194 -40.06000)60.974966
310VerkehrKritik2020-06-25T12:45:41+00:001.0000008.08.00.02020-08-09T11:27:17+00:00Linksabbiegemöglichkeit für Radfahrende zum Fi...Es gibt heute keine direkte Linksabbiegemöglic......Falsegeben heute direkt Linksabbiegemöglichkeit Rad...today direct left turn option cyclist Meridian...0.1060.8680.026-0.6800POINT (10.08060 53.57627)00.988197
.....................................................................
417844NoneNone2020-08-12T10:32:39+00:00NaNNaNNaNNaNNoneAntwort an Nr. 818Es ist eine Magistrale mit mehr als genug Fläc......FalseMagistrale mehr genug Fläche fahren fertigen M...main road enough space drive h h madness kill ...0.1840.7790.037-0.8880None10.991000
908NoneNone2020-08-16T11:04:00+00:00NaNNaNNaNNaNNoneAntwort an Nr. 844Die genannten Maßnahmen sind gut und richtig, ......Falsegenannt Maßnahme gut richtig schließen Begrenz...measure mention good correct rule limit km h c...0.0400.6770.2830.9547None50.989553
427839NoneNone2020-08-12T10:00:01+00:00NaNNaNNaNNaNNoneAntwort an Nr. 831Während Fußgänger und Radfahrer sich bisher sp......FalseFußgänger Radfahrer bisher spärlich Platz teil...pedestrian cyclist share sparse space create c...0.0620.7900.1480.7632None60.993025
866NoneNone2020-08-12T14:56:16+00:00NaNNaNNaNNaNNoneAntwort an Nr. 839Genau, meistens wird der Gehweg ausreichend Br......FalseGenau meistens Gehweg ausreichen Breit Hochboa...exactly time sidewalk become sufficiently wide...0.0230.8680.1090.6249None00.990892
442919NoneNone2020-08-17T03:30:42+00:00NaNNaNNaNNaNNoneAntwort an Nr. 913Am Doraustieg ist keine Ampel vorhanden. Entwe......FalseAm Doraustieg Ampel vorhanden entweder Beitrag...traffic light Doraustieg either post mean traf...0.0640.9360.000-0.2960None20.977182
\n

1078 rows × 29 columns

\n
" }, "metadata": {}, "execution_count": 12 } ], "source": [ "contributions_topics_gdf" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [], "source": [ "# Save the results\n", "contributions_topics_gdf.to_file(\"../data/02_experiments/topic_clusters.geojson\", driver='GeoJSON')" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "Name 23\n", "Link 23\n", "Completed 23\n", "geometry 23\n", "dtype: int64" ] }, "metadata": {}, "execution_count": 18 } ], "source": [ "participation_processes.count()" ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "Comment 3107\n", "Contribution 2074\n", "Reply 1387\n", "Name: Type, dtype: int64" ] }, "metadata": {}, "execution_count": 31 } ], "source": [ "contributions_gdf[\"Type\"].astype(\"category\").value_counts()" ] }, { "cell_type": "code", "execution_count": 37, "metadata": {}, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "4702.0" ] }, "metadata": {}, "execution_count": 37 } ], "source": [ "contributions_gdf[\"Downvotes\"].sum()" ] }, { "cell_type": "code", "execution_count": 41, "metadata": {}, "outputs": [], "source": [ "contributions_gdf[\"Title_de_preprocessed\"] = contributions_gdf[\"Title_de\"].apply(lambda x: vc.Preprocesser.complete_preprocessing(\"de\", x))" ] }, { "cell_type": "code", "execution_count": 42, "metadata": {}, "outputs": [], "source": [ "topic_probablities, topic_list, topic_model, dictionary, corpus = vc.TopicModeller.get_topics(contributions_gdf[\"Title_de_preprocessed\"],num_topics=25,iterations=100000)" ] }, { "cell_type": "code", "execution_count": 44, "metadata": {}, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ " Topic 0 Topic 1 Topic 2 Topic 3 \\\n", "0 Nr Parken Platz Auto \n", "1 Antwort S Beitrag wenig \n", "2 Autorennen Fahrzeug Park sperren \n", "3 Bauhaus notwendig Mehr Super \n", "4 Linksabbiegen Ring Fußgänger Durchgangsverkehr \n", "5 Wandsbeker Auto Hier Straße \n", "6 Chaussee Parkverbot stehen Infrastruktur \n", "7 Straße Elbgaustr Radfahrer Lohkampstraße \n", "8 illegal Kieler Phase Anwohnerparken \n", "9 Verkehr Straße Fahrrad Übergang \n", "10 Fußgänger amp Bushaltestellen komplett \n", "11 täglich E Anregung Sache \n", "12 Alster Güterverbindungsbahn Spur Fahrradspur \n", "13 Fahrradspur grün Kita ordnen \n", "14 Öjendorfer Grünphase Spadenteich Gänsemarkt \n", "15 mehr Verhalten Beleuchtung Rücksicht \n", "16 langen Haltestelle ermöglichen gehen \n", "17 Radfahrer Velorouten Linksabbieger Falschparken \n", "18 Wie glauben ÖPNV Bergstraße \n", "19 Ampel fast Fußgängerampel PKW \n", "\n", " Topic 4 Topic 5 Topic 6 Topic 7 \\\n", "0 mehr Grüner Kreuzung Zebrastreifen \n", "1 Raum Kind Innenstadt Fahrradwege \n", "2 Fahrradbügel Fahrradfahrer Fahrradstreifen Baum \n", "3 Autofahrer Rad Redingskamp brauchen \n", "4 öffentlich Spielplätze Tor Mehr \n", "5 Haus Kreisverkehr Berliner Hamburg \n", "6 wenig Zur Handwerker Sillemstraße \n", "7 brauchen Grün St kleine \n", "8 Eilbeker Stellplatz Georg vorhanden \n", "9 Altes Gehweg Masterplan Langenfelder \n", "10 Grün Bundesstr Aus Damm \n", "11 illegal Sillemstraße Verbesserung Fehlender \n", "12 Weg Mobilität konsequent Mit \n", "13 Fahrradfahrer Kirchenallee groß Bessere \n", "14 Gehweg klein Mülltonnen schwach \n", "15 engen verbinden Serviceparkplätze Geschwindigkeit \n", "16 Bild Verbindung Pflegedienste Lieferverkehr \n", "17 bzw Sperrung Paketdienste Einfahrt \n", "18 Hundewiese Anforderungsampel Zufahrt Veloroute \n", "19 Eilbektal umstellen Zentrum dringen \n", "\n", " Topic 8 Topic 9 ... Topic 15 \\\n", "0 Chaussee breit ... Fußgänger \n", "1 Wandsbeker Parkplatzsituation ... Umgestaltung \n", "2 Radwege Idee ... Radfahrer \n", "3 Lindenallee Situation ... sichern \n", "4 Querung überall ... fehlen \n", "5 Ecke Fahrradstellplätze ... Fehlende \n", "6 Gestaltung Garten ... Schulweg \n", "7 Bramfelder toll ... Querung \n", "8 Grünstreifen Düngelskamp ... vs \n", "9 Saseler Welle ... attraktiv \n", "10 Pinneberger Querungen ... errichten \n", "11 Marktstr Bahnhof ... Hoheluftchaussee \n", "12 verkehrsberuhigt berücksichtigen ... sicher \n", "13 Alster schon ... gestalten \n", "14 Planung Fahrradwege ... Fahrbahn \n", "15 Bereich Spielplatz ... Gefahr \n", "16 Vorbild Kind ... Mönckebergstraße \n", "17 Holsteiner Hamburg ... Anmerkung \n", "18 wünschen bitte ... modern \n", "19 Straße Ich ... März \n", "\n", " Topic 16 Topic 17 Topic 18 \\\n", "0 Parkplatz Radweg Erhalt \n", "1 Mehr Endlich Süd \n", "2 Fußweg kommen Einbahnstraße \n", "3 Sillemstraße Steindamm Innenstadt \n", "4 Magistralen Fußwege Tod \n", "5 Wandsbek Hörgensweg StadtRAD \n", "6 Markt gefährlich Anwohnerparkplätze \n", "7 wenig Neuer verschwinden \n", "8 Aufenthaltsqualität Lebensqualität Einbahnstraßenregelung \n", "9 Viertel Hansaplatz katastrophal \n", "10 all Fusswege täglich \n", "11 Verkehr Schule Stelle \n", "12 Bereich Öffentliche beleben \n", "13 Bundesstrasse Eilbek Radfahrerinnen \n", "14 Lastenräder baulich Brennerstraße \n", "15 Miteinander Wall Aufwertung \n", "16 Treppenhäuser trennen Fußgängerampeln \n", "17 Fussweg Anbindung Korallusviertel \n", "18 Fahrradhäuschen Fahrradstraße KFZ \n", "19 Methfesselstraße Fehlender Gehweg \n", "\n", " Topic 19 Topic 20 Topic 21 Topic 22 \\\n", "0 Gehweg Ampel Straße Spielplatz \n", "1 gut Zone Tempo amp \n", "2 schmal Spielstraße Veloroute Verkehrsberuhigung \n", "3 Autofrei Einbahnstraße Weg Fuß \n", "4 Radfahrer Grünanlage entlang Bessere \n", "5 bitte EScooter Kieler Kontrolle \n", "6 Bushaltestelle Vorschlag Wördemanns Sackgasse \n", "7 ausbauen Planungsgebiet Olloweg Falschparker \n", "8 Reihe Lindenpark Zone Radweg \n", "9 Fußweg Umgebung Magistrale Curbs \n", "10 Mansteinstr Grüner verlegen Sehr \n", "11 Gastronomie Elbgaustraße Marktstraße Kfz \n", "12 Lange Öjendorfer Wolliner Parkflächen \n", "13 Seite Park Strasse Ballindamm \n", "14 trennen Wartezeit Eine Gute \n", "15 Mittelstreifen neben Wandsbeker Sicherheit \n", "16 Fahrradweg alt vergessen Kleiner \n", "17 östlich Wochenmarkt Begrünung Fahrradstrasse \n", "18 Fahrbahn Superblock Wandse Lärm \n", "19 Schmilinskystraße all Verkehr möglich \n", "\n", " Topic 23 Topic 24 \n", "0 langen Mansteinstrasse \n", "1 Reihe Str \n", "2 Fahrrad entfernen \n", "3 Durchgang Eidelstedt \n", "4 Einbahnstraße groß \n", "5 aufwerten Fußgängerampel \n", "6 neu ändern \n", "7 Fußgängerzone Furtweg \n", "8 Richtung Fußgängerüberweg \n", "9 Fußgängerin Spiel \n", "10 Neugestaltung Kind \n", "11 beid bzw \n", "12 Ampelschaltungen Fitness \n", "13 eng abschaffen \n", "14 Fahrradweg Familie \n", "15 Außengastronomie UBahn \n", "16 Volkspark Ladenzeile \n", "17 Entscheidung aufstocken \n", "18 fördern StGeorg \n", "19 freigeben aufstellen \n", "\n", "[20 rows x 25 columns]" ], "text/html": "
\n\n\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
Topic 0Topic 1Topic 2Topic 3Topic 4Topic 5Topic 6Topic 7Topic 8Topic 9...Topic 15Topic 16Topic 17Topic 18Topic 19Topic 20Topic 21Topic 22Topic 23Topic 24
0NrParkenPlatzAutomehrGrünerKreuzungZebrastreifenChausseebreit...FußgängerParkplatzRadwegErhaltGehwegAmpelStraßeSpielplatzlangenMansteinstrasse
1AntwortSBeitragwenigRaumKindInnenstadtFahrradwegeWandsbekerParkplatzsituation...UmgestaltungMehrEndlichSüdgutZoneTempoampReiheStr
2AutorennenFahrzeugParksperrenFahrradbügelFahrradfahrerFahrradstreifenBaumRadwegeIdee...RadfahrerFußwegkommenEinbahnstraßeschmalSpielstraßeVelorouteVerkehrsberuhigungFahrradentfernen
3BauhausnotwendigMehrSuperAutofahrerRadRedingskampbrauchenLindenalleeSituation...sichernSillemstraßeSteindammInnenstadtAutofreiEinbahnstraßeWegFußDurchgangEidelstedt
4LinksabbiegenRingFußgängerDurchgangsverkehröffentlichSpielplätzeTorMehrQuerungüberall...fehlenMagistralenFußwegeTodRadfahrerGrünanlageentlangBessereEinbahnstraßegroß
5WandsbekerAutoHierStraßeHausKreisverkehrBerlinerHamburgEckeFahrradstellplätze...FehlendeWandsbekHörgenswegStadtRADbitteEScooterKielerKontrolleaufwertenFußgängerampel
6ChausseeParkverbotstehenInfrastrukturwenigZurHandwerkerSillemstraßeGestaltungGarten...SchulwegMarktgefährlichAnwohnerparkplätzeBushaltestelleVorschlagWördemannsSackgasseneuändern
7StraßeElbgaustrRadfahrerLohkampstraßebrauchenGrünStkleineBramfeldertoll...QuerungwenigNeuerverschwindenausbauenPlanungsgebietOllowegFalschparkerFußgängerzoneFurtweg
8illegalKielerPhaseAnwohnerparkenEilbekerStellplatzGeorgvorhandenGrünstreifenDüngelskamp...vsAufenthaltsqualitätLebensqualitätEinbahnstraßenregelungReiheLindenparkZoneRadwegRichtungFußgängerüberweg
9VerkehrStraßeFahrradÜbergangAltesGehwegMasterplanLangenfelderSaselerWelle...attraktivViertelHansaplatzkatastrophalFußwegUmgebungMagistraleCurbsFußgängerinSpiel
10FußgängerampBushaltestellenkomplettGrünBundesstrAusDammPinnebergerQuerungen...errichtenallFusswegetäglichMansteinstrGrünerverlegenSehrNeugestaltungKind
11täglichEAnregungSacheillegalSillemstraßeVerbesserungFehlenderMarktstrBahnhof...HoheluftchausseeVerkehrSchuleStelleGastronomieElbgaustraßeMarktstraßeKfzbeidbzw
12AlsterGüterverbindungsbahnSpurFahrradspurWegMobilitätkonsequentMitverkehrsberuhigtberücksichtigen...sicherBereichÖffentlichebelebenLangeÖjendorferWollinerParkflächenAmpelschaltungenFitness
13FahrradspurgrünKitaordnenFahrradfahrerKirchenalleegroßBessereAlsterschon...gestaltenBundesstrasseEilbekRadfahrerinnenSeiteParkStrasseBallindammengabschaffen
14ÖjendorferGrünphaseSpadenteichGänsemarktGehwegkleinMülltonnenschwachPlanungFahrradwege...FahrbahnLastenräderbaulichBrennerstraßetrennenWartezeitEineGuteFahrradwegFamilie
15mehrVerhaltenBeleuchtungRücksichtengenverbindenServiceparkplätzeGeschwindigkeitBereichSpielplatz...GefahrMiteinanderWallAufwertungMittelstreifennebenWandsbekerSicherheitAußengastronomieUBahn
16langenHaltestelleermöglichengehenBildVerbindungPflegediensteLieferverkehrVorbildKind...MönckebergstraßeTreppenhäusertrennenFußgängerampelnFahrradwegaltvergessenKleinerVolksparkLadenzeile
17RadfahrerVeloroutenLinksabbiegerFalschparkenbzwSperrungPaketdiensteEinfahrtHolsteinerHamburg...AnmerkungFusswegAnbindungKorallusviertelöstlichWochenmarktBegrünungFahrradstrasseEntscheidungaufstocken
18WieglaubenÖPNVBergstraßeHundewieseAnforderungsampelZufahrtVeloroutewünschenbitte...modernFahrradhäuschenFahrradstraßeKFZFahrbahnSuperblockWandseLärmfördernStGeorg
19AmpelfastFußgängerampelPKWEilbektalumstellenZentrumdringenStraßeIch...MärzMethfesselstraßeFehlenderGehwegSchmilinskystraßeallVerkehrmöglichfreigebenaufstellen
\n

20 rows × 25 columns

\n
" }, "metadata": {}, "execution_count": 44 } ], "source": [ "pd.DataFrame(topic_list)" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ] }