Spaces:

nivakaran
/

modelx

Running

App Files Files Community

modelx / src /utils /profile_scrapers.py

nivakaran

Upload folder using huggingface_hub

752f5cc verified 13 days ago

raw

history blame contribute delete

41.2 kB

	"""
	src/utils/profile_scrapers.py
	Profile-based social media scrapers for Intelligence Agent
	Competitive Intelligence & Profile Monitoring Tools
	"""

	import json
	import os
	import time
	import random
	import re
	import logging
	from typing import Optional, List
	from datetime import datetime
	from urllib.parse import quote_plus
	from langchain_core.tools import tool

	try:
	from playwright.sync_api import sync_playwright

	PLAYWRIGHT_AVAILABLE = True
	except ImportError:
	PLAYWRIGHT_AVAILABLE = False

	from src.utils.utils import (
	ensure_playwright,
	load_playwright_storage_state_path,
	clean_twitter_text,
	extract_twitter_timestamp,
	clean_fb_text,
	extract_media_id_instagram,
	fetch_caption_via_private_api,
	)

	logger = logging.getLogger("Roger.utils.profile_scrapers")
	logger.setLevel(logging.INFO)


	# =====================================================
	# TWITTER PROFILE SCRAPER
	# =====================================================


	@tool
	def scrape_twitter_profile(username: str, max_items: int = 20):
	"""
	Twitter PROFILE scraper - targets a specific user's timeline for competitive monitoring.
	Fetches tweets from a specific user's profile, not search results.
	Perfect for monitoring competitor accounts, influencers, or specific business profiles.

	Features:
	- Retry logic with exponential backoff (3 attempts)
	- Fallback to keyword search if profile fails
	- Increased timeout (90s)

	Args:
	username: Twitter username (without @)
	max_items: Maximum number of tweets to fetch

	Returns:
	JSON with user's tweets, engagement metrics, and timestamps
	"""
	ensure_playwright()

	# Load Session
	site = "twitter"
	session_path = load_playwright_storage_state_path(
	site, out_dir="src/utils/.sessions"
	)
	if not session_path:
	session_path = load_playwright_storage_state_path(site, out_dir=".sessions")

	# Check for alternative session file name
	if not session_path:
	alt_paths = [
	os.path.join(os.getcwd(), "src", "utils", ".sessions", "tw_state.json"),
	os.path.join(os.getcwd(), ".sessions", "tw_state.json"),
	os.path.join(os.getcwd(), "tw_state.json"),
	]
	for path in alt_paths:
	if os.path.exists(path):
	session_path = path
	logger.info(f"[TWITTER_PROFILE] Found session at {path}")
	break

	if not session_path:
	return json.dumps(
	{
	"error": "No Twitter session found",
	"solution": "Run the Twitter session manager to create a session",
	},
	default=str,
	)

	results = []
	username = username.lstrip("@") # Remove @ if present

	try:
	with sync_playwright() as p:
	browser = p.chromium.launch(
	headless=True,
	args=[
	"--disable-blink-features=AutomationControlled",
	"--no-sandbox",
	"--disable-dev-shm-usage",
	],
	)

	context = browser.new_context(
	storage_state=session_path,
	viewport={"width": 1280, "height": 720},
	user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
	)

	context.add_init_script(
	"""
	Object.defineProperty(navigator, 'webdriver', {get: () => undefined});
	window.chrome = {runtime: {}};
	"""
	)

	page = context.new_page()

	# Navigate to user profile with retry logic
	profile_url = f"https://x.com/{username}"
	logger.info(f"[TWITTER_PROFILE] Monitoring @{username}")

	max_retries = 3
	navigation_success = False
	last_error = None

	for attempt in range(max_retries):
	try:
	# Exponential backoff: 0, 2, 4 seconds
	if attempt > 0:
	wait_time = 2**attempt
	logger.info(
	f"[TWITTER_PROFILE] Retry {attempt + 1}/{max_retries} after {wait_time}s..."
	)
	time.sleep(wait_time)

	# Increased timeout from 60s to 90s, changed to networkidle
	page.goto(profile_url, timeout=90000, wait_until="networkidle")
	time.sleep(5)

	# Handle popups
	popup_selectors = [
	"[data-testid='app-bar-close']",
	"[aria-label='Close']",
	"button:has-text('Not now')",
	]
	for selector in popup_selectors:
	try:
	if (
	page.locator(selector).count() > 0
	and page.locator(selector).first.is_visible()
	):
	page.locator(selector).first.click()
	time.sleep(1)
	except:
	pass

	# Wait for tweets to load
	try:
	page.wait_for_selector(
	"article[data-testid='tweet']", timeout=20000
	)
	logger.info(f"[TWITTER_PROFILE] Loaded {username}'s profile")
	navigation_success = True
	break
	except:
	last_error = f"Could not load tweets for @{username}"
	logger.warning(
	f"[TWITTER_PROFILE] {last_error}, attempt {attempt + 1}/{max_retries}"
	)
	continue

	except Exception as e:
	last_error = str(e)
	logger.warning(
	f"[TWITTER_PROFILE] Navigation failed on attempt {attempt + 1}: {e}"
	)
	continue

	# If profile scraping failed after all retries, try fallback to keyword search
	if not navigation_success:
	logger.warning(
	f"[TWITTER_PROFILE] Profile scraping failed, falling back to keyword search for '{username}'"
	)
	browser.close()

	# Fallback: use keyword search instead
	try:
	from src.utils.utils import scrape_twitter

	fallback_result = scrape_twitter.invoke(
	{"query": username, "max_items": max_items}
	)
	fallback_data = (
	json.loads(fallback_result)
	if isinstance(fallback_result, str)
	else fallback_result
	)

	if "error" not in fallback_data:
	fallback_data["fallback_used"] = True
	fallback_data["original_error"] = last_error
	fallback_data["note"] = (
	f"Used keyword search as fallback for @{username}"
	)
	return json.dumps(fallback_data, default=str)
	except Exception as fallback_error:
	logger.error(
	f"[TWITTER_PROFILE] Fallback also failed: {fallback_error}"
	)

	return json.dumps(
	{
	"error": last_error
	or f"Profile not found or private: @{username}",
	"fallback_attempted": True,
	},
	default=str,
	)

	# Check if logged in
	if "login" in page.url:
	logger.error("[TWITTER_PROFILE] Session expired")
	return json.dumps({"error": "Session invalid or expired"}, default=str)

	# Scraping with engagement metrics
	seen = set()
	scroll_attempts = 0
	max_scroll_attempts = 10

	TWEET_SELECTOR = "article[data-testid='tweet']"
	TEXT_SELECTOR = "div[data-testid='tweetText']"

	while len(results) < max_items and scroll_attempts < max_scroll_attempts:
	scroll_attempts += 1

	# Expand "Show more" buttons
	try:
	show_more_buttons = page.locator(
	"[data-testid='tweet-text-show-more-link']"
	).all()
	for button in show_more_buttons:
	if button.is_visible():
	try:
	button.click()
	time.sleep(0.3)
	except:
	pass
	except:
	pass

	# Collect tweets
	tweets = page.locator(TWEET_SELECTOR).all()
	new_tweets_found = 0

	for tweet in tweets:
	if len(results) >= max_items:
	break

	try:
	tweet.scroll_into_view_if_needed()
	time.sleep(0.2)

	# Skip promoted/ads
	if (
	tweet.locator("span:has-text('Promoted')").count() > 0
	or tweet.locator("span:has-text('Ad')").count() > 0
	):
	continue

	# Extract text
	text_content = ""
	text_element = tweet.locator(TEXT_SELECTOR).first
	if text_element.count() > 0:
	text_content = text_element.inner_text()

	cleaned_text = clean_twitter_text(text_content)

	# Extract timestamp
	timestamp = extract_twitter_timestamp(tweet)

	# Extract engagement metrics
	likes = 0
	retweets = 0
	replies = 0

	try:
	# Likes
	like_button = tweet.locator("[data-testid='like']")
	if like_button.count() > 0:
	like_text = (
	like_button.first.get_attribute("aria-label") or ""
	)
	like_match = re.search(r"(\d+)", like_text)
	if like_match:
	likes = int(like_match.group(1))

	# Retweets
	retweet_button = tweet.locator("[data-testid='retweet']")
	if retweet_button.count() > 0:
	rt_text = (
	retweet_button.first.get_attribute("aria-label")
	or ""
	)
	rt_match = re.search(r"(\d+)", rt_text)
	if rt_match:
	retweets = int(rt_match.group(1))

	# Replies
	reply_button = tweet.locator("[data-testid='reply']")
	if reply_button.count() > 0:
	reply_text = (
	reply_button.first.get_attribute("aria-label") or ""
	)
	reply_match = re.search(r"(\d+)", reply_text)
	if reply_match:
	replies = int(reply_match.group(1))
	except:
	pass

	# Extract tweet URL
	tweet_url = f"https://x.com/{username}"
	try:
	link_element = tweet.locator("a[href*='/status/']").first
	if link_element.count() > 0:
	href = link_element.get_attribute("href")
	if href:
	tweet_url = f"https://x.com{href}"
	except:
	pass

	# Deduplication
	text_key = cleaned_text[:50] if cleaned_text else ""
	unique_key = f"{username}_{text_key}_{timestamp}"

	if (
	cleaned_text
	and len(cleaned_text) > 20
	and unique_key not in seen
	):
	seen.add(unique_key)
	results.append(
	{
	"source": "Twitter",
	"poster": f"@{username}",
	"text": cleaned_text,
	"timestamp": timestamp,
	"url": tweet_url,
	"likes": likes,
	"retweets": retweets,
	"replies": replies,
	}
	)
	new_tweets_found += 1
	logger.info(
	f"[TWITTER_PROFILE] Tweet {len(results)}/{max_items} (♥{likes} ↻{retweets})"
	)

	except Exception as e:
	logger.debug(f"[TWITTER_PROFILE] Error: {e}")
	continue

	# Scroll if needed
	if len(results) < max_items:
	page.evaluate(
	"window.scrollTo(0, document.documentElement.scrollHeight)"
	)
	time.sleep(random.uniform(2, 3))

	if new_tweets_found == 0:
	break

	browser.close()

	return json.dumps(
	{
	"site": "Twitter Profile",
	"username": username,
	"results": results,
	"total_found": len(results),
	"fetched_at": datetime.utcnow().isoformat(),
	},
	default=str,
	)

	except Exception as e:
	logger.error(f"[TWITTER_PROFILE] {e}")
	return json.dumps({"error": str(e)}, default=str)


	# =====================================================
	# FACEBOOK PROFILE SCRAPER
	# =====================================================


	@tool
	def scrape_facebook_profile(profile_url: str, max_items: int = 10):
	"""
	Facebook PROFILE scraper - monitors a specific page or user profile.
	Scrapes posts from a specific Facebook page/profile timeline for competitive monitoring.

	Args:
	profile_url: Full Facebook profile/page URL (e.g., "https://www.facebook.com/DialogAxiata")
	max_items: Maximum number of posts to fetch

	Returns:
	JSON with profile's posts, engagement metrics, and timestamps
	"""
	ensure_playwright()

	# Load Session
	site = "facebook"
	session_path = load_playwright_storage_state_path(
	site, out_dir="src/utils/.sessions"
	)
	if not session_path:
	session_path = load_playwright_storage_state_path(site, out_dir=".sessions")

	# Check for alternative session file name
	if not session_path:
	alt_paths = [
	os.path.join(os.getcwd(), "src", "utils", ".sessions", "fb_state.json"),
	os.path.join(os.getcwd(), ".sessions", "fb_state.json"),
	os.path.join(os.getcwd(), "fb_state.json"),
	]
	for path in alt_paths:
	if os.path.exists(path):
	session_path = path
	logger.info(f"[FACEBOOK_PROFILE] Found session at {path}")
	break

	if not session_path:
	return json.dumps(
	{
	"error": "No Facebook session found",
	"solution": "Run the Facebook session manager to create a session",
	},
	default=str,
	)

	results = []

	try:
	with sync_playwright() as p:
	facebook_desktop_ua = (
	"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
	"(KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
	)

	browser = p.chromium.launch(headless=True)

	context = browser.new_context(
	storage_state=session_path,
	user_agent=facebook_desktop_ua,
	viewport={"width": 1400, "height": 900},
	)

	page = context.new_page()

	logger.info(f"[FACEBOOK_PROFILE] Monitoring {profile_url}")
	page.goto(profile_url, timeout=120000)
	time.sleep(5)

	# Check if logged in
	if "login" in page.url:
	logger.error("[FACEBOOK_PROFILE] Session expired")
	return json.dumps({"error": "Session invalid or expired"}, default=str)

	seen = set()
	stuck = 0
	last_scroll = 0

	MESSAGE_SELECTOR = "div[data-ad-preview='message']"

	# Poster selectors
	POSTER_SELECTORS = [
	"h3 strong a span",
	"h3 strong span",
	"h3 a span",
	"strong a span",
	"a[role='link'] span:not([class*='timestamp'])",
	"span.fwb a",
	"span.fwb",
	"a[aria-hidden='false'] span",
	"a[role='link'] span",
	]

	def extract_poster(post):
	"""Extract poster name from Facebook post"""
	parent = post.locator(
	"xpath=ancestor::div[contains(@class, 'x1yztbdb')][1]"
	)

	for selector in POSTER_SELECTORS:
	try:
	el = parent.locator(selector).first
	if el and el.count() > 0:
	name = el.inner_text().strip()
	if name and name != "Facebook" and len(name) > 1:
	return name
	except:
	pass

	return "(Unknown)"

	# IMPROVED: Expand ALL "See more" buttons on page before extracting
	def expand_all_see_more():
	"""Click all 'See more' buttons on the visible page"""
	see_more_selectors = [
	# Primary Facebook "See more" patterns
	"div[role='button'] span:text-is('See more')",
	"div[role='button']:has-text('See more')",
	"span:text-is('See more')",
	"span:text-is('… See more')",
	"span:text-is('...See more')",
	# Alternate patterns
	"[role='button']:has-text('See more')",
	"div.x1i10hfl:has-text('See more')",
	# Direct text match
	"text='See more'",
	"text='… See more'",
	]

	clicked = 0
	for selector in see_more_selectors:
	try:
	buttons = page.locator(selector).all()
	for btn in buttons:
	try:
	if btn.is_visible():
	btn.scroll_into_view_if_needed()
	time.sleep(0.2)
	btn.click(force=True)
	clicked += 1
	time.sleep(0.3)
	except:
	pass
	except:
	pass

	if clicked > 0:
	logger.info(
	f"[FACEBOOK_PROFILE] Expanded {clicked} 'See more' buttons"
	)
	return clicked

	while len(results) < max_items:
	# First expand all "See more" on visible content
	expand_all_see_more()
	time.sleep(0.5)

	posts = page.locator(MESSAGE_SELECTOR).all()

	for post in posts:
	try:
	# Try to expand within this specific post container too
	try:
	post.scroll_into_view_if_needed()
	time.sleep(0.3)

	# Look for See more in parent container
	parent = post.locator(
	"xpath=ancestor::div[contains(@class, 'x1yztbdb')][1]"
	)

	post_see_more_selectors = [
	"div[role='button'] span:text-is('See more')",
	"span:text-is('See more')",
	"div[role='button']:has-text('See more')",
	]

	for selector in post_see_more_selectors:
	try:
	btns = parent.locator(selector)
	if btns.count() > 0 and btns.first.is_visible():
	btns.first.click(force=True)
	time.sleep(0.5)
	break
	except:
	pass
	except:
	pass

	raw = post.inner_text().strip()
	cleaned = clean_fb_text(raw)

	poster = extract_poster(post)

	if cleaned and len(cleaned) > 30:
	key = poster + "::" + cleaned
	if key not in seen:
	seen.add(key)
	results.append(
	{
	"source": "Facebook",
	"poster": poster,
	"text": cleaned,
	"url": profile_url,
	}
	)
	logger.info(
	f"[FACEBOOK_PROFILE] Collected post {len(results)}/{max_items}"
	)

	if len(results) >= max_items:
	break

	except:
	pass

	# Scroll
	page.evaluate("window.scrollBy(0, 2300)")
	time.sleep(1.5)

	new_scroll = page.evaluate("window.scrollY")
	stuck = stuck + 1 if new_scroll == last_scroll else 0
	last_scroll = new_scroll

	if stuck >= 3:
	logger.info("[FACEBOOK_PROFILE] Reached end of results")
	break

	browser.close()

	return json.dumps(
	{
	"site": "Facebook Profile",
	"profile_url": profile_url,
	"results": results[:max_items],
	"storage_state": session_path,
	},
	default=str,
	)

	except Exception as e:
	logger.error(f"[FACEBOOK_PROFILE] {e}")
	return json.dumps({"error": str(e)}, default=str)


	# =====================================================
	# INSTAGRAM PROFILE SCRAPER
	# =====================================================


	@tool
	def scrape_instagram_profile(username: str, max_items: int = 15):
	"""
	Instagram PROFILE scraper - monitors a specific user's profile.
	Scrapes posts from a specific Instagram user's profile grid for competitive monitoring.

	Args:
	username: Instagram username (without @)
	max_items: Maximum number of posts to fetch

	Returns:
	JSON with user's posts, captions, and engagement
	"""
	ensure_playwright()

	# Load Session
	site = "instagram"
	session_path = load_playwright_storage_state_path(
	site, out_dir="src/utils/.sessions"
	)
	if not session_path:
	session_path = load_playwright_storage_state_path(site, out_dir=".sessions")

	# Check for alternative session file name
	if not session_path:
	alt_paths = [
	os.path.join(os.getcwd(), "src", "utils", ".sessions", "ig_state.json"),
	os.path.join(os.getcwd(), ".sessions", "ig_state.json"),
	os.path.join(os.getcwd(), "ig_state.json"),
	]
	for path in alt_paths:
	if os.path.exists(path):
	session_path = path
	logger.info(f"[INSTAGRAM_PROFILE] Found session at {path}")
	break

	if not session_path:
	return json.dumps(
	{
	"error": "No Instagram session found",
	"solution": "Run the Instagram session manager to create a session",
	},
	default=str,
	)

	username = username.lstrip("@") # Remove @ if present
	results = []

	try:
	with sync_playwright() as p:
	instagram_mobile_ua = (
	"Mozilla/5.0 (iPhone; CPU iPhone OS 17_0 like Mac OS X) "
	"AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.0 Mobile/15E148 Safari/604.1"
	)

	browser = p.chromium.launch(headless=True)

	context = browser.new_context(
	storage_state=session_path,
	user_agent=instagram_mobile_ua,
	viewport={"width": 430, "height": 932},
	)

	page = context.new_page()
	url = f"https://www.instagram.com/{username}/"

	logger.info(f"[INSTAGRAM_PROFILE] Monitoring @{username}")
	page.goto(url, timeout=120000)
	page.wait_for_timeout(4000)

	# Check if logged in and profile exists
	if "login" in page.url:
	logger.error("[INSTAGRAM_PROFILE] Session expired")
	return json.dumps({"error": "Session invalid or expired"}, default=str)

	# Scroll to load posts
	for _ in range(8):
	page.mouse.wheel(0, 2500)
	page.wait_for_timeout(1500)

	# Collect post links
	anchors = page.locator("a[href='/p/'], a[href='/reel/']").all()
	links = []

	for a in anchors:
	href = a.get_attribute("href")
	if href:
	full = "https://www.instagram.com" + href
	links.append(full)
	if len(links) >= max_items:
	break

	logger.info(
	f"[INSTAGRAM_PROFILE] Found {len(links)} posts from @{username}"
	)

	# Extract captions from each post
	for link in links:
	logger.info(f"[INSTAGRAM_PROFILE] Scraping {link}")
	page.goto(link, timeout=120000)
	page.wait_for_timeout(2000)

	media_id = extract_media_id_instagram(page)
	caption = fetch_caption_via_private_api(page, media_id)

	# Fallback to direct extraction
	if not caption:
	try:
	caption = (
	page.locator("article h1, article span")
	.first.inner_text()
	.strip()
	)
	except:
	caption = None

	if caption:
	results.append(
	{
	"source": "Instagram",
	"poster": f"@{username}",
	"text": caption,
	"url": link,
	}
	)
	logger.info(
	f"[INSTAGRAM_PROFILE] Collected post {len(results)}/{max_items}"
	)

	browser.close()

	return json.dumps(
	{
	"site": "Instagram Profile",
	"username": username,
	"results": results,
	"storage_state": session_path,
	},
	default=str,
	)

	except Exception as e:
	logger.error(f"[INSTAGRAM_PROFILE] {e}")
	return json.dumps({"error": str(e)}, default=str)


	# =====================================================
	# LINKEDIN PROFILE SCRAPER
	# =====================================================


	@tool
	def scrape_linkedin_profile(company_or_username: str, max_items: int = 10):
	"""
	LinkedIn PROFILE scraper - monitors a company or user profile.
	Scrapes posts from a specific LinkedIn company or personal profile for competitive monitoring.

	Args:
	company_or_username: LinkedIn company name or username (e.g., "dialog-axiata" or "company/dialog-axiata")
	max_items: Maximum number of posts to fetch

	Returns:
	JSON with profile's posts and engagement
	"""
	ensure_playwright()

	# Load Session
	site = "linkedin"
	session_path = load_playwright_storage_state_path(
	site, out_dir="src/utils/.sessions"
	)
	if not session_path:
	session_path = load_playwright_storage_state_path(site, out_dir=".sessions")

	# Check for alternative session file name
	if not session_path:
	alt_paths = [
	os.path.join(os.getcwd(), "src", "utils", ".sessions", "li_state.json"),
	os.path.join(os.getcwd(), ".sessions", "li_state.json"),
	os.path.join(os.getcwd(), "li_state.json"),
	]
	for path in alt_paths:
	if os.path.exists(path):
	session_path = path
	logger.info(f"[LINKEDIN_PROFILE] Found session at {path}")
	break

	if not session_path:
	return json.dumps(
	{
	"error": "No LinkedIn session found",
	"solution": "Run the LinkedIn session manager to create a session",
	},
	default=str,
	)

	results = []

	try:
	with sync_playwright() as p:
	browser = p.chromium.launch(headless=True)
	context = browser.new_context(
	storage_state=session_path,
	user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
	viewport={"width": 1400, "height": 900},
	)

	page = context.new_page()

	# Construct profile URL
	if not company_or_username.startswith("http"):
	if "company/" in company_or_username:
	profile_url = f"https://www.linkedin.com/company/{company_or_username.replace('company/', '')}"
	else:
	profile_url = f"https://www.linkedin.com/in/{company_or_username}"
	else:
	profile_url = company_or_username

	logger.info(f"[LINKEDIN_PROFILE] Monitoring {profile_url}")
	page.goto(profile_url, timeout=120000)
	page.wait_for_timeout(5000)

	# Check if logged in
	if "login" in page.url or "authwall" in page.url:
	logger.error("[LINKEDIN_PROFILE] Session expired")
	return json.dumps({"error": "Session invalid or expired"}, default=str)

	# Navigate to posts section
	try:
	posts_tab = page.locator(
	"a:has-text('Posts'), button:has-text('Posts')"
	).first
	if posts_tab.is_visible():
	posts_tab.click()
	page.wait_for_timeout(3000)
	except:
	logger.warning("[LINKEDIN_PROFILE] Could not find posts tab")

	seen = set()
	no_new_data_count = 0
	previous_height = 0

	POST_CONTAINER_SELECTOR = "div.feed-shared-update-v2"
	TEXT_SELECTOR = "span.break-words"
	POSTER_SELECTOR = "span.update-components-actor__name span[dir='ltr']"

	while len(results) < max_items and no_new_data_count < 3:
	# Expand "see more" buttons
	try:
	see_more_buttons = page.locator(
	"button.feed-shared-inline-show-more-text__see-more-less-toggle"
	).all()
	for btn in see_more_buttons:
	if btn.is_visible():
	try:
	btn.click(timeout=500)
	except:
	pass
	except:
	pass

	posts = page.locator(POST_CONTAINER_SELECTOR).all()

	for post in posts:
	if len(results) >= max_items:
	break
	try:
	post.scroll_into_view_if_needed()
	raw_text = ""
	text_el = post.locator(TEXT_SELECTOR).first
	if text_el.is_visible():
	raw_text = text_el.inner_text()

	# Clean text
	cleaned_text = raw_text
	if cleaned_text:
	cleaned_text = re.sub(
	r"…\s*see more", "", cleaned_text, flags=re.IGNORECASE
	)
	cleaned_text = re.sub(
	r"See translation",
	"",
	cleaned_text,
	flags=re.IGNORECASE,
	)
	cleaned_text = cleaned_text.strip()

	poster_name = "(Unknown)"
	poster_el = post.locator(POSTER_SELECTOR).first
	if poster_el.is_visible():
	poster_name = poster_el.inner_text().strip()

	key = f"{poster_name[:20]}::{cleaned_text[:30]}"
	if cleaned_text and len(cleaned_text) > 20 and key not in seen:
	seen.add(key)
	results.append(
	{
	"source": "LinkedIn",
	"poster": poster_name,
	"text": cleaned_text,
	"url": profile_url,
	}
	)
	logger.info(
	f"[LINKEDIN_PROFILE] Found post {len(results)}/{max_items}"
	)
	except:
	continue

	# Scroll
	page.evaluate("window.scrollTo(0, document.body.scrollHeight)")
	page.wait_for_timeout(random.randint(2000, 4000))

	new_height = page.evaluate("document.body.scrollHeight")
	if new_height == previous_height:
	no_new_data_count += 1
	else:
	no_new_data_count = 0
	previous_height = new_height

	browser.close()
	return json.dumps(
	{
	"site": "LinkedIn Profile",
	"profile": company_or_username,
	"results": results,
	"storage_state": session_path,
	},
	default=str,
	)

	except Exception as e:
	logger.error(f"[LINKEDIN_PROFILE] {e}")
	return json.dumps({"error": str(e)}, default=str)


	# =====================================================
	# PRODUCT REVIEW AGGREGATOR
	# =====================================================


	@tool
	def scrape_product_reviews(
	product_keyword: str, platforms: Optional[List[str]] = None, max_items: int = 10
	):
	"""
	Multi-platform product review aggregator for competitive intelligence.
	Searches for product reviews and mentions across Reddit and Twitter.

	Args:
	product_keyword: Product name to search for
	platforms: List of platforms to search (default: ["reddit", "twitter"])
	max_items: Maximum number of reviews per platform

	Returns:
	JSON with aggregated reviews from multiple platforms
	"""
	if platforms is None:
	platforms = ["reddit", "twitter"]

	all_reviews = []

	try:
	# Import tool factory for independent tool instances
	# This ensures parallel execution safety
	from src.utils.tool_factory import create_tool_set

	local_tools = create_tool_set()

	# Reddit reviews
	if "reddit" in platforms:
	try:
	reddit_tool = local_tools.get("scrape_reddit")
	if reddit_tool:
	reddit_data = reddit_tool.invoke(
	{
	"keywords": [f"{product_keyword} review", product_keyword],
	"limit": max_items,
	}
	)

	reddit_results = (
	json.loads(reddit_data)
	if isinstance(reddit_data, str)
	else reddit_data
	)
	if "results" in reddit_results:
	for item in reddit_results["results"]:
	all_reviews.append(
	{
	"platform": "Reddit",
	"text": item.get("text", ""),
	"url": item.get("url", ""),
	"poster": item.get("poster", "Unknown"),
	}
	)
	logger.info(
	f"[PRODUCT_REVIEWS] Collected {len([r for r in all_reviews if r['platform'] == 'Reddit'])} Reddit reviews"
	)
	except Exception as e:
	logger.error(f"[PRODUCT_REVIEWS] Reddit error: {e}")

	# Twitter reviews
	if "twitter" in platforms:
	try:
	twitter_tool = local_tools.get("scrape_twitter")
	if twitter_tool:
	twitter_data = twitter_tool.invoke(
	{
	"query": f"{product_keyword} review OR {product_keyword} rating",
	"max_items": max_items,
	}
	)

	twitter_results = (
	json.loads(twitter_data)
	if isinstance(twitter_data, str)
	else twitter_data
	)
	if "results" in twitter_results:
	for item in twitter_results["results"]:
	all_reviews.append(
	{
	"platform": "Twitter",
	"text": item.get("text", ""),
	"url": item.get("url", ""),
	"poster": item.get("poster", "Unknown"),
	}
	)
	logger.info(
	f"[PRODUCT_REVIEWS] Collected {len([r for r in all_reviews if r['platform'] == 'Twitter'])} Twitter reviews"
	)
	except Exception as e:
	logger.error(f"[PRODUCT_REVIEWS] Twitter error: {e}")

	return json.dumps(
	{
	"product": product_keyword,
	"total_reviews": len(all_reviews),
	"reviews": all_reviews,
	"platforms_searched": platforms,
	},
	default=str,
	)

	except Exception as e:
	logger.error(f"[PRODUCT_REVIEWS] {e}")
	return json.dumps({"error": str(e)}, default=str)