Ayuda con un proyecto corto [Archivo] - ZonaDeVicio - Tu comunidad de videojuegos online

igovan

21/07/2009, 15:56

No se si habrá mucha gente que este estudiando o haya estudiado en la MU (Mondragon unibertsitatea), pero me acaban de dar una patada en todos los ****.

Empecemos yo ando en 3 de ingeniería técnica en informática de sistemas y para cursar el año que viene 4 me mandaron hacer un proyecto corto sobre el spam en imágenes etc (eso al final ha ido dando mas que un problema y a finales de julio me han reescrito el proyecto dejándolo en el mail que veréis a continuación, lógicamente todo lo llevado acabo antes pues no vale mucho la pena, solo alguna cosillas)

Os dejo el mail que me ha llegado hoy haber si me podéis hechar una mano, o si conocéis algo del tema para ir empezandome a documentar, ya que tengo que hacer el proyecto en un mes escaso y estudiar para la asignatura que tengo en septiembre que tengo que aprobar.

La verdad es que me parece un tema bastante difícil para programa a si en un mes y me da ami que como no exista algo hecho pro donde tirar me voy a dar un ostion que me dejara a ami sin estar el año que viene en 4.

Lo pongo como spoiler ya que no quiero llenar el post a lo tonto, con el mail que me han mandado.

Kaixo!!

Ya hemos decidido por donde reorientar el trabajo y definir un poco el camino a seguir así que te cuento:

La idea es abandonar el tema de las imágenes visto que resulta imposible tirar por hay, así que el plan B es tratar de hacer detección de spam personalizado.

La idea es desarrollar un sistema que sea capaz de descubrir los datos personales de las personas en redes sociales tipo Lynkedin, facebook, tuenty, etc... De forma que podamos saber el nombre de las personas, sus aficiones, sus temas de interes, etc, información que las personas publican en ese tipo de redes. Una vez que tengamos esa información, esta se almacenaría en una base de datos para su clasificación. Con esto pretendemos descubrir las ficiones o intereses de las personas, me explico, si un persona indica en las redes sociales en las que participa los temas como spam, seguridad y linux, damos por supuesto que le interesan esos temas. Cuantas más veces aparezcan esas palabras mejor, ya que denotará un mayor interés por esos temas.

Una vez que tengamos esa información, un sistema se encargará de recoger esos datos de la base de datos y será capaz de enviar spam personalizado, es decir, de acuerdo a los gustos y aficiones de la persona.

No es nuestro objetivo hacer un sistema de spam, sino ver como funciona, si es posible hacerlo, y una vez que hemos visto que se puede, desarrollar un sistema que haga lo mismo, es decir, que recoja esa información pero con propósitos más nobles, ya que implementaría automáticamente filtros para evitar ese tipo de spam personalizado.

Si puedes indagar por Internet para ver que cosas hay hechas sobre esto sería perfecto. Lo que queremos es ver si hay herramientas que hagan esto de forma automática, o si hay que desarrollarlas, si hay alguien trabajando sobre esto, etc.

Sería investigar un poco sobre el tema para ver su viabilidad, algo así como el estado actual de esta tecnología.

Como palabras clave para empezar la búsqueda mira las siguientes:

Tag cloud (una nube donde aparecen palabras con diferentes tamaños (mayo cuantas más veces aparecen)
Webcrowler (un sistema que se descarga el contenido de las webs para luego poder almacenarlo en una base de datos)

Un saludo y ya me contarás.

Se que igual solo tengo la opción de joderme y sufrir durante el verano, intentando llegar a algo que igual no llego, no se cualquier consejo o algo que me deis sera de gran ayuda.

Por que para que os voy a engañar, este tipo de redes sociales guardan bien las cosas y yo de tema de Hacking pues como que no voy.

Se que muchos de vosotros habéis estudiado carreras, y habéis pasado por cosas parecidas, enserio aunque sea una respuesta dándome ánimos me habréis ayudado un montón.

Gracias por todo cracks, sois parte de mis esperanzas.

Un saludo a todos.

juanvvc

21/07/2009, 16:09

Pa mí que lo que quieren tus profes es que les escribas el estado del arte de algún articulillo. Todos hemos pasado por eso, no te preocupes :)

Hombre, para los que estamos acostumbrados a hacerlo parece un trabajo de una tarde y por lo que entiendo, bastante adecuado. La clave es esta frase: Si puedes indagar por Internet para ver que cosas hay hechas sobre esto sería perfecto Es decir, que solo te piden que investigues qué hay actualmente en el tema. Yo de ti, en vez de google tiraría de scholar.google :)

civantoz

21/07/2009, 17:03

Que morrazo tienen los profesores, me parto de la risa :D en cuanto a soluciones ya preparadas que lo hagan, no se me ocurre ninguna, no me dedico al spam, en cuanto a preparar una prueba de concepto rapidita, creo que haciendo una cutre araña que vaya viendo enlaces de gente del facebook, y use alguna técnica, como los filtros bayesianos que se usan para el spam, pero en este caso a la inversa :D para marcar temas buenos, sería mas que suficiente.

Es solo una idea...

Malenko

21/07/2009, 17:15

Dos apuntes breves:
1) Es WebCrawler, no webcrowler
2) Vas a encontrar poca información sobre esos sistemas

Este tipo de temas son un poco tabus, además, quien desarrolla un buen sistema de SPAM no lo va a ir regalando por la web, ni tampoco sus secretos porque sino perdería dinero. Lo que si puedes hacer es una prueba de concepto. También podrias ponerte en contacto con PandaLabs, que los tienes "cerquita" y comentarles tu caso. Te podrán dar pistas de como luchan contra ese tipo de spams.

igovan

21/07/2009, 21:23

Dos apuntes breves:
1) Es WebCrawler, no webcrowler
2) Vas a encontrar poca información sobre esos sistemas

Este tipo de temas son un poco tabus, además, quien desarrolla un buen sistema de SPAM no lo va a ir regalando por la web, ni tampoco sus secretos porque sino perdería dinero. Lo que si puedes hacer es una prueba de concepto. También podrias ponerte en contacto con PandaLabs, que los tienes "cerquita" y comentarles tu caso. Te podrán dar pistas de como luchan contra ese tipo de spams.

Si es lo que pienso que va ser difícil de indagar por que la gente no suelta, encima me han comentado un amigo por ejemplo que en el caso de Tuenti no suelta esa información cosas, no se todas las ideas que veías comentarme yo intentare buscar cosas mandarles otro mail y preguntarles haber si voy por buen camino.

P.D.: Me veo el año que viene haciendo proyecto largo por culpa del listo de mi tutor xD

hardyx

22/07/2009, 00:48

Tu tutor está flipado perdido, pretende que crees un sistema antispam personalizado para redes sociales recolectando datos personales. No tiene ni pies de cabeza, porque no vas a llegar a ninguna parte con eso. O al menos eso creo.

Como mucho estudiar como funciona algún sistema de spam, pero no creo que encuentres muchos. Porque esos sistemas son todos comerciales y posiblemente los implementan los propios servidores de redes sociales para sus anunciantes. Porque hay mucho dinero de por medio en publicidad. No te van a revelar cómo funciona su sistema.

Lo que si es abordable y lo que podrías proponer a tu tutor es obtener palabras clave y direcciones de correo de páginas web y correos electrónicos locales. Y luego podrías hacer un encriptador de páginas web para evitar el spam, o un detector de spam por palabras clave.

O una página "honeypot" (tarro de miel) contra los webcrawlers. O sea, una página donde hay miles de direcciones falsas que colapsan la base de datos del spammer.

igovan

22/07/2009, 10:33

Tu tutor está flipado perdido, pretende que crees un sistema antispam personalizado para redes sociales recolectando datos personales. No tiene ni pies de cabeza, porque no vas a llegar a ninguna parte con eso. O al menos eso creo.

Como mucho estudiar como funciona algún sistema de spam, pero no creo que encuentres muchos. Porque esos sistemas son todos comerciales y posiblemente los implementan los propios servidores de redes sociales para sus anunciantes. Porque hay mucho dinero de por medio en publicidad. No te van a revelar cómo funciona su sistema.

Lo que si es abordable y lo que podrías proponer a tu tutor es obtener palabras clave y direcciones de correo de páginas web y correos electrónicos locales. Y luego podrías hacer un encriptador de páginas web para evitar el spam, o un detector de spam por palabras clave.

O una página "honeypot" (tarro de miel) contra los webcrawlers. O sea, una página donde hay miles de direcciones falsas que colapsan la base de datos del spammer.

Estoy mirando y no se ni por donde empezar, encima con esta ola de calor de estos días en Euskadi no hay quien viva, ufff.

Gracias por toda vuestra ayuda según vaya consiguiendo cosas o determinando tareas os avisare, todos vuestros consejos son y serán bienvenidos.

Mil gracias.

Un saludo.

otto_xd

22/07/2009, 10:48

Yumi, mineria de datos ^^

Pûes nada, lo que te han dicho, un bot que recorra enlaces de la gente y acumule palabras tipo mediante filtros clasicos antispam.

Te diria que si sigues con ello (beca o cualquier mierda tipo), hay modelos xml ya creados para almacenar los datos que saques de peinar la web, y te pueden ahorrar unas horas de pensar como almacenar dichos datos de una forma estructurada y "facil" de entender.

PD.Es un marron que te cagas, pero anumo!!

Malenko

22/07/2009, 11:34

encima me han comentado un amigo por ejemplo que en el caso de Tuenti no suelta esa información cosas,
Y facebook lo quieren cambiar para que sea así. Quieren que tu tengas que elegir que información compartes y con quien (uno por uno casi), y no como hasta ahora.

Y hablando de facebook, porque no haces una aplicación chorra (por ejemplo una encuesta) ya que de esa forma puedes acceder al perfil de los participantes y a su información privada. Puedes hacer el estudio orientandolo a como es de facil para un spammer crear una aplicación en Facebook y obtener victimas. Puedes hablar del tipo de información que puedes obtener (dirección, amigos, gustos, etc.) y de como se propaga: lo tipico de "recomendar/enviar a un amigo".

Creo que es un trabajo factible :)

juanvvc

22/07/2009, 14:19

Tu tutor está flipado perdido, pretende que crees un sistema antispam personalizado para redes sociales recolectando datos personales. No tiene ni pies de cabeza, porque no vas a llegar a ninguna parte con eso. O al menos eso creo..

No, no pretende que lo cree. Pretende que investigue si hay algo así ya ahí fuera. Y sí que hay porque lo he leído, al menos en el plano teórico y científico :) Vamos, que quieren que escriba el estado del arte del asunto :)

Al menos, eso es lo que entiendo.

igovan

08/08/2009, 08:15

No, no pretende que lo cree. Pretende que investigue si hay algo así ya ahí fuera. Y sí que hay porque lo he leído, al menos en el plano teórico y científico :) Vamos, que quieren que escriba el estado del arte del asunto :)

Al menos, eso es lo que entiendo.

Y facebook lo quieren cambiar para que sea así. Quieren que tu tengas que elegir que información compartes y con quien (uno por uno casi), y no como hasta ahora.

Y hablando de facebook, porque no haces una aplicación chorra (por ejemplo una encuesta) ya que de esa forma puedes acceder al perfil de los participantes y a su información privada. Puedes hacer el estudio orientandolo a como es de facil para un spammer crear una aplicación en Facebook y obtener victimas. Puedes hablar del tipo de información que puedes obtener (dirección, amigos, gustos, etc.) y de como se propaga: lo tipico de "recomendar/enviar a un amigo".

Creo que es un trabajo factible :)

Sigo dándole vueltas y buscando cosas y es un pitoste, vosotros cuando hicisteis vuestro trabajo en plan medio teórico como lo llevasteis.

Gracias por toda la ayuda que me estáis dando.

Un saludo.